Mémoire alternative efficace à rbind en place rbind?

J'ai besoin de rbind deux grandes trames de données. Maintenant j'utilise

df <- rbind(df, df.extension)

mais j'ai (presque) instantanément à court de mémoire. Je suppose que c'est parce que df est tenu à la mémoire de deux fois. Je pourrais voir encore plus grand des trames de données à l'avenir, j'ai donc besoin d'une sorte de place rbind.

Donc ma question est: Est-il un moyen d'éviter la duplication des données dans la mémoire lors de l'utilisation de rbind?

J'ai trouvé ce question, qui utilise SqlLite, mais je veux vraiment éviter d'utiliser le disque dur comme mémoire cache.

êtes-vous payer? Si oui, pouvez-vous acheter pour moi aussi? 😉
Si je travaillais pour moi il serait payer pour lui-même dans l'augmentation de la productivité, et quand j'ai posé cet argument à mon employeur actuel, il a été accepté comme un "business case".
Deux questions: 1: j'ai appris que (re)codage de temps nécessite un TARDIS. 2: au-Delà d'un particulier sweet spot, c'est mieux pour la mémoire de la carte que pour obtenir plus de RAM. Souvent, la fonction objectif pour le CHP est multidimensionnelle.
Dites-nous les dimensions des deux dfs. Semble comme object.size(df) >> object.size(df.extension), droit? Aussi, pouvons-nous supposer que leurs deux colonnes sont identiques en nombre, le nom, le type, le taux de facteur? donc, nous n'avons pas besoin de vérifier, remplissez les colonnes manquantes, NAs etc?

InformationsquelleAutor Sebastian | 2011-08-17

dataframe r rbind

18

data.table est votre ami!

C. f. http://www.mail-archive.com/[email protected]/msg175877.html

Suivi nikola commentaire, voici ?rbindlist's description (nouveau dans v1.8.2) :

Même que do.call("rbind",l), mais beaucoup plus rapide.
- De Plus, la version 1.8.2 de data.table a la rbindlist fonction, qui sera utile.
- Notez que rbindlist ne vérifie pas les noms de colonne, qui fait partie de la raison pour laquelle il est plus rapide.
- Notez que rbindlist ne vérifie pas les noms de colonne, qui fait partie de la raison pour laquelle il est plus rapide. dplyr's rbind_all est un peu plus lent, mais ne à la colonne de vérification de nom, donc parfois, il peut être plus utile.
InformationsquelleAutor Ari B. Friedman
17

Tout d'abord : l'Utilisation de la solution de l'autre question, vous avez le lien si vous voulez être en sécurité. Comme R est en appel par valeur, oublier "en place", méthode qui n'a pas de copie de votre dataframes dans la mémoire.

Un pas conseillé méthode d'économiser un peu de mémoire, est de prétendre votre dataframes sont des listes, le fait de contraindre une liste à l'aide d'une boucle for (apply (appliquer) pour consommer de la mémoire comme l'enfer) et de faire R crois que c'est en réalité un dataframe.

Je vais vous avertir de nouveau : l'utilisation de cette plus complexes dataframes est d'avoir des ennuis et dur-à-trouver des bugs. Assurez-vous donc de tester assez bien, et si possible, évitez autant que possible.

Vous pouvez essayer de l'approche suivante :
```
n1 <- 1000000
n2 <- 1000000
ncols <- 20
dtf1 <- as.data.frame(matrix(sample(n1*ncols), n1, ncols))
dtf2 <- as.data.frame(matrix(sample(n2*ncols), n1, ncols))

dtf <- list()

for(i in names(dtf1)){
  dtf[[i]] <- c(dtf1[[i]],dtf2[[i]])
}

attr(dtf,"row.names") <- 1:(n1+n2)
attr(dtf,"class") <- "data.frame"
```
Il efface rownames vous aviez en fait (vous pouvez les reconstruire, mais la vérification des doublons rownames!). Il également ne pas s'acquitter de tous les autres tests inclus dans rbind.

Vous permet d'économiser environ la moitié de la mémoire, dans mes tests, et dans mon test à la fois la dtfcomb et la dtf sont égaux. La zone rouge est rbind, le jaune, ma liste est basée sur l'approche.

Script de Test :
```
n1 <- 3000000
n2 <- 3000000
ncols <- 20

dtf1 <- as.data.frame(matrix(sample(n1*ncols), n1, ncols))
dtf2 <- as.data.frame(matrix(sample(n2*ncols), n1, ncols))

gc()
Sys.sleep(10)
dtfcomb <- rbind(dtf1,dtf2)
Sys.sleep(10)
gc()
Sys.sleep(10)
rm(dtfcomb)
gc()
Sys.sleep(10)
dtf <- list()
for(i in names(dtf1)){
  dtf[[i]] <- c(dtf1[[i]],dtf2[[i]])
}
attr(dtf,"row.names") <- 1:(n1+n2)
attr(dtf,"class") <- "data.frame"
Sys.sleep(10)
gc()
Sys.sleep(10)
rm(dtf)
gc()
```
- Tandis que "pas souhaitable" il ressemble à du plaisir. Cependant, votre histoire manque d'axes et les échelles. 😉
- +1 pour la mémoire de la mesure. Besoin de plus de travail pour gérer les facteurs (et d'autres colonnes avec des attributs) depuis c(a,b) supprime tous les attributs.
- certainement sûr. D'où mon avertissement. Je ne l'ai pas mentionné spécifiquement, bien sûr, mais je n'ai pas le temps de fabriquer de tous les contrôles. Pour le dire avec ma phrase favorite : "je laisse au lecteur comme un exercice" 😉
InformationsquelleAutor Joris Meys
10

Maintenant j'ai la solution suivante:
```
nextrow = nrow(df)+1
df[nextrow:(nextrow+nrow(df.extension)-1),] = df.extension
# we need to assure unique row names
row.names(df) = 1:nrow(df)
```
Maintenant, je n'ai pas de manquer de mémoire. Je pense que c'est parce que j'magasin
```
object.size(df) + 2 * object.size(df.extension)
```
tout avec rbind R aurait besoin
```
object.size(rbind(df,df.extension)) + object.size(df) + object.size(df.extension). 
```
Après que j'utilise
```
rm(df.extension)
gc(reset=TRUE)
```
pour libérer de la mémoire, je n'ai pas besoin de plus.

Cela a résolu mon problème pour l'instant, mais j'ai l'impression qu'il est plus avancé moyen de faire un mémoire efficace rbind. J'apprécie tous les commentaires sur cette solution.
- C'est autant "à la place", comme vous pouvez le faire. Il utilise environ la même quantité de mémoire que ma solution, et a moins de chance sur les bugs. Très agréable. De Plus, pourquoi voudriez-vous quelque chose de plus compliqué que cela fonctionne sans complications? La seule chose est que vous perdez votre original df, mais si ce n'est pas un problème, la vôtre est la meilleure solution.
- merci. Je suis conscient que je lâche l'original df, mais c'est un compromis que je dois prendre. Thumbs up pour vous les performances de la mémoire de l'analyse.
- Semble comme object.size(df) >> object.size(df.extension), droit?
- Le plus avancé de manière à véritablement faire sur place rbind data.table::rbind_allpar Ari Friedman réponse
InformationsquelleAutor Sebastian
5

C'est un candidat parfait pour bigmemory. Voir le site pour plus d'informations. Voici trois de l'utilisation des aspects à considérer:
1. C'est OK pour utiliser la HD: la Mémoire de la HD est beaucoup plus rapide que pratiquement tous les autres accès, de sorte que vous ne pouvez pas voir toutes les ralentissements. Parfois, je m'appuie sur > 1 to de mémoire mappée des matrices, mais la plupart sont entre 6 et 50 GO. En outre, comme l'objet est une matrice, il faut sans réel des frais généraux de la réécriture du code pour utiliser l'objet.
2. Si vous utilisez un fichier sauvegardé matrice ou pas, vous pouvez utiliser separated = TRUE pour rendre les colonnes distinctes. Je n'ai pas utilisé beaucoup, parce que de mon 3ème astuce:
3. Vous pouvez allouer de l'espace disque pour permettre un plus grand potentiel de la taille de la matrice, mais seulement de charger les submatrix d'intérêt. De cette façon, il n'y a pas besoin de faire rbind.
Remarque: Bien que l'original question des trames de données et bigmemory est adapté pour les matrices, on peut facilement créer des matrices différentes pour les différents types de données, puis de combiner les objets en mémoire vive pour créer un dataframe, si c'est vraiment nécessaire.
- euh... nous parlons dataframes ici, et loin de tous les dataframe est transformable à une matrice. Pense un dataframe avec un entier et d'un facteur par exemple...
- Nous avons pensé la même pensée au même moment, monsieur. :- ) Voir ma mise à jour.
- comment feriez-vous face à des facteurs alors? De Plus, vous perdez toutes les autres fonctionnalités de dataframes.
- Juste stocker les taux de facteur séparément et de les convertir vers et à partir, en utilisant des entiers. Je n'ai pas envoyé les facteurs de bigmatrix, comme je l'ai généralement de la poignée de la stratification sur mon propre. J'ai eu facteurs mutilé trop souvent par d'autres R code pour utiliser vraiment, de toute façon. Pour ces données, j'ai presque toujours coller avec des nombres entiers et utiliser des noms de variable pour indiquer le type. Si quelque chose poignées de facteurs de façon responsable, je fais une conversion avant de transmettre les données.
- (Suite) La seule exception étant les facteurs qui sont des chaînes de caractères. La Mutilation de ceux-ci peuvent être plus faciles à détecter.
- Juste des sons. Encore, j'aimerais voir quelques tests de la conversion en dataframe. Si vous songez à utiliser des données.cadre ou en tant que.les données.cadre, être préparé pour la mémoire de l'enfer 🙂
- Concernant les "autres fonctions" (ne pas être sarcastique, seulement de reproduire @Joris' mention) de trames de données, j'ai peut-être devenir partiale: j'ai déplacé autant de données à bigmemory que je ne pense pas que j'utilise des trames de données que beaucoup plus. (Je suis intrigué par les données.tables cependant). Donc, Joris pose une question juste, mais il manquait un "grand.les données.cadre" paquet, j'ai "compromis" et a déménagé à matrices afin de travailler avec de grandes quantités de données.
- Nous pensons la même chose. Je suis d'accord. Je n'ai tout simplement pas utiliser les données.les cadres que beaucoup plus. Je sais que je fais une spéciale de conversion lors de leur passage à ggplot, mais la plupart de mes objets de données sont de petites listes et des matrices de grande taille.
InformationsquelleAutor Iterator

Vous devez vous connecter pour publier un commentaire.