Combien de données R peut-il gérer?
Par "traitement", je veux dire manipuler multi-colonnes de lignes de données. Comment ne R pile face à des outils comme Excel, SPSS, SAS, et les autres? Est R un outil viable pour la recherche au "BIG DATA" (des centaines de millions, des milliards de lignes)? Si non, statistiques, outils de programmation sont les mieux adaptés pour l'analyse de grands ensembles de données?
source d'informationauteur AME | 2011-04-03
Vous devez vous connecter pour publier un commentaire.
Si vous regardez la Le Calcul De Haute Performance Task View sur CRAN, vous aurez une bonne idée de ce que R peut le faire dans un sens élevé de performance.
Vous pouvez en principal de stocker autant de données que vous avez de la RAM avec le exception que, actuellement, les vecteurs et les matrices sont limités à 2^31 - 1 éléments, car R utilise 32 bits indices sur les vecteurs. Général vecteurs (listes, et de leurs dérivés des trames de données) sont limités à 2^31 - 1 composants, et chacun de ces composants a les mêmes restrictions que les vecteurs/matrices/lists/données.cadres etc.
Bien sûr, ce sont des limites théoriques, si vous voulez faire quelque chose avec les données dans R, il va inévitablement besoin d'espace pour contenir un couple de copies au moins, en tant que R va généralement de copier les données transmises à des fonctions, etc.
Il y a des efforts pour permettre le stockage sur disque (plutôt que dans la mémoire vive); mais même ceux-ci seront limités à la 2^31-1 restrictions mentionnées ci-dessus dans l'utilisation de R à tout moment. Voir la Grande capacité de mémoire et de capacité de mémoire de données la section de l'Informatique de Haute Performance Vue des Tâches liées à @Romain.
Peut-être une bonne indication de sa pertinence pour le "big data" est le fait que R est apparue comme la plate-forme de choix pour les développeurs de la concurrence dans Kaggle.com données de la modélisation des compétitions. Voir la l'article sur la Révolution Analytics site web -- R beats sur SAS et SPSS par une bonne marge. Ce R qui manque dans la sortie de la boîte de calcul de la puissance apparemment, il se rattrape dans la flexibilité.
En plus de ce qui est disponible sur le web il y a plusieurs nouveaux livres pour la façon de hot-rod R pour la lutte contre le big data. Le L'Art de la R de Programmation (Matloff 2011; No starch Press) fournir des introductions à l'écriture optimisée R code de calcul parallèle, et l'utilisation de R en collaboration avec C. Le livre est bien écrit, avec beaucoup d'exemples de code et des visites guidées. En Parallèle De R (McCallum & Weston, 2011; O'Reilly) semble bon aussi.
Je vais vous expliquer mon histoire courte, avec R et grand ensemble de données.
J'ai eu un connecteur à partir de la R de SGBDR,
J'ai des requêtes, et qui a rassemblé un certain sous-ensemble de ces données.
Ensuite manipuler sur ce sous-ensemble.
R était tout simplement d'étouffement avec plus de 200k lignes en mémoire sur mon PC.
Afin de travailler sur un sous-ensemble de la machine est la bonne approche.