La forêt au hasard sur un de très gros fichiers

J'ai un grand jeu de données dans R (1M+ rangées de 6 colonnes) que je veux utiliser pour former une forêt aléatoire (à l'aide de la randomForest package) pour la régression fins. Malheureusement, je reçois un Error in matrix(0, n, n) : too many elements specified d'erreur lorsque vous essayez de faire la même chose à la fois et ne peut pas allouer suffisamment de mémoire genre d'erreurs lors de l'exécution sur un sous-ensemble de données -- jusqu'à 10,000 ou alors observations.

De voir qu'il n'y a aucune chance que je peux ajouter plus de RAM sur ma machine et forêts aléatoires sont très appropriés pour le type de processus que je suis en train de modèle, j'aimerais vraiment faire ce travail.

Toute suggestion ou une solution de contournement idées sont très appréciées.

  • Courir avec proximity = FALSE que joran proposé et nous dire si cela fonctionne.
  • Un moyen relativement simple autour de votre problème serait de sous-ensemble de votre matrice d'entrée. Toutes les données ne sera probablement pas vous donner un meilleur modèle que celui avec un sous-ensemble de taille 10K x 10K.
  • Avez-vous un look à la bibliothèque(h2o) ? Qui fonctionne OK pour les très gros problèmes, voir r-bloggers.com/benchmarking-random-forest-implementations
InformationsquelleAutor ktdrv | 2012-04-05