les valeurs de réglage du ntree et mtry aléatoire de la forêt modèle de régression

Je suis en utilisant le package R randomForest à faire une régression sur certaines données biologiques. Ma formation à la taille des données est 38772 X 201.

Je me demandais---ce serait une bonne valeur pour le nombre d'arbres ntree et le nombre de variables par niveau mtry? Est-il une formule approximative pour trouver de telles valeurs de paramètre?

Chaque ligne de mes données d'entrée est de 200 caractères représentant la séquence d'acides aminés, et je veux construire un modèle de régression à utiliser une telle séquence dans le but de prédire les distances entre les protéines.

  • Cela sonne plus comme un travail pour stats.stackexchange.com
  • Je suis d'accord, même si une amende question, il n'a pas sa place ici. Aussi, peut-être essayer de la rendre plus lisible.
  • Dans la réalité de la construction de forêts aléatoires à partir de grands ensembles de données, ntrees est souvent un compromis entre performance et précision.
InformationsquelleAutor DOSMarter | 2012-12-19