en utilisant le paquet caret pour trouver les paramètres optimaux de GBM
Je suis en utilisant la R GBM package pour les stimuler à faire de régression sur certaines données biologiques des dimensions de 10 000 X 932 et je veux savoir quels sont les meilleurs paramètres pour GBM paquet en particulier (n.les arbres, le retrait de l'interaction.de la profondeur et de n.minobsinnode) quand j'ai cherché en ligne, j'ai trouvé que l'accent circonflexe paquet sur R peut trouver de tels paramètres. Cependant, j'ai de la difficulté sur l'utilisation de l'accent circonflexe paquet avec GBM paquet, donc je veux juste savoir comment utiliser le curseur pour trouver les combinaisons optimales des paramètres mentionnés précédemment ? Je sais que cela peut sembler très typique de la question, mais j'ai lu le signe manuel et ont encore de la difficulté à intégrer signe avec gbm, surtout parce que je suis très nouveau pour ces deux packages
source d'informationauteur DOSMarter
Vous devez vous connecter pour publier un commentaire.
Ce lien a un exemple concret (page 10) -
http://www.jstatsoft.org/v28/i05/paper
Fondamentalement, on doit d'abord créer une grille de candidat valeurs pour hyper paramètres (comme n.des arbres, de l'interaction.de la profondeur et de retrait). Ensuite, appelez le générique train de fonctionner comme d'habitude.
Vous ne savez pas si vous avez trouvé ce que vous cherchiez, mais je trouve certaines de ces feuilles moins utile.
Si vous utilisez le signe paquet, le texte suivant décrit les paramètres requis: > getModelInfo()$gbm$paramètres
Il sont quelques règles de base pour l'exécution de GBM:
adéquate, mais sur un peu j'ai trouvé que les tests de dépistage les résultats contre
des multiples impairs jusqu'au max a donné de meilleurs résultats. La valeur max que j'
l'avons vu pour ce paramètre est de chaussée(sqrt(NCOL(formation))).
le plus d'arbres requis, et plus le coût de calcul. Les tests
les valeurs sur un petit sous-ensemble de données avec quelque chose comme le rétrécissement =
retrait = seq(.0005, .05,.0005) peut être utile dans la définition des
valeur idéale.
J'ai essayé c(5,10,15,20) sur de petits ensembles de données, et n'a pas vraiment
voir un retour sur investissement adéquat pour le coût de calcul.
Commencer avec n.les arbres = (0:50)*50 et d'ajuster en conséquence.
Exemple de configuration en utilisant le signe du package:
Les choses peuvent changer en fonction de vos données (telles que la distribution), mais j'ai trouvé la clé à jouer avec gbmgrid jusqu'à obtenir le résultat que vous recherchez. Les paramètres tels qu'ils sont maintenant, il faudrait beaucoup de temps pour courir, ainsi modifier votre machine, et le temps le permettent.
Pour vous donner une approximation de calcul, je tourne sur un Mac PRO 12 cœurs avec 64 GO de ram.