en utilisant le paquet caret pour trouver les paramètres optimaux de GBM

Je suis en utilisant la R GBM package pour les stimuler à faire de régression sur certaines données biologiques des dimensions de 10 000 X 932 et je veux savoir quels sont les meilleurs paramètres pour GBM paquet en particulier (n.les arbres, le retrait de l'interaction.de la profondeur et de n.minobsinnode) quand j'ai cherché en ligne, j'ai trouvé que l'accent circonflexe paquet sur R peut trouver de tels paramètres. Cependant, j'ai de la difficulté sur l'utilisation de l'accent circonflexe paquet avec GBM paquet, donc je veux juste savoir comment utiliser le curseur pour trouver les combinaisons optimales des paramètres mentionnés précédemment ? Je sais que cela peut sembler très typique de la question, mais j'ai lu le signe manuel et ont encore de la difficulté à intégrer signe avec gbm, surtout parce que je suis très nouveau pour ces deux packages

source d'informationauteur DOSMarter

gbm optimization r r-caret

13

Ce lien a un exemple concret (page 10) -
http://www.jstatsoft.org/v28/i05/paper

Fondamentalement, on doit d'abord créer une grille de candidat valeurs pour hyper paramètres (comme n.des arbres, de l'interaction.de la profondeur et de retrait). Ensuite, appelez le générique train de fonctionner comme d'habitude.
16

Vous ne savez pas si vous avez trouvé ce que vous cherchiez, mais je trouve certaines de ces feuilles moins utile.

Si vous utilisez le signe paquet, le texte suivant décrit les paramètres requis: > getModelInfo()$gbm$paramètres

Il sont quelques règles de base pour l'exécution de GBM:
1. L'interaction.la profondeur est de 1, et sur la plupart des ensembles de données qui semble
  adéquate, mais sur un peu j'ai trouvé que les tests de dépistage les résultats contre
  des multiples impairs jusqu'au max a donné de meilleurs résultats. La valeur max que j'
  l'avons vu pour ce paramètre est de chaussée(sqrt(NCOL(formation))).
2. Rétrécissement: plus le nombre est petit, meilleure est la valeur prédictive,
  le plus d'arbres requis, et plus le coût de calcul. Les tests
  les valeurs sur un petit sous-ensemble de données avec quelque chose comme le rétrécissement =
  retrait = seq(.0005, .05,.0005) peut être utile dans la définition des
  valeur idéale.
3. n.minobsinnode: valeur par défaut est 10, et généralement, je ne plaisante pas avec ça.
  J'ai essayé c(5,10,15,20) sur de petits ensembles de données, et n'a pas vraiment
  voir un retour sur investissement adéquat pour le coût de calcul.
4. n.arbres: le plus petit, le retrait, le plus d'arbres, vous devriez avoir.
  Commencer avec n.les arbres = (0:50)*50 et d'ajuster en conséquence.
Exemple de configuration en utilisant le signe du package:
```
getModelInfo()$gbm$parameters
library(parallel)
library(doMC)
registerDoMC(cores = 20)
# Max shrinkage for gbm
nl = nrow(training)
max(0.01, 0.1*min(1, nl/10000))
# Max Value for interaction.depth
floor(sqrt(NCOL(training)))
gbmGrid <-  expand.grid(interaction.depth = c(1, 3, 6, 9, 10),
                    n.trees = (0:50)*50, 
                    shrinkage = seq(.0005, .05,.0005),
                    n.minobsinnode = 10) # you can also put something        like c(5, 10, 15, 20)

fitControl <- trainControl(method = "repeatedcv",
                       repeats = 5,
                       preProcOptions = list(thresh = 0.95),
                       ## Estimate class probabilities
                       classProbs = TRUE,
                       ## Evaluate performance using
                       ## the following function
                       summaryFunction = twoClassSummary)

# Method + Date + distribution
set.seed(1)
system.time(GBM0604ada <- train(Outcome ~ ., data = training,
            distribution = "adaboost",
            method = "gbm", bag.fraction = 0.5,
            nTrain = round(nrow(training) *.75),
            trControl = fitControl,
            verbose = TRUE,
            tuneGrid = gbmGrid,
            ## Specify which metric to optimize
            metric = "ROC"))
```
Les choses peuvent changer en fonction de vos données (telles que la distribution), mais j'ai trouvé la clé à jouer avec gbmgrid jusqu'à obtenir le résultat que vous recherchez. Les paramètres tels qu'ils sont maintenant, il faudrait beaucoup de temps pour courir, ainsi modifier votre machine, et le temps le permettent.
Pour vous donner une approximation de calcul, je tourne sur un Mac PRO 12 cœurs avec 64 GO de ram.

Vous devez vous connecter pour publier un commentaire.