La forêt au hasard de sortie de l'interprétation

J'ai couru une forêt au hasard de mes données et obtenu la sortie de la forme d'une matrice.
Quelles sont les règles qu'il applique pour les classer?

P. S. je veux un profil de la clientèle en tant que sortie,
par exemple, Personne de New York, travaille dans l'industrie de la technologie, etc.

Comment puis-je interpréter les résultats d'une forêt aléatoire?

InformationsquelleAutor user2061730 | 2013-02-21

output profiling r random-forest

34

Les règles appliquées par chaque arbre

En supposant que vous utilisez le randomForest paquet, c'est la façon dont vous accédez à la monté des arbres dans la forêt.
```
library(randomForest)
data(iris)
rf <- randomForest(Species ~ ., iris)
getTree(rf, 1)
```
Ce spectacle de la sortie de l'arbre n ° 1 de la 500:
```
   left daughter right daughter split var split point status prediction
1              2              3         3        2.50      1          0
2              0              0         0        0.00     -1          1
3              4              5         4        1.65      1          0
4              6              7         4        1.35      1          0
5              8              9         3        4.85      1          0
6              0              0         0        0.00     -1          2
...
```
Vous commencez à lire à la première ligne qui décrit la racine de split. La racine de split a été basé sur la variable 3, c'est à dire si Petal.Length <= 2.50 continuer à la fille de gauche du nœud (ligne 2) et si Petal.Length > 2.50 continuer à la fille de droite nœud (ligne 3). Si l'état d'une ligne est -1, comme il est sur la ligne 2, cela signifie que nous avons atteint une feuille et faire une prédiction, dans ce cas, la classe 1, c'est à dire setosa.

Il est écrit dans le manuel fait donc un coup d'oeil à ?randomForest et ?getTree pour plus de détails.

Regardant importance variable à travers la forêt

Ont un coup d'oeil à ?importance et ?varImpPlot. Cela vous donne un seul score par variable agrégée sur l'ensemble de la forêt.
```
> importance(rf)
             MeanDecreaseGini
Sepal.Length         10.03537
Sepal.Width           2.31812
Petal.Length         43.82057
Petal.Width          43.10046
```
- Je comprends la sortie de getTree, mais comment puis-je visualiser dans l'Arborescence de la structure est le doute en fait. Comme je l'ai variables catégorielles, le point de split est converti en binaire et ensuite manuellement la forme d'un arbre (qui est un peu tedius)
- Par googler "plot randomforest tree" j'ai trouvé cela assez vaste réponse: Comment tracer un arbre échantillon de randomForest::getTree()? Malheureusement, il semble qu'il n'est pas facilement disponible fonction sauf si vous passez à la cforest mise en œuvre de la forêt au hasard (dans le party package). En outre, si vous avez voulu savoir comment tracer un arbre, vous devriez avoir écrit dans votre question initiale. Pour le moment, il n'est pas très spécifique.
- Je veux pas en fait l'intrigue d'un arbre, mais de trouver ce qui est de la combinaison des variables considérées pour de meilleurs points de données (Bonne répondants)
- Je suis désolé, mais je ne sais pas ce que vous cherchez ici. Quels sont les "meilleurs points de données"? À en juger par vos autres questions aussi, je pense que vous devriez lire le faq sur les questions à poser sur stackoverflow et comment demander, et vous pouvez obtenir un badge pour elle 🙂 en fait, vos questions doivent être claires, pas trop large, et de préférence inclure un exemple (une maquette du résultat que vous souhaitez obtenir ou un morceau de code qui ne fonctionne pas).
- Comment peut-on dire que line1 Petal.Length <= 2.50 il pourrait être Petal.Length > 2.50. Comment nous arrivons avec > ou < pour un état?
- C'est expliqué dans ?getTree: "Pour les prédicteurs, de données avec les valeurs de la variable inférieur ou égal à la division de point d'aller à la fille de gauche du nœud."
- Je voulais juste vous recommandons de définir labelVar=TRUE dans getTree pour obtenir les noms de vos variables dans la sortie plutôt que de garder la trace par l'index.
InformationsquelleAutor Backlin

La "inTrees" package R peut être utile.

Ici est un exemple.

Extraire des premières règles à partir d'une forêt aléatoire:

library(inTrees)
library(randomForest) 
data(iris)
X <- iris[, 1:(ncol(iris) - 1)]  # X: predictors
target <- iris[,"Species"]  # target: class
rf <- randomForest(X, as.factor(target))
treeList <- RF2List(rf)  # transform rf object to an inTrees' format
exec <- extractRules(treeList, X)  # R-executable conditions
exec[1:2,]
#       condition                 
# [1,] "X[,1]<=5.45 & X[,4]<=0.8"
# [2,] "X[,1]<=5.45 & X[,4]>0.8"

Mesure de règles. len est le nombre de paires variable-valeur dans une condition, freq est le pourcentage de données de satisfaire à une condition, pred est le résultat d'une règle, c'est à dire, condition => pred, err est le taux d'erreur d'une règle.

ruleMetric <- getRuleMetric(exec,X,target)  # get rule metrics
ruleMetric[1:2,]
#      len  freq    err     condition                  pred        
# [1,] "2" "0.3"   "0"     "X[,1]<=5.45 & X[,4]<=0.8" "setosa"    
# [2,] "2" "0.047" "0.143" "X[,1]<=5.45 & X[,4]>0.8"  "versicolor"

Tailler chaque règle:

ruleMetric <- pruneRule(ruleMetric, X, target)
ruleMetric[1:2,]
#      len  freq    err     condition                 pred        
# [1,] "1" "0.333" "0"     "X[,4]<=0.8"              "setosa"    
# [2,] "2" "0.047" "0.143" "X[,1]<=5.45 & X[,4]>0.8" "versicolor"

Sélectionnez un cd ensemble de règles:

(ruleMetric <- selectRuleRRF(ruleMetric, X, target))
#          len freq    err     condition                                             pred         impRRF              
# [1,] "1" "0.333" "0"     "X[,4]<=0.8"                                          "setosa"     "1"                 
# [2,] "3" "0.313" "0"     "X[,3]<=4.95 & X[,3]>2.6 & X[,4]<=1.65"               "versicolor" "0.806787615686919" 
# [3,] "4" "0.333" "0.04"  "X[,1]>4.95 & X[,3]<=5.35 & X[,4]>0.8 & X[,4]<=1.75"  "versicolor" "0.0746284932951366"
# [4,] "2" "0.287" "0.023" "X[,1]<=5.9 & X[,2]>3.05"                             "setosa"     "0.0355855756152103"
# [5,] "1" "0.307" "0.022" "X[,4]>1.75"                                          "virginica"  "0.0329176860493297"
# [6,] "4" "0.027" "0"     "X[,1]>5.45 & X[,3]<=5.45 & X[,4]<=1.75 & X[,4]>1.55" "versicolor" "0.0234818254947883"
# [7,] "3" "0.007" "0"     "X[,1]<=6.05 & X[,3]>5.05 & X[,4]<=1.7"               "versicolor" "0.0132907201116241"

Construire un ordre de la règle de liste comme un classificateur:

(learner <- buildLearner(ruleMetric, X, target))
#      len freq                 err                  condition                                             pred        
# [1,] "1" "0.333333333333333"  "0"                  "X[,4]<=0.8"                                          "setosa"    
# [2,] "3" "0.313333333333333"  "0"                  "X[,3]<=4.95 & X[,3]>2.6 & X[,4]<=1.65"               "versicolor"
# [3,] "4" "0.0133333333333333" "0"                  "X[,1]>5.45 & X[,3]<=5.45 & X[,4]<=1.75 & X[,4]>1.55" "versicolor"
# [4,] "1" "0.34"               "0.0196078431372549" "X[,1]==X[,1]"                                        "virginica"

Établir des règles plus lisible:

readableRules <- presentRules(ruleMetric, colnames(X))
readableRules[1:2, ]
#      len  freq    err     condition                                                                       pred        
# [1,] "1" "0.333" "0"     "Petal.Width<=0.8"                                                              "setosa"    
# [2,] "3" "0.313" "0"     "Petal.Length<=4.95 & Petal.Length>2.6 & Petal.Width<=1.65"                     "versicolor"

Extrait de fréquentes variable interactions (notez que les règles ne sont pas taillés ou sélectionnée):

rf <- randomForest(X, as.factor(target))
treeList <- RF2List(rf)  # transform rf object to an inTrees' format
exec <- extractRules(treeList, X)  # R-executable conditions
ruleMetric <- getRuleMetric(exec, X, target)  # get rule metrics
freqPattern <- getFreqPattern(ruleMetric)
# interactions of at least two predictor variables
freqPattern[which(as.numeric(freqPattern[, "len"]) >= 2), ][1:4, ]
#      len sup     conf    condition                  pred        
# [1,] "2" "0.045" "0.587" "X[,3]>2.45 & X[,4]<=1.75" "versicolor"
# [2,] "2" "0.041" "0.63"  "X[,3]>4.75 & X[,4]>0.8"   "virginica" 
# [3,] "2" "0.039" "0.604" "X[,4]<=1.75 & X[,4]>0.8"  "versicolor"
# [4,] "2" "0.033" "0.675" "X[,4]<=1.65 & X[,4]>0.8"  "versicolor"

On peut aussi présenter ces motifs fréquents dans une forme lisible à l'aide de la fonction presentRules.

En outre, des règles ou des motifs fréquents peuvent être formatés en LaTex.

library(xtable)
print(xtable(freqPatternSelect), include.rownames=FALSE)
# \begin{table}[ht]
# \centering
# \begin{tabular}{lllll}
#   \hline
#   len & sup & conf & condition & pred \\ 
#   \hline
#   2 & 0.045 & 0.587 & X[,3]$>$2.45 \& X[,4]$<$=1.75 & versicolor \\ 
#   2 & 0.041 & 0.63 & X[,3]$>$4.75 \& X[,4]$>$0.8 & virginica \\ 
#   2 & 0.039 & 0.604 & X[,4]$<$=1.75 \& X[,4]$>$0.8 & versicolor \\ 
#   2 & 0.033 & 0.675 & X[,4]$<$=1.65 \& X[,4]$>$0.8 & versicolor \\ 
#   \hline
# \end{tabular}
# \end{table}

InformationsquelleAutor H.D.

2

En plus de la grande les réponses ci-dessus, j'ai trouvé intéressant d'un autre instrument visant à explorer le général de sorties d'une forêt aléatoire: fonction explain_forest le paquet randomForestExplainer. Voir ici pour plus de détails.

exemple de code:
```
library(randomForest)
data(Boston, package = "MASS")
Boston$chas <- as.logical(Boston$chas)
set.seed(123)
rf <- randomForest(medv ~ ., data = Boston, localImp = TRUE)
```
S'il vous plaît, notez: localImp doit être défini comme TRUE, sinon le explain_forest quittera avec une erreur
```
library(randomForestExplainer)
setwd(my/destination/path)
explain_forest(rf, interactions = TRUE, data = Boston)
```
Cela va générer un .html fichier, nommé Your_forest_explained.html, dans votre my/destination/path que vous pouvez facilement ouvrir dans un Navigateur Web.

Dans ce rapport, vous trouverez les informations utiles sur la structure des arbres et de la forêt et plusieurs statistiques utiles sur les variables.

Comme un exemple, voir ci-dessous une représentation graphique de la distribution de la profondeur minimale parmi les arbres de la grande forêt

ou de l'un de la multi-voies importance parcelles

Vous pouvez vous référer à cette pour l'interprétation du rapport.

InformationsquelleAutor Nemesi

Vous devez vous connecter pour publier un commentaire.

Les règles appliquées par chaque arbre

Regardant importance variable à travers la forêt