Comment puis-je tester des données avec un modèle d'arbre de décision dans R?

J'ai construit un arbre de décision à partir de données d'apprentissage en utilisant le package rpart dans R. Maintenant, j'ai plus de données et je veux vérifier contre l'arbre pour vérifier le modèle. Logiquement/de manière itérative, je veux faire ce qui suit:

for each datapoint in new data
     run point thru decision tree, branching as appropriate
     examine how tree classifies the data point
     determine if the datapoint is a true positive or false positive

Comment puis-je le faire dans la R?

utiliser le predict() fonction: stat.l'epf de zurich.ch/R-manuel/R-devel/bibliothèque/rpart/html/...

OriginalL'auteur bernie2436 | 2013-10-27

decision-tree machine-learning r verification

6

Pour être en mesure de l'utiliser, je suppose que vous séparer de votre formation dans un sous-ensemble de l'ensemble d'apprentissage et un ensemble de test.

Pour créer le modèle de formation que vous pouvez utiliser:
```
model <- rpart(y~., traindata, minbucket=5)   # I suspect you did it so far.
```
Pour l'appliquer à l'ensemble de test:
```
pred <- predict(model, testdata) 
```
Vous obtenez alors un vecteur de prédire les résultats.

Dans votre jeu de données de test vous avez également la "vraie" réponse. Disons que la dernière colonne dans le jeu de la formation.

Simplement en les assimilant donnera le résultat:
```
pred == testdata[ , last]  # where 'last' equals the index of 'y'
```
Lorsque les éléments sont les mêmes, vous obtiendrez un VRAI, lorsque vous recevez un FAUX cela signifie que votre prédiction était fausse.
```
pred + testdata[, last] > 1 # gives TRUE positive, as it means both vectors are 1
pred == testdata[, last]    # gives those that are correct
```
Il pourrait être intéressant de voir combien de % vous avez la bonne:
```
mean(pred == testdata[ , last])    # here TRUE will count as a 1, and FALSE as 0
```
Le rpart bibliothèque a sans doute changé depuis cette réponse a été écrit. J'ai eu à utiliser les éléments suivants pour le faire fonctionner: pred <- predict(model, newdata = testdata, type = 'class') (sinon vous bénéficiez d'une matrice de probabilités).

OriginalL'auteur PascalVKooten

Vous devez vous connecter pour publier un commentaire.