Comment effectuer la forêt au hasard/validation croisée dans la R

Je suis incapable de trouver un moyen d'effectuer la validation croisée sur une régression aléatoire de la forêt modèle que je suis en train de produire.

Donc, j'ai un dataset contenant 1664 variables explicatives (propriétés chimiques différentes), avec une variable de réponse (temps de rétention). Je suis en train de produire une régression aléatoire de la forêt modèle afin d'être en mesure de prédire les propriétés chimiques de quelque chose compte tenu de son temps de rétention.

ID  RT (seconds)    1_MW    2_AMW   3_Sv    4_Se
4281    38  145.29  5.01    14.76   28.37
4952    40  132.19  6.29    11  21.28
4823    41  176.21  7.34    12.9    24.92
3840    41  174.24  6.7 13.99   26.48
3665    42  240.34  9.24    15.2    27.08
3591    42  161.23  6.2 13.71   26.27
3659    42  146.22  6.09    12.6    24.16

Ceci est un exemple de la table que j'ai. Je veux essentiellement de la parcelle RT contre 1_MW, etc (jusqu'à 1664 variables), donc je peux le trouver laquelle de ces variables sont d'importance et qui ne le sont pas.

Je fais:-

r = randomForest(RT..seconds.~., data = cadets, importance =TRUE, do.trace = 100)
varImpPlot(r)

qui me dit que les variables qui sont d'importance et ce n'est pas, ce qui est excellent. Cependant, je veux être capable de partitionner mon ensemble de données afin que je puisse effectuer la validation croisée. J'ai trouvé un tutoriel qui explique comment le faire, mais pour un modèle de classification plutôt que de régression.

Je comprends que vous faites:-

k = 10
n = floor(nrow(cadets)/k)
i = 1
s1 = ((i-1) * n+1)
s2 = (i * n)
subset = s1:s2

pour définir le nombre de croix plis que vous voulez faire, et la taille de chaque pli, et pour définir le début et la fin de la valeur du sous-ensemble. Cependant, je ne sais pas quoi faire après. On m'a dit de faire une boucle par mais honnêtement, je n'ai aucune idée de comment faire cela. Je ne sais comment puis tracer l'ensemble de validation et le test sur le même graphique pour représenter le niveau de l'exactitude ou de l'erreur.

Si vous pouviez s'il vous plaît m'aider, je lui en serais très reconnaissante, merci!

Si vous êtes toujours intéressée CV dans R, il existe au moins un couple: signe et cvTools

OriginalL'auteur user2062207 | 2013-11-04

cross-validation r random-forest

-2

C'est effectivement plus rapide ainsi que très facile à faire en Python à l'aide de la scikit-learn bibliothèque (http://scikit-learn.org/stable/modules/cross_validation.html). Vous pouvez faire K-fold validation, stratifié K fois (ce qui garantit que les classes sont également réparties dans chacun des plis), laisser de côté, et d'autres.

Il est également très facile de générer la courbe ROC, disposent d'importances, et d'autres de l'évaluation des mesures.

Voici un exemple rapide:

y  = data[1:, 0].astype(np.float)
X  = data[1:, 1:].astype(np.float)
cv = StratifiedKFold(y, n_folds = 5)
precision   = []
accuracy    = []
sensitivity = []
matthews    = []
r2          = []
f1          = []
auroc       = []
cm          = [[0, 0], [0, 0]]
for i, (train, test) in enumerate(cv):
probas_     = rf.fit(X[train], y[train]).predict_proba(X[test])
classes     = rf.fit(X[train], y[train]).predict(X[test])
r2          = np.append(r2, (r2_score(y[test], probas_[:, 1])))
precision   = np.append(precision, (precision_score(y[test], classes)))
auroc       = np.append(auroc, (roc_auc_score(y[test], classes)))
accuracy    = np.append(accuracy, (accuracy_score(y[test], classes)))
sensitivity = np.append(sensitivity, (recall_score(y[test], classes)))
f1          = np.append(f1, (f1_score(y[test], classes)))
matthews    = np.append(matthews, (matthews_corrcoef(y[test], classes)))
cma         = np.add(cma, (confusion_matrix(y[test], classes)))
cma         = np.array(cma)
r2          = np.array(r2)
precision   = np.array(precision)
accuracy    = np.array(accuracy)
sensitivity = np.array(sensitivity)
f1          = np.array(f1)
auroc       = np.array(auroc)
matthews    = np.array(matthews)
print("KF Accuracy: %0.2f (+/- %0.2f)" % (accuracy.mean(), accuracy.std() * 2))
print("KF Precision: %0.2f (+/- %0.2f)" % (precision.mean(), precision.std() * 2))
print("KF Sensitivity: %0.2f (+/- %0.2f)" % (sensitivity.mean(), sensitivity.std() * 2))
print("KF R^2: %0.2f (+/- %0.2f)" % (r2.mean(), r2.std() * 2))
print("KF F1: %0.2f (+/- %0.2f)" % (f1.mean(), f1.std() * 2))
print("KF AUROC: %0.2f (+/- %0.2f)" % (auroc.mean(), auroc.std() * 2))
print("KF Matthews: %0.2f (+/- %0.2f)" % (matthews.mean(), matthews.std() * 2))
print("Confusion Matrix", cma)

Comment cela pourrait-il encore être acceptés réponse, l'utilisateur a demandé une réponse à l'aide de R, vous avez répondu à l'aide de Python....

OriginalL'auteur eagle34

29

De la source:

Le-de-sac (oob) erreur d'estimation

Dans les forêts aléatoires, il n'est pas nécessaire pour la validation croisée ou d'un autre
ensemble de test pour obtenir une estimation non biaisée de l'ensemble de test d'erreur. Il est
estimée à l'interne , au cours de l'exécution...

En particulier, predict.randomForest retourne le-de-sac de prédiction si newdata n'est pas donné.

OriginalL'auteur topchef
10

Comme topchef souligné, la validation croisée n'est pas nécessaire d'avoir une protection contre le sur-ajustement. C'est une caractéristique intéressante de la forêt aléatoire de l'algorithme.

Il semble que votre objectif est la fonction de sélection, de validation croisée est toujours utile à cette fin. Jetez un oeil à la rfcv() fonction au sein de l'randomForest paquet. La Documentation indique l'entrée d'un bloc de données & vecteur, alors je vais commencer par la création de celles de vos données.
```
set.seed(42)
x <- cadets
x$RT..seconds. <- NULL
y <- cadets$RT..seconds.
rf.cv <- rfcv(x, y, cv.fold=10)
with(rf.cv, plot(n.var, error.cv))
```
est-il vraiment en train de faire de la validation croisée? N'est-il pas montrer l'erreur en fonction du nombre de variables utilisées?

OriginalL'auteur Lenwood

Vous devez vous connecter pour publier un commentaire.