Comment fractionner les données (texte brut), de test, de train avec des ensembles de scikit crossvalidation module?
J'ai un grand corpus d'opinions (2500) en texte brut. Je voudrais utiliser scikit-learn bibliothèque de les diviser en test/rames. Ce qui pourrait être la meilleure approche pour résoudre cette tâche avec scikit-learn?. Quelqu'un pourrait-il me donner un exemple de crève texte brut dans test/rames (probablement mal l'utiliser tf-idf représentation).
OriginalL'auteur anon | 2014-09-11
Vous devez vous connecter pour publier un commentaire.
Supposons que vos données est une liste de chaînes de caractères, c'est à dire
Ensuite, vous pouvez le diviser en formation (80%) et de test (20%) des ensembles à l'aide de train_test_split par exemple en faisant:
Avant de vous précipiter à le faire, même si, lire ces docs à travers. 2500 n'est pas un "grand corpus" et vous voulez probablement faire quelque chose comme un k-fold cross-validation, plutôt qu'une seule exclusion de split.
Comme je l'ai dit, 2500 n'est pas un grand nombre, de sorte que vous êtes mieux de faire la validation croisée pour évaluer votre performance. En outre, vous devrez peut-être d'abord séparé d'un "test final" (par exemple, 500 postes), l'utilisation de la 2000 de sélection de modèle (à l'aide de la validation croisée pour sélectionner le meilleur modèle), et une fois que vous êtes installés sur un modèle, de vérifier ses performances sur l'origine de la tenue de sortie d'essai. Il peut y avoir des variations à votre approche, selon un certain nombre de facteurs.
OriginalL'auteur KT.