Comment fractionner les données (texte brut), de test, de train avec des ensembles de scikit crossvalidation module?

J'ai un grand corpus d'opinions (2500) en texte brut. Je voudrais utiliser scikit-learn bibliothèque de les diviser en test/rames. Ce qui pourrait être la meilleure approche pour résoudre cette tâche avec scikit-learn?. Quelqu'un pourrait-il me donner un exemple de crève texte brut dans test/rames (probablement mal l'utiliser tf-idf représentation).

OriginalL'auteur anon | 2014-09-11

19

Supposons que vos données est une liste de chaînes de caractères, c'est à dire
```
data = ["....", "...", ]
```
Ensuite, vous pouvez le diviser en formation (80%) et de test (20%) des ensembles à l'aide de train_test_split par exemple en faisant:
```
from sklearn.model_selection import train_test_split
train, test = train_test_split(data, test_size = 0.2)
```
Avant de vous précipiter à le faire, même si, lire ces docs à travers. 2500 n'est pas un "grand corpus" et vous voulez probablement faire quelque chose comme un k-fold cross-validation, plutôt qu'une seule exclusion de split.

J'aimerais faire l'analyse de sentiment en espagnol. C'est qu'une bonne approche pour diviser le jeu de données?, j'ai un répertoire avec 2500 .les fichiers txt (opinions).
Comme je l'ai dit, 2500 n'est pas un grand nombre, de sorte que vous êtes mieux de faire la validation croisée pour évaluer votre performance. En outre, vous devrez peut-être d'abord séparé d'un "test final" (par exemple, 500 postes), l'utilisation de la 2000 de sélection de modèle (à l'aide de la validation croisée pour sélectionner le meilleur modèle), et une fois que vous êtes installés sur un modèle, de vérifier ses performances sur l'origine de la tenue de sortie d'essai. Il peut y avoir des variations à votre approche, selon un certain nombre de facteurs.

OriginalL'auteur KT.

Vous devez vous connecter pour publier un commentaire.