Comment fractionner les données (texte brut), de test, de train avec des ensembles de scikit crossvalidation module?

J'ai un grand corpus d'opinions (2500) en texte brut. Je voudrais utiliser scikit-learn bibliothèque de les diviser en test/rames. Ce qui pourrait être la meilleure approche pour résoudre cette tâche avec scikit-learn?. Quelqu'un pourrait-il me donner un exemple de crève texte brut dans test/rames (probablement mal l'utiliser tf-idf représentation).

OriginalL'auteur anon | 2014-09-11