Garder TFIDF résultat pour la prédiction de nouveau contenu à l'aide de Scikit pour Python

Je suis en utilisant sklearn sur Python pour faire quelques clustering. J'ai formé de 200 000 données, et le code ci-dessous fonctionne bien.

corpus = open("token_from_xml.txt")
vectorizer = CountVectorizer(decode_error="replace")
transformer = TfidfTransformer()
tfidf = transformer.fit_transform(vectorizer.fit_transform(corpus))
km = KMeans(30)
kmresult = km.fit(tfidf).predict(tfidf)

Mais quand j'ai de nouveaux tests de contenu, je tiens à le cluster à l'existence de clusters que j'avais formé. Alors je me demandais comment enregistrer IDF résultat, de sorte que je peux faire TFIDF pour les nouveaux tests de contenu et assurez-vous que les résultats du nouveau test de contenu ont la même longueur du tableau.

Merci d'avance.

Mise à JOUR

J'ai peut-être besoin pour économiser de "transformateur" ou "tfidf" variable dans un fichier(txt ou autres), si l'un d'eux contient de la formation de la FID résultat.

Mise à JOUR

Par exemple. J'ai les données d'entraînement:

["a", "b", "c"]
["a", "b", "d"]

Et ne TFIDF, le résultat contient 4 fonctions(a,b,c,d)

Quand je TEST:

["a", "c", "d"]

pour voir qui cluster(déjà fait par k-means) il appartient. TFIDF ne fera que donner le résultat avec 3 fonctions(a,c,d), de sorte que le clustering k-means va tomber. (Si je test ["a", "b", "e"], il peut y avoir d'autres problèmes.)

Comment fait-on pour stocker la liste des fonctionnalités pour les données de test (même plus, de le stocker dans le fichier)?

Mise à JOUR

Résolu, voir les réponses ci-dessous.

par de nouveaux contenus, ce que tu veux dire? de nouveaux tests de contenu ou contenu de la formation?
de nouveaux tests de contenu @user123
Je suppose que vous pourriez ne pas être en mesure d'ajouter de nouveaux contenus de formation précédemment formés de contenu. Vous devez vous entraîner au moins une fois avec l'ensemble des données d'entraînement, alors vous pouvez cornichon qui a formé des données, qui peut être utilisé plus tard pour éliminer la formation de retard. Mais quand vous obtenez du contenu, vous auriez à le former au moins une fois
Je vous remercie pour votre réponse. J'ai mis à jour ma question. Je ne vais pas à ajouter de nouveaux contenus de formation précédemment formés contenu, mais pour TESTER le nouveau contenu pour voir de quel groupe il appartient, qu'il sera possible?

OriginalL'auteur lol.Wen | 2015-04-22