Classer les Documents dans des Catégories

J'ai environ 300k des documents stockés dans une base de données Postgres qui sont marqués avec le thème catégories (il y a environ 150 catégories au total). J'ai une autre 150k documents qui n'ont pas de catégories. J'essaie de trouver la meilleure façon de programmaticly les classer.

J'ai été d'explorer NLTK et son Naïf Classificateur de Bayes. Semble être un bon point de départ (si vous pouvez proposer un meilleur algorithme de classification pour cette tâche, je suis preneuse).

Mon problème est que je n'ai pas assez de RAM pour former le NaiveBayesClassifier sur tous les 150 catégories/300k documents à la fois (formation en 5 catégories utilisées 8GO). En outre, la précision du classificateur semble tomber comme je m'entraîne sur plusieurs catégories (90% de précision avec 2 catégories, 81% avec 5, 61% à 10).

Dois-je juste en train de classificateur en 5 catégories à la fois, et d'exécuter toutes les 150k de documents par le classificateur pour voir si il y a des matches? Il semble que ce serait le travail, sauf qu'il y aurait beaucoup de faux positifs, où les documents qui ne sont pas vraiment correspondre à l'une des catégories d'obtenir chaussure cornes en sur par le classificateur juste parce que c'est le meilleur match de disponible... Est-il un moyen d'avoir un "none of the above" option pour le classificateur juste au cas où le document ne rentre pas dans l'une des catégories?

Voici ma classe de test http://gist.github.com/451880

InformationsquelleAutor erikcw | 2010-06-24