Comment puis-je regrouper un document à l'aide de k-means (Flann avec python)?

Je veux cluster de documents basé sur la similarité.

Je pense avoir essayé ssdeep (similitude de hachage), très rapide, mais on m'a dit que k-means est plus rapide et flann est le plus rapide de toutes les implémentations, et plus précis, alors que je suis en train flann avec des bindings python mais je ne peux pas trouver un exemple de comment le faire sur le texte (il ne support tableau de nombres).

Je suis très très nouveau dans ce domaine (k-means, traitement de la langue naturelle). Ce dont j'ai besoin, c'est la vitesse et la précision.

Mes questions sont:

  1. Pouvons-nous faire ressemblance du document de regroupement /Agrégation à l'aide de KMeans (Flann ne permettent pas la saisie de texte il me semble )
  2. Est Flann le bon choix? Si non, merci de me suggérer de Haute performance de la bibliothèque de textes/docs de clustering, qui ont wrapper python/API.
  3. Est-k-dire le droit de l'algorithme?

source d'informationauteur Phyo Arkar Lwin