Le clustering hiérarchique de 1 million d'objets

Quelqu'un peut-il m'indiquer un clustering hiérarchique de l'outil (de préférence en python) qui peuvent cluster ~1 Million d'objets? J'ai essayé hcluster et aussi Orange.

hcluster avait des problèmes avec 18k d'objets. Orange a réussi à cluster 18k objets en quelques secondes, mais a échoué avec 100 objets (saturé la mémoire et, éventuellement, s'est écrasé).

Je suis en cours d'exécution sur un Xeon 64 bits CPU (2.53 GHz) et de 8 go de RAM + 3 GO de swap sur Ubuntu 11.10.

  • sont vos points en 2d, 3d, 10d, 128d ?
  • Je ne comprends pas ce que vous entendez par là. En tant QUE tel, la limitation semble provenir du fait qu'un nxn matrice de distance de 1M objets cant tenir en mémoire, et chaque de la le regroupement des bibliothèques, j'ai indiqué ci-dessus (orange et scipy) prendre un en mémoire matrice de distance en entrée (ce qui n'est pas possible de fournir en entrée pour 1M objets...)
  • les points/objets sont de simples fichiers texte, que je suis en train de cluster basé sur le texte qu'ils contiennent.... pouvez-vous également m'expliquer si c'est en 2d ou quoi? merci.
  • L'idée de la 2d ou de la nd est de qui fonction de la dimension que vous exploitez? Donc, si vous vous attachez à chacun de le mot "longueur" et "départ" lettre de fonctionnalités, ce serait 2d fonctionnalité de l'espace. Highdimensional et sparsed de données nécessite des structures de données pour faire efficace de clustering.