Obtenir la plus haute fréquence des termes de l'index Lucene

j'ai besoin d'extraire termes avec les plus hautes fréquences de plusieurs index lucene, à utiliser pour une analyse sémantique.

Alors, j'aimerais peut-être top 30 des plus présentes conditions(n'a toujours pas décidé sur le seuil, je vais analyser les résultats) et leur per-indice de compte. Je suis conscient que je risque de perdre un peu de précision à cause de potentionally abandonné les doublons, mais pour l'instant, permet de dire que je suis ok avec ça.

Donc pour les solutions proposées, (inutile de dire peut-être) la vitesse n'est pas importante, car je voudrais faire de l'analyse statique, je voudrais mettre l'accent sur simplicité de mise en œuvre parce que je ne suis pas tellement doué avec Lucene et ne peut pas envelopper mon esprit autour de quelques notions de..

Je ne peux pas trouver tout les exemples de code à partir de quelque chose de similaire, de sorte que tous béton des conseils (code, pseudo-code, des liens vers des exemples de code...) Apprécier tous les conseils!

Merci!

OriginalL'auteur Julia | 2010-05-12