Obtenir la plus haute fréquence des termes de l'index Lucene
j'ai besoin d'extraire termes avec les plus hautes fréquences de plusieurs index lucene, à utiliser pour une analyse sémantique.
Alors, j'aimerais peut-être top 30 des plus présentes conditions(n'a toujours pas décidé sur le seuil, je vais analyser les résultats) et leur per-indice de compte. Je suis conscient que je risque de perdre un peu de précision à cause de potentionally abandonné les doublons, mais pour l'instant, permet de dire que je suis ok avec ça.
Donc pour les solutions proposées, (inutile de dire peut-être) la vitesse n'est pas importante, car je voudrais faire de l'analyse statique, je voudrais mettre l'accent sur simplicité de mise en œuvre parce que je ne suis pas tellement doué avec Lucene et ne peut pas envelopper mon esprit autour de quelques notions de..
Je ne peux pas trouver tout les exemples de code à partir de quelque chose de similaire, de sorte que tous béton des conseils (code, pseudo-code, des liens vers des exemples de code...) Apprécier tous les conseils!
Merci!
OriginalL'auteur Julia | 2010-05-12
Vous devez vous connecter pour publier un commentaire.
Ont un coup d'oeil à ceci:
http://sujitpal.blogspot.com/2009/02/summarization-with-lucene.html
La classe dans cette page a
computeTopTermQuery
méthode que vous devriez être facilement en mesure de rénovation pour aller sur plusieurs indices.Salut mindas! I l'utilisation de lucene 4.4, donc il n'ont pas de termes() la méthode ? aidez-moi, s'il vous plaît!
vous pouvez ouvrir un thread séparé pour cela, ou par courriel Java Lucene liste de diffusion. Je n'ai pas de Lucene 4.4 en cours d'exécution sur la main. Et le temps a été à court d'approvisionnement de ces jours ;-(
OriginalL'auteur mindas
Une manière très simple serait d'utiliser Luc. Sur l'onglet 'résumé', il y a un "Show haut en termes de" bouton qui peut être utilisé pour ce dont vous avez besoin.
+1, si vous voulez exécuter votre propre code de Luc code vous montre comment....
OriginalL'auteur Pascal Dimassimo