Frameworks Java Open Source Text Mining
Je veux savoir quel est le meilleur logiciel open source de Java cadre pour l'Exploration de Texte, d'utiliser botg l'Apprentissage de la Machine et le dictionnaire des Méthodes.
Je suis à l'aide du Maillet, mais il n'y a pas beaucoup de documentation et je ne sais pas si il s'adaptera à toutes mes exigences.
source d'informationauteur David Campos
Vous devez vous connecter pour publier un commentaire.
Honnêtement, je pense que plusieurs réponses présentées ici sont de très bonne qualité. Cependant, pour répondre à mes besoins, j'ai choisi d'utiliser Apache UIMA avec ClearTK. Il prend en charge plusieurs ML Méthodes et je n'ai pas de licences de problème. De Plus, je peux faire des wrappers pour les autres ML méthodologies, et je prends le parti de le framework UIMA, ce qui est très bien organisé et rapide.
Merci à tous pour vos réponses intéressantes.
Meilleures Salutations,
ukraine
Bien que n'étant pas une institution spécialisée de l'exploration de texte-cadre, Weka a un certain nombre de classificateurs habituellement utilisé dans l'exploration de texte des tâches telles que: SVM, kNN, multinomiale NaiveBayes, entre autres.
Il a aussi quelques filtres au wok avec des données textuelles comme le
StringToWordVector
filtre qui peut effectuer TF/IDF transformation.Découvrez la Weka wiki site web pour plus d'informations.
Peut-être avoir un coup d'oeil à Java Open Source de la PNL et des outils de Text Mining.
J'ai utilisé LingPipe -- un suite de bibliothèques Java pour l'analyse linguistique du langage humain -- pour l'exploration de texte (et d'autres) des tâches.
C'est un très bien documenté logiciel et le site contient plusieurs tutoriels qui de bien expliquer comment faire une certaine tâche avec LingPipe, comme la reconnaissance des entités nommées. Il y a également un groupe de discussion, où vous pouvez poster toutes les questions que vous avez sur le logiciel (ou des tâches liées à la PNL), et avoir une réponse rapide de la part des auteurs de l'emballage lui-même; et bien sûr, un blog.
Le code source est également très facile à suivre et bien documenté qui, pour moi, est toujours un gros plus.
Comme pour les algorithmes d'Apprentissage automatique, il y en a beaucoup, de Naïf de Bayes pour Champ Aléatoire Conditionnel. D'autre part, pour le dictionnaire algorithmes d'appariement, ils ont un ExactDicitonaryChunkerqui est une implémentation de l'Aho-Corasich algorithme (un très, très, algorithme rapide pour cette tâche).
En somme, je pense que c'est l'un des meilleurs de la PNL logiciel pour Java (je n'ai pas utilisé tous les paquets qui est là, donc je ne peux pas dire que c'est le mieux), et je vous recommande vraiment pour la tâche que vous avez à portée de main.
Vous savez peut-être déjà sur la PORTE: http://gate.ac.uk/
...mais c'est ce que nous avons utilisés (à mon travail) pour les lots de texte différents problèmes miniers. Il est assez souple et ouvert.
J'ai construit un maximum d'entropie de l'entité nommée de reconnaissance pour CoNLL données à l'aide de OpenNLP MaxEnt http://sourceforge.net/projects/maxent/ pour un cours à la fois.
Exigé beaucoup de pré-traitement de données personnalisée avec des scripts perl faire obtenir toutes les caractéristiques extraites à nice soigné numérique vecteurs.
Nous utiliser lucene pour traiter en direct à partir d'internet. Il dispose d'un natif de l'api java.
http://lucene.apache.org/java/docs/
Vous pouvez ensuite utiliser mahout qui est un tas de machine algorithmes d'apprentissage qui fonctionnent sur le dessus de lucene.
http://lucene.apache.org/mahout/