Besoin d'un module python pour l'archivage de documents texte

J'ai besoin d'un bon module python pour découlant des documents de texte dans l'étape de prétraitement.

J'ai trouvé cette

http://pypi.python.org/pypi/PyStemmer/1.0.1

mais je ne trouve pas de documentation int le lien fourni.

J'ai quelqu'un sait où trouver de la documentation ou tout autre produit issu de l'algorithme s'il vous plaît aider.

Vous pouvez essayer de NLTK

>>> from nltk import PorterStemmer
>>> PorterStemmer().stem('complications')

5

Python découlant module a mises en œuvre de diverses découlant des algorithmes comme Porter, Porter2, Paice-Cosse, et Lovins.
http://pypi.python.org/pypi/stemming/1.0
```
    >> from stemming.porter2 import stem
    >> stem("factionally")
    faction
```

Tous ces analyseurs morphologiques qui ont été abordés ici sont algorithmique stemmer,donc ils peuvent toujours produire des résultats inattendus, tels que

In [3]: from nltk.stem.porter import *

In [4]: stemmer = PorterStemmer()

In [5]: stemmer.stem('identified')
Out[5]: u'identifi'

In [6]: stemmer.stem('nonsensical')
Out[6]: u'nonsens'

Correctement obtenir la racine des mots-on besoin d'un dictionnaire de base de l'analyseur morphologique comme Hunspell Stemmer.Voici un python de mise en œuvre de il en la suivant lien. L'exemple de code est ici

>>> import hunspell
>>> hobj = hunspell.HunSpell('/usr/share/myspell/en_US.dic', '/usr/share/myspell/en_US.aff')
>>> hobj.spell('spookie')
False
>>> hobj.suggest('spookie')
['spookier', 'spookiness', 'spooky', 'spook', 'spoonbill']
>>> hobj.spell('spooky')
True
>>> hobj.analyze('linked')
[' st:link fl:D']
>>> hobj.stem('linked')
['link']

1

La gensim le paquet pour le sujet de la modélisation est livré avec un Portier de l'analyseur morphologique de l'algorithme:
```
>>> from gensim import parsing
>>> gensim.parsing.stem_text("trying writing nonsense")
'try write nonsens'
```
La PorterStemmer est la seule option de racinisation mis en œuvre dans gensim.

Une note de côté: j'imagine (sans plus de références) que la plupart de text-mining modules ont leurs propres implémentations pour la simple pré-procédures de traitement comme Porter du radical, l'espace blanc de suppression et stop-mot de suppression.
0

PyStemmer est une interface Python à la boule de neige provenant de la bibliothèque.

Documentation peut être trouvée ici:
https://github.com/snowballstem/pystemmer/blob/master/docs/quickstart.txt
https://github.com/snowballstem/pystemmer/blob/master/docs/quickstart_python3.txt

Vous devez vous connecter pour publier un commentaire.