D'enregistrer et de réutiliser TfidfVectorizer dans scikit learn

Je suis en utilisant TfidfVectorizer dans scikit apprendre à créer une matrice à partir des données de texte. Maintenant, j'ai besoin d'enregistrer cet objet pour la réutiliser plus tard. J'ai essayé d'utiliser cornichon, mais il a donné l'erreur suivante.

loc=open('vectorizer.obj','w')
pickle.dump(self.vectorizer,loc)
*** TypeError: can't pickle instancemethod objects

J'ai essayé d'utiliser joblib dans sklearn.externals, qui a de nouveau donné une erreur semblable. Est-il possible d'enregistrer cet objet afin que je puisse le réutiliser plus tard?

Voici mon objet:

class changeToMatrix(object):
def __init__(self,ngram_range=(1,1),tokenizer=StemTokenizer()):
    from sklearn.feature_extraction.text import TfidfVectorizer
    self.vectorizer = TfidfVectorizer(ngram_range=ngram_range,analyzer='word',lowercase=True,\
                                          token_pattern='[a-zA-Z0-9]+',strip_accents='unicode',tokenizer=tokenizer)

def load_ref_text(self,text_file):
    textfile = open(text_file,'r')
    lines=textfile.readlines()
    textfile.close()
    lines = ' '.join(lines)
    sent_tokenizer = nltk.data.load('tokenizers/punkt/english.pickle')
    sentences = [ sent_tokenizer.tokenize(lines.strip()) ]
    sentences1 = [item.strip().strip('.') for sublist in sentences for item in sublist]      
    chk2=pd.DataFrame(self.vectorizer.fit_transform(sentences1).toarray()) #vectorizer is transformed in this step 
    return sentences1,[chk2]

def get_processed_data(self,data_loc):
    ref_sentences,ref_dataframes=self.load_ref_text(data_loc)
    loc=open("indexedData/vectorizer.obj","w")
    pickle.dump(self.vectorizer,loc) #getting error here
    loc.close()
    return ref_sentences,ref_dataframes

OriginalL'auteur Joswin K J | 2015-06-15

6

Tout d'abord, il est préférable de laisser l'importation en haut de votre code au lieu de l'intérieur de votre classe:
```
from sklearn.feature_extraction.text import TfidfVectorizer
class changeToMatrix(object):
  def __init__(self,ngram_range=(1,1),tokenizer=StemTokenizer()):
    ...
```
Prochaine StemTokenizer ne semble pas être une représentation canonique de la classe. Peut-être que vous avez obtenu à partir de http://sahandsaba.com/visualizing-philosophers-and-scientists-by-the-words-they-used-with-d3js-and-python.html ou peut-être quelque part d'autre donc nous allons supposer qu'il renvoie une liste de chaînes de caractères.
```
class StemTokenizer(object):
    def __init__(self):
        self.ignore_set = {'footnote', 'nietzsche', 'plato', 'mr.'}

    def __call__(self, doc):
        words = []
        for word in word_tokenize(doc):
            word = word.lower()
            w = wn.morphy(word)
            if w and len(w) > 1 and w not in self.ignore_set:
                words.append(w)
        return words
```
Maintenant pour répondre à votre question, il est possible que vous ayez besoin pour ouvrir un fichier en mode octet avant de dumping d'un cornichon, c'est à dire:
```
>>> from sklearn.feature_extraction.text import TfidfVectorizer
>>> from nltk import word_tokenize
>>> import cPickle as pickle
>>> vectorizer = TfidfVectorizer(ngram_range=(0,2),analyzer='word',lowercase=True, token_pattern='[a-zA-Z0-9]+',strip_accents='unicode',tokenizer=word_tokenize)
>>> vectorizer
TfidfVectorizer(analyzer='word', binary=False, decode_error=u'strict',
        dtype=<type 'numpy.int64'>, encoding=u'utf-8', input=u'content',
        lowercase=True, max_df=1.0, max_features=None, min_df=1,
        ngram_range=(0, 2), norm=u'l2', preprocessor=None, smooth_idf=True,
        stop_words=None, strip_accents='unicode', sublinear_tf=False,
        token_pattern='[a-zA-Z0-9]+',
        tokenizer=<function word_tokenize at 0x7f5ea68e88c0>, use_idf=True,
        vocabulary=None)
>>> with open('vectorizer.pk', 'wb') as fin:
...     pickle.dump(vectorizer, fin)
... 
>>> exit()
alvas@ubi:~$ ls -lah vectorizer.pk 
-rw-rw-r-- 1 alvas alvas 763 Jun 15 14:18 vectorizer.pk
```
Note: à l'Aide de la with idiome pour i/o accès au fichier se ferme automatiquement le fichier une fois que vous sortez de la with portée.

Sur la question avec SnowballStemmer(), notez que SnowballStemmer('english') est un objet tandis que le radical fonction est SnowballStemmer('english').stem.

IMPORTANT:
- TfidfVectorizer'générateur de jetons paramètre s'attend à prendre une chaîne de caractères et retourne une liste de chaîne de
- Mais boule de neige stemmer ne prend pas une chaîne de caractères en entrée et retourne une liste de chaîne de caractères.
De sorte que vous aurez besoin pour ce faire:
```
>>> from nltk.stem import SnowballStemmer
>>> from nltk import word_tokenize
>>> stemmer = SnowballStemmer('english').stem
>>> def stem_tokenize(text):
...     return [stemmer(i) for i in word_tokenize(text)]
... 
>>> vectorizer = TfidfVectorizer(ngram_range=(0,2),analyzer='word',lowercase=True, token_pattern='[a-zA-Z0-9]+',strip_accents='unicode',tokenizer=stem_tokenize)
>>> with open('vectorizer.pk', 'wb') as fin:
...     pickle.dump(vectorizer, fin)
...
>>> exit()
alvas@ubi:~$ ls -lah vectorizer.pk 
-rw-rw-r-- 1 alvas alvas 758 Jun 15 15:55 vectorizer.pk
```
Ouverture du fichier en mode octet n'a pas de travail. Mais j'ai compris la question. C'était la StemTokenizer classe, ce qui rend la question. Lors de l'initialisation de cette classe, j'avais donné ".snowball_stemmer = SnowballStemmer (anglais)" . Quand j'ai changé dans cette partie, le appel partie , il a travaillé. Je ne suis pas sûr de savoir pourquoi il a travaillé si.
Vous devez vous assurer que, quel que soit le tokenizer fonction est, elle retourne une liste de chaîne de caractères.
Elle renvoie une liste de chaînes de caractères seulement. L'erreur a été supprimée lorsque j'ai changé self.snowball_stemmer = SnowballStemmer('english') à snowball_stemmer = SnowballStemmer('english'). Fondamentalement, j'ai enlevé ce dans les attributs de la classe et de l'erreur a été corrigée.
Ahhh. c'est parce que SnowballStemmer('english') est un objet, ce que vous avez besoin est un objet iterable à l'aide de SnowballStemmer('english').stem
Salut! Je suis en train d'enregistrer un Cornichon pour la transformation de texte avec TfidfVectorizer, il est 76MB taille et j'ai besoin de le réduire à 10 MO. Le paramètre dtype=<type 'numpy.int64'> aide à réduire la taille?

OriginalL'auteur alvas

Vous devez vous connecter pour publier un commentaire.