Obtenez la sélection des noms de TFIDF Vectorizer

Je suis en utilisant python et je veux obtenir le TFIDF représentation pour un grand corpus de données, j'utilise le code suivant pour convertir les documents dans leur TFIDF forme.

from sklearn.feature_extraction.text import TfidfVectorizer
tfidf_vectorizer = TfidfVectorizer(
    min_df=1,  # min count for relevant vocabulary
    max_features=4000,  # maximum number of features
    strip_accents='unicode',  # replace all accented unicode char 
    # by their corresponding  ASCII char
    analyzer='word',  # features made of words
    token_pattern=r'\w{1,}',  # tokenize only words of 4+ chars
    ngram_range=(1, 1),  # features made of a single tokens
    use_idf=True,  # enable inverse-document-frequency reweighting
    smooth_idf=True,  # prevents zero division for unseen words
    sublinear_tf=False)

tfidf_df = tfidf_vectorizer.fit_transform(df['text'])

Ici, j'ai passer un paramètre max_features. Le vectorizer sélectionnera les meilleures fonctionnalités et de retourner une scipy sparse matrix. Le problème est que je ne sais pas quelles sont les caractéristiques d'obtenir sélectionnés et comment mapper ces noms de fonction de retour à la scipy matrice-je obtenir? En gros pour n fonctions sélectionnées à partir de la m nombre de documents, je veux un m x n de la matrice avec les fonctions sélectionnées comme les noms de colonne, au lieu de leur integer id. Comment puis-je y arriver?

OriginalL'auteur Clock Slave | 2017-03-01