TypeError: sparse matrix longueur est ambiguë; utilisation getnnz() ou de la forme[0] lors de l'utilisation RF classificateur?

Je suis en train d'apprendre sur les forêts aléatoires dans scikit learn et à titre d'exemple, je voudrais profiter de la forêt au Hasard classificateur pour la classification de textes, avec mon propre jeu de données. Alors d'abord j'ai vectorisé le texte avec tfidf et pour la classification:

from sklearn.ensemble import RandomForestClassifier
classifier=RandomForestClassifier(n_estimators=10) 
classifier.fit(X_train, y_train)           
prediction = classifier.predict(X_test)

Quand je lance le classement j'ai obtenu ceci:

TypeError: A sparse matrix was passed, but dense data is required. Use X.toarray() to convert to a dense numpy array.

ensuite, j'ai utilisé le .toarray() pour X_train et j'ai eu la suivante:

TypeError: sparse matrix length is ambiguous; use getnnz() or shape[0]

À partir d'une précédente question ce que j'ai compris j'ai besoin afin de réduire la dimensionnalité du tableau numpy alors je fais le même:

from sklearn.decomposition.truncated_svd import TruncatedSVD        
pca = TruncatedSVD(n_components=300)                                
X_reduced_train = pca.fit_transform(X_train)               

from sklearn.ensemble import RandomForestClassifier                 
classifier=RandomForestClassifier(n_estimators=10)                  
classifier.fit(X_reduced_train, y_train)                            
prediction = classifier.predict(X_testing)

Puis j'ai eu cette exception:

  File "/usr/local/lib/python2.7/site-packages/sklearn/ensemble/forest.py", line 419, in predict
    n_samples = len(X)
  File "/usr/local/lib/python2.7/site-packages/scipy/sparse/base.py", line 192, in __len__
    raise TypeError("sparse matrix length is ambiguous; use getnnz()"
TypeError: sparse matrix length is ambiguous; use getnnz() or shape[0]

La j'ai essayé le suivant:

prediction = classifier.predict(X_train.getnnz())

Et obtenu ceci:

  File "/usr/local/lib/python2.7/site-packages/sklearn/ensemble/forest.py", line 419, in predict
    n_samples = len(X)
TypeError: object of type 'int' has no len()

Deux questions ont été soulevées à partir de celui-ci: Comment puis-je utiliser les forêts Aléatoires pour classer correctement? et ce qui se passe avec X_train?.

Ensuite, j'ai essayé le suivant:

df = pd.read_csv('/path/file.csv',
header=0, sep=',', names=['id', 'text', 'label'])



X = tfidf_vect.fit_transform(df['text'].values)
y = df['label'].values



from sklearn.decomposition.truncated_svd import TruncatedSVD
pca = TruncatedSVD(n_components=2)
X = pca.fit_transform(X)

a_train, a_test, b_train, b_test = train_test_split(X, y, test_size=0.33, random_state=42)

from sklearn.ensemble import RandomForestClassifier

classifier=RandomForestClassifier(n_estimators=10)
classifier.fit(a_train, b_train)
prediction = classifier.predict(a_test)

from sklearn.metrics.metrics import precision_score, recall_score, confusion_matrix, classification_report
print '\nscore:', classifier.score(a_train, b_test)
print '\nprecision:', precision_score(b_test, prediction)
print '\nrecall:', recall_score(b_test, prediction)
print '\n confussion matrix:\n',confusion_matrix(b_test, prediction)
print '\n clasification report:\n', classification_report(b_test, prediction)

ajouté reproductibles code de ma réponse
il n'est pas nécessaire d'appeler le vectorizer sur les étiquettes de classe. X_test_r = tfidf_vect.transform(df['Label']). Ce devrait juste être un tableau des étiquettes. Vous avez aussi besoin de transmettre la classe etiquettes en tant que second paramètre à train_test_split

InformationsquelleAutor tumbleweed | 2015-02-04

2

C'est un peu difficile de savoir si vous êtes de passage à la même structure de données (type et de la forme) à la fit méthode et predict méthode du classificateur. Forêts aléatoires va prendre un certain temps pour fonctionner avec un grand nombre de fonctions, d'où la suggestion de réduire la dimensionnalité dans le post que vous liez.

Vous devez appliquer la SVD à la fois de la formation et des données de test de sorte que le classificateur à une formation sur la même forme d'entrée que les données que vous souhaitez à prédire. Vérifier l'entrée de l'ajustement, et l'entrée de l'prédire méthode ont le même nombre de fonctionnalités, et sont à la fois des tableaux plutôt que des matrices creuses.

mis à jour avec exemple:
mis à jour pour utiliser dataframe
```
from sklearn.feature_extraction.text import TfidfVectorizer
tfidf_vect= TfidfVectorizer(  use_idf=True, smooth_idf=True, sublinear_tf=False)
from sklearn.cross_validation import train_test_split

df= pd.DataFrame({'text':['cat on the','angel eyes has','blue red angel','one two blue','blue whales eat','hot tin roof','angel eyes has','have a cat']\
              ,'class': [0,0,0,1,1,1,0,3]})



X = tfidf_vect.fit_transform(df['text'].values)
y = df['class'].values

from sklearn.decomposition.truncated_svd import TruncatedSVD        
pca = TruncatedSVD(n_components=2)                                
X_reduced_train = pca.fit_transform(X)  

a_train, a_test, b_train, b_test = train_test_split(X, y, test_size=0.33, random_state=42)

from sklearn.ensemble import RandomForestClassifier 

classifier=RandomForestClassifier(n_estimators=10)                  
classifier.fit(a_train.toarray(), b_train)                            
prediction = classifier.predict(a_test.toarray()) 
```
Note la SVD qui se passe avant la scission dans la formation et les ensembles de test, de sorte que le tableau passé à la prédicteur a la même n comme le tableau de la fit méthode est appelée sur.
- Merci pour le modifier et l'exemple, j'ai essayé de l'adapter pour mon cas, ont encore des problèmes.. peut-être que je suis confus, pensez-vous que je dois faire deux fentes pour les données?. J'ai édité..
- Pas une seule division dans la formation et le test, mais après la svd données transformées.
- peut-être le problème, c'est que je suis en utilisant les pandas... je ne peux pas vectoriser l'ensemble de la colonne, à droite?
- êtes-vous d'obtenir l'erreur avec la tfidfvectorizer dans la trace de retour?
- Oui, je n'obtiens pas la façon de réduire la dimension de la dataframe colonne avec SVD et de diviser ensuite les données.
- vous pouvez tourner les pandas colonne à un tableau X=df['string_coloumn'].values et de la transmettre à la vectorizer
- Laissez-nous continuer cette discussion dans le chat.
- En passant, n'oubliez pas d'augmenter le composant paramètre de la SVD. Je l'ai mis à 2 pour le jouet jeu de données.
InformationsquelleAutor JAB
7

Je ne sais pas beaucoup sur sklearn, même si j'ai vaguement rappeler quelques antérieur déclenchée par un commutateur à l'aide de éparses matricies. En interne, certaines des matrices a dû remplacé par m.toarray() ou m.todense().

Mais pour vous donner une idée de ce que le message d'erreur était sur, considérez
```
In [907]: A=np.array([[0,1],[3,4]])
In [908]: M=sparse.coo_matrix(A)
In [909]: len(A)
Out[909]: 2
In [910]: len(M)
...
TypeError: sparse matrix length is ambiguous; use getnnz() or shape[0]

In [911]: A.shape[0]
Out[911]: 2
In [912]: M.shape[0]
Out[912]: 2
```
len() est généralement utilisé en Python pour compter le nombre de 1er niveau des termes d'une liste. Lorsqu'il est appliqué à un tableau 2d, c'est le nombre de lignes. Mais A.shape[0] est une meilleure façon de compter les lignes. Et M.shape[0] est le même. Dans ce cas, vous ne sont pas intéressés dans .getnnz, qui est le nombre de non-nulle termes d'une matrice creuse. A ne dispose pas de cette méthode, même si elle peut être dérivée à partir de A.nonzero().

InformationsquelleAutor hpaulj

Vous devez vous connecter pour publier un commentaire.