À l'aide d'une matrice creuse rapport à un tableau numpy

Je suis la création de certains des tableaux numpy avec le nombre de mots en Python: les lignes sont les documents, les colonnes sont les chiffres pour le mot X. Si j'ai beaucoup de zéro, les gens suggèrent à l'aide de matrices creuses lors du traitement de ces plus loin, par exemple dans un classificateur. Lors de l'alimentation d'un tableau numpy par rapport à une matrice creuse dans le Scikit régression logistique classificateur, il ne semble pas faire beaucoup de différence, cependant. Donc, je me demandais à propos de trois choses:

  • Wikipédia dit

    d'une matrice creuse est une matrice dans laquelle la plupart des éléments sont nuls

    Est qu'un moyen approprié de déterminer quand utiliser une matrice creuse
    format - dès que > 50 % de la valeur est égale à zéro? Ou faut-il faire
    sens de l'utiliser, juste au cas où?

  • Combien une matrice creuse aider à la performance dans une tâche comme la mienne,
    surtout par rapport à un tableau numpy ou une liste standard?
  • Jusqu'à présent, je collecte mes données dans un tableau numpy, puis de les convertir dans le
    csr_matrix dans Scipy. Est-ce le bon moyen de le faire? Je ne pouvais pas
    comprendre comment construire une matrice creuse de la terre, et que
    peut-être impossible.

Toute aide est très appréciée!

OriginalL'auteur patrick | 2016-05-01