Comment utiliser scikit-learn PCA pour les fonctions de réduction et de savoir quelles fonctionnalités sont jetés

Je suis en train de lancer une ACP sur la matrice de dimensions m × n, où m est le nombre de fonctionnalités et n le nombre d'échantillons.

Supposons que je veuille préserver la nf fonctionnalités avec le maximum de variance. Avec scikit-learn je suis capable de le faire de cette façon:

from sklearn.decomposition import PCA

nf = 100
pca = PCA(n_components=nf)
# X is the matrix transposed (n samples on the rows, m features on the columns)
pca.fit(X)

X_new = pca.transform(X)

Maintenant, je reçois une nouvelle matrice X_new qui a une forme de n x nf. Est-il possible de savoir quelles fonctionnalités ont été mis au rebut ou de la non-uns?

Grâce

Fonctionnalité ne sont pas jetés, ils sont projetés à des dimensions plus petites, et supposons que pour révéler des liens intéressants entre les différentes fonctionnalités.
Merci Tom, je pensais PCA pourrait être utilisé pour la sélection des fonctionnalités, mais (corrigez si je me trompe), il est seulement utilisé pour remettre à l'échelle les données sur les composantes principales. Comme vous l'avez lu, je pense que je vais fermer la question.
Votre matrice de sortie doit être de la forme (n, nf), pas (nf, n).

InformationsquelleAutor gc5 | 2014-04-25

30

Les caractéristiques de votre PCA objet a déterminé au cours de la pose sont dans pca.components_. L'espace vectoriel orthogonal à celui engendré par pca.components_ est rejetée.

Veuillez noter que l'APC ne pas "jeter" ou "conserver" à tout de votre pré-défini les caractéristiques (codées par les colonnes de vous préciser). Il mélange tous d'entre eux (par une somme pondérée) pour trouver des directions orthogonales de variance maximale.

Si ce n'est pas le comportement que vous recherchez, puis de l'APC de réduction de dimensionnalité est pas la voie à suivre. Pour une simple caractéristique générale des méthodes de sélection, vous pouvez prendre un coup d'oeil à sklearn.feature_selection
- J'ai enfin compris ce que l'APC n'a (heureusement). Est-il préféré fonction de corrélation à calculer si une fonctionnalité est corrélée avec une composante principale? De cette façon, je pense être en mesure de trouver les dimensions plus représentatives dans mon dataset.. (corrigez-moi si je me trompe) .. puis-je utiliser seulement Pearson ou de similarité cosinus?
- Thumbs up pour la compréhension de l'APC 😉 -- afin d'être En mesure de répondre à votre question, nous avons besoin d'être très clair sur ce que l'on entend par la fonction et dimension. Il y a risque de confusion avec les deux. Les caractéristiques indiquées sont les colonnes de la matrice. Afin de voir si le PCA de la composante 0 rend l'utilisation de la fonctionnalité i, vous pouvez comparer pca.components_[0, i] pour le reste de pca.components_[0]. Donc, si je comprends votre question correctement, alors la réponse est à chercher dans un PC et de voir qui de vos fonctions ont le plus grand poids.
- Avertissement: Si vous sélectionnez fonctions selon le poids dans vos composants principaux, vous peut ou ne peut pas obtenir quelque chose d'intéressant. Une fois de plus, le PCA n'est pas fait pour jeter des caractéristiques tel que défini par les axes canoniques. Afin d'être sûr de ce que vous faites, essayez de sélectionner k fonctionnalités à l'aide de sklearn.feature_selection.SelectKBest à l'aide de sklearn.feature_selection.f_classif ou sklearn.feature_selection.f_regression selon si votre cible est numériques ou catégorielles
- Ok je vais jeter un oeil à ceux-ci. Pour répondre à votre question précédente, je vois des composants, la pseudo-échantillons, est-ce mal? J'ai utiliser la fonctionnalité et de la dimension de façon interchangeable. Cependant, afin d'obtenir k fonctionnalités (comme une sorte de sélection de fonction), je pense que j'ai pour échanger des échantillons et fonctionnalités, pour obtenir les Pc qui sont des pseudo-fonctions (et pas les pseudo-échantillons). Je ne sais pas si c'est clair. Dans ce scénario, j'ai pu corréler chaque fonctionnalité avec chaque PC, pour voir si elle montre le même comportement dans tous les échantillons. Merci quand même pour l'effort 🙂
- Ok, peut-être un autre pas en avant: les Ordinateurs ne sont pas des pseudo-échantillons, mais des tableaux de projections des caractéristiques de chaque composante principale. Donc, si j'ai fait cela correctement, si certaines fonctions sont-dessus d'un certain seuil dans un PC (par exemple A = 0,75 et B = 0.9), et pas pertinente dans les autres Pc (disons A = 0.1 et B = 0,05), peut-être que nous pouvons dire qu'ils peuvent être résumées avec B (si notre objectif est fonction de la sélection)..
- Les gars, géniale la discussion ici, c'était très intéressant. Juste pour s'assurer que @eickenberg, si je veux sélectionner le top 100 des caractéristiques qui montrent plus de poids sur mon PC1 (c'est à dire sans doute que le 100 la plupart des fonctions informatives) vous pouvez utiliser pca.components_[0,:100] pour les sélectionner?
- La sélection pca.components_[0, :100] regarde les 100 premières entrées de la 0e ligne de ce tableau. 0e ligne signifie premier volet, oui, mais :100 sera juste pour vous sélectionner le poids sur les 100 premières caractéristiques dans l'ordre de leur entrée. Si vous voulait évaluer le poids par la taille et l'ampleur (difficile de savoir si c'est une bonne idée), puis à les identifier, vous voulez le faire np.abs(pca.components_[0]).argsort()[::-1][:100] (tri/argsort commencer à la plus petite, donc soit utiliser [::-1] ou un approprate mot-clé pour inverser, puis couper à 100). Supprimer np.abs si vous souhaitez conserver le signe.
InformationsquelleAutor eickenberg
2

Les entités projetées sur les principaux composants de conserver les informations importantes (axes avec des écarts maximaux) et déposer les axes avec de petits écarts. Ce comportement ressemble à compression (Pas de jeter).

Et X_proj est le meilleur nom de X_new, parce que c'est la projection de X sur principal components

Vous pouvez reconstruire le X_rec comme
```
X_rec = pca.inverse_transform(X_proj) # X_proj is originally X_new
```
Ici, X_rec est proche de X, mais le less important l'information a été lâchée par l'APC. On peut donc dire X_rec est débruiter.

À mon avis, je peux dire the noise est à jeter.

InformationsquelleAutor emeth
1

La réponse ci-dessus est incorrecte. Le sklearn site indique clairement que la components_ tableau est trié. donc il ne peut pas être utilisé pour identifier les caractéristiques importantes.

components_ : array [n_components, n_features]
Axes principaux en fonction de l'espace, représentant les directions du maximum de la variance dans les données. Les composants sont classés par explained_variance_.

http://scikit-learn.org/stable/modules/generated/sklearn.decomposition.PCA.html
- Le components_ tableau est trié en fonction de la variance expliquée, ce qui signifie que components_[0] est PC1, components_[1] est le PC2, etc, de la plus élevée à la plus faible variance expliquée. Si j'ai bien compris, ce que la réponse ci-dessus dit, c'est que vous pouvez les utiliser pour ensuite sélectionner les entités en entrée ont le plus de poids sur chacun de ces Ordinateurs
InformationsquelleAutor Pramod Kalipatnapu

Vous devez vous connecter pour publier un commentaire.