NumPy: Comment filtrer les lignes de la matrice

Je suis nouveau sur numpy et de la difficulté à essayer de filtrer un sous-ensemble de l'échantillon.

J'ai une matrice de la forme (1000, 12). C'est, d'un millier d'échantillons, avec 12 colonnes de données dans chaque. Je suis prêt à créer deux matrices, l'une avec toutes les valeurs aberrantes dans l'échantillon, et de l'autre avec tous les éléments qui ne sont pas des valeurs aberrantes; Les matrices résultantes devrait avoir cette forme:

norm.shape     = (883, 12)
outliers.shape = (117, 12)

Pour identifier une valeur aberrante, je suis en utilisant cette condition:

cond_out  = (dados[0:,RD_EVAL] > _max_rd) | (dados[0:,DUT_EVAL] > _max_dut)

Qui est, pour chaque ligne de la matrice, je suis à la recherche pour les valeurs de deux colonnes. Si l'un d'entre eux est au-dessus d'un certain seuil, puis la ligne est considéré comme atypique. Le point est, cette condition a une forme (1000,), donc quand je compresse la matrice d'origine, je reçois un (117,) résultat. Comment ai-je pu filtrer la matrice de sorte que le résultat serait (117,12), c'est une matrice dont toutes les lignes qui sont des valeurs aberrantes, mais avec toutes les colonnes de données dans chacun d'eux?

OriginalL'auteur | 2012-08-14

numpy python

import numpy as np

d=np.random.randn(4,4)

array([[ 1.16968447, -0.07650322, -0.30519481, -2.09278839],
       [ 0.53350868, -0.8004209 ,  0.38477468,  1.31876924],
       [ 0.06461366,  0.82204993,  0.42034665,  0.30473843],
       [ 1.13469745, -1.47969242,  2.36338208, -0.33700972]])

Permet de filtrer toutes les lignes qui sont à moins de zéro dans la deuxième colonne:

d[:,1]<0
array([ True,  True, False,  True], dtype=bool)

Vous voir, vous obtenez un ensemble logique que vous pouvez utiliser pour sélectionner les lignes:

d[d[:,1]<0,:]

array([[ 1.16968447, -0.07650322, -0.30519481, -2.09278839],
       [ 0.53350868, -0.8004209 ,  0.38477468,  1.31876924],
       [ 1.13469745, -1.47969242,  2.36338208, -0.33700972]])

OriginalL'auteur Theodros Zelleke

Peut-être quelque chose de ce genre?

>>> import numpy
>>> m = numpy.random.random(size=(1000,12))
>>> RD_EVAL = 7
>>> _max_rd = 0.9
>>> DUT_EVAL = 11
>>> _max_dut = 0.95
>>> cond_out = (m[:,RD_EVAL] > _max_rd) | (m[:,DUT_EVAL] > _max_dut)
>>> cond_out.shape
(1000,)
>>> 
>>> norm = m[~cond_out, :]
>>> outliers = m[cond_out,:]
>>> 
>>> norm.shape
(846, 12)
>>> outliers.shape
(154, 12)

Voir les docs sur des fonctions avancées d'indexation.

OriginalL'auteur DSM

Vous devez vous connecter pour publier un commentaire.