Est-il un numpy builtin à rejeter les valeurs aberrantes à partir d'une liste

Est-il un numpy builtin de faire quelque chose comme ce qui suit? Qui est, prendre une liste d et de retourner une liste filtered_d avec tous les périphériques éléments supprimés selon certains supposé de la distribution des points dans d.

import numpy as np

def reject_outliers(data):
    m = 2
    u = np.mean(data)
    s = np.std(data)
    filtered = [e for e in data if (u - 2 * s < e < u + 2 * s)]
    return filtered

>>> d = [2,4,5,1,6,5,40]
>>> filtered_d = reject_outliers(d)
>>> print filtered_d
[2,4,5,1,6,5]

Je dis "quelque chose comme" parce que la fonction peut permettre pour les différentes distributions (poisson, gauss, etc.) et en variant les valeurs aberrantes, les seuils à l'intérieur de ces distributions (comme le m j'ai utilisé ici).

Connexes: Peut scipy.statistiques d'identifier et d'un masque évident valeurs aberrantes?, bien que cette question semble faire face à des situations plus complexes. Pour la simple tâche que vous avez décrit, un package externe semble être exagéré.
Je pensais que vu le nombre d'objets internes dans la principale bibliothèque numpy qu'il était étrange qu'il n'y avait rien à faire. Il semble comme une chose assez rare pour le faire avec des brutes, des données bruitées.

InformationsquelleAutor aaren | 2012-07-27

numpy python

81

Cette méthode est presque identique à la vôtre, un peu plus numpyst (également de travailler sur des tableaux numpy uniquement):
```
def reject_outliers(data, m=2):
    return data[abs(data - np.mean(data)) < m * np.std(data)]
```
- Cette méthode fonctionne assez bon si m est suffisamment large (par exemple,m=6), mais pour de petites valeurs de m cette souffre de la moyenne, la variance de ne pas être robuste estimateurs.
- ce n'est pas vraiment une plainte à propos de la méthode, mais une plainte à propos de la notion vague de "valeurs aberrantes'
- comment choisissez-vous un m?
- Je n'ai pas eu ce travail. Je reçois un message d'erreur de données de retour[abs(données - np.moyenne(données)) < m * np.std(données)] TypeError: entiers scalaires tableaux peuvent être convertis à un scalaire index OU il ne gèle mon programme
- les données arg doit être un tableau numpy.
- Je pense que vous avez besoin de <= pour gérer le cas où toutes les données ont la même valeur. L'ajout d'un petit epsilon sur le côté droit de l'équation doit le rendre plus robuste pour des cas semblables aussi. Merci pour ce propre, solution la plus simple.
InformationsquelleAutor eumiro
160

Quelque chose d'important lorsqu'il est question de valeurs aberrantes, c'est que l'on devrait essayer d'utiliser des estimateurs robustes que possible. La moyenne d'une distribution biaisée par les valeurs aberrantes, mais par exemple, la médiane sera beaucoup moins.

Bâtiment sur eumiro réponse:
```
def reject_outliers(data, m = 2.):
    d = np.abs(data - np.median(data))
    mdev = np.median(d)
    s = d/mdev if mdev else 0.
    return data[s<m]
```
Ici, j'ai remplacer le dire avec la plus robuste, la médiane et l'écart-type avec la distance absolue par rapport à la médiane. J'ai ensuite mis à l'échelle, les distances par leur (nouveau) valeur médiane de sorte que m est raisonnable par rapport à l'échelle.

Noter que pour la data[s<m] syntaxe fonctionne, data doit être un tableau numpy.
- itl.nist.gov/div898/handbook/eda/section3/eda35h.htm c'est fondamentalement modifié Z-score référencé ici, mais avec un seuil différent. Si mon calcul est juste, ils recommandent un m de 3.5 / .6745 ~= 5.189 (ils se multiplient s par .6745 et spécifier un m de 3,5...aussi prendre abs(s)). Quelqu'un peut-il expliquer le choix de m? Ou est-ce quelque chose que vous vous identifier à partir de votre jeu particulier de données?
- Le choix pour m dépend de l'ensemble de données d'entrée. Sa valeur en fin de compte, décide de la pureté des données filtrées et l'efficacité de rejet de vrai valeurs aberrantes. Un moyen pour déterminer une bonne valeur serait d'examiner l'interaction de la pureté et de l'efficacité de simulé (formation) des données, et de prendre de la valeur.
- Pouvez-vous veuillez donner quelques explication concrète pour le choix d'une valeur pour m plutôt que de moelleux des phrases comme: "jeu de pureté et d'efficacité"?
- Comme je l'ai dit, cela dépend de vos besoins spécifiques, c'est à dire, comment nettoyer nous avons besoin de signal de l'échantillon (faux positifs), ou combien de mesures de signaux, nous pouvons nous permettre de jeter de garder le signal propre (faux négatifs). Pour un exemple précis d'évaluation pour certains cas d'utilisation, voir, par exemple, desy.de/~blist/notes/whyeffpur.ps.gz.
- Je suis à la recherche pour le Igleqicz et Hoaglin papier, mais je n'ai pas encore trouvé. Est-il une raison pourquoi les 0.6745 facteur est codé en dur dans la modification de Z-score fournies par le NIST? C'est étrange d'inclure un facteur d'échelle sur un côté de la tester, puis à un seuil arbitraire de 3,5 sur l'autre. Que facteur d'échelle doivent avoir un sens, sinon, il aurait été facile de tomber et de proposer des valeurs supérieures à 5 sont des valeurs aberrantes.
- cela me donne une liste des index out of range'
- J'obtiens l'erreur suivante lorsque j'appelle la fonction avec une liste de la flotte: TypeError: only integer scalar arrays can be converted to a scalar index
- si vous regardez la figure itl.nist.gov/div898/handbook/eda/section3/eda356.htm#MAD , vous verrez que lorsque vous traitez avec une distribution normale (qui en fait n'est pas le cas, vous avez besoin de la modification de la z-scores) avec SD = 1, vous avez MAD ~ 0.68, ce qui explique le facteur d'échelle. Le choix de m = 3.5 implique donc, que vous voulez vous débarrasser de 0,05 % des données.
- alors m peut être considéré comme une mise au rancart de paramètre? Neat!
- Cela m'a donné de bien meilleurs résultats que la accepté de répondre. J'ai ajouté cette section pour activer la réception d'un arbitraire de la liste: def reject_outliers(data, m = 2.): if not isinstance(data, np.ndarray): data = np.array(data) d = np.abs(data - np.median(data)) mdev = np.median(d) s = d/mdev if mdev else 0. return data[s<m]
InformationsquelleAutor Benjamin Bannier

Benjamin Bannier réponse donne un pass-through lors de la médiane des distances à partir de la médiane est de 0, donc j'ai trouvé cette version modifiée un peu plus utile pour les cas comme dans l'exemple ci-dessous.

def reject_outliers_2(data, m = 2.):
    d = np.abs(data - np.median(data))
    mdev = np.median(d)
    s = d/(mdev if mdev else 1.)
    return data[s<m]

Exemple:

data_points = np.array([10, 10, 10, 17, 10, 10])
print(reject_outliers(data_points))
print(reject_outliers_2(data_points))

Donne:

[[10, 10, 10, 17, 10, 10]]  # 17 is not filtered
[10, 10, 10, 10, 10]  # 17 is filtered (it's distance, 7, is greater than m)

InformationsquelleAutor Yigal

8

Bâtiment sur Benjamin, à l'aide de pandas.Series, et le remplacement de MAD avec IQR:
```
def reject_outliers(sr, iq_range=0.5):
    pcnt = (1 - iq_range) / 2
    qlow, median, qhigh = sr.dropna().quantile([pcnt, 0.50, 1-pcnt])
    iqr = qhigh - qlow
    return sr[ (sr - median).abs() <= iqr]
```
Par exemple, si vous définissez iq_range=0.6, les percentiles de la interquartile range devient: 0.20 <--> 0.80, donc plus valeurs aberrantes seront inclus.

InformationsquelleAutor ankostis

Une alternative est de faire une estimation robuste de l'écart-type (en supposant que Gaussien statistiques). Recherche de calculatrices en ligne, je vois que le 90% percentile correspond à 1.2815 σ et l'ic à 95% est 1,645 à σ (http://vassarstats.net/tabs.html?#z)

Comme un simple exemple:

import numpy as np

# Create some random numbers
x = np.random.normal(5, 2, 1000)

# Calculate the statistics
print("Mean= ", np.mean(x))
print("Median= ", np.median(x))
print("Max/Min=", x.max(), " ", x.min())
print("StdDev=", np.std(x))
print("90th Percentile", np.percentile(x, 90))

# Add a few large points
x[10] += 1000
x[20] += 2000
x[30] += 1500

# Recalculate the statistics
print()
print("Mean= ", np.mean(x))
print("Median= ", np.median(x))
print("Max/Min=", x.max(), " ", x.min())
print("StdDev=", np.std(x))
print("90th Percentile", np.percentile(x, 90))

# Measure the percentile intervals and then estimate Standard Deviation of the distribution, both from median to the 90th percentile and from the 10th to 90th percentile
p90 = np.percentile(x, 90)
p10 = np.percentile(x, 10)
p50 = np.median(x)
# p50 to p90 is 1.2815 sigma
rSig = (p90-p50)/1.2815
print("Robust Sigma=", rSig)

rSig = (p90-p10)/(2*1.2815)
print("Robust Sigma=", rSig)

La sortie que je reçois est:

Mean=  4.99760520022
Median=  4.95395274981
Max/Min= 11.1226494654   -2.15388472011
Sigma= 1.976629928
90th Percentile 7.52065379649

Mean=  9.64760520022
Median=  4.95667658782
Max/Min= 2205.43861943   -2.15388472011
Sigma= 88.6263902244
90th Percentile 7.60646688694

Robust Sigma= 2.06772555531
Robust Sigma= 1.99878292462

Qui est proche de la valeur attendue de 2.

Si nous voulons supprimer les points au-dessus/en-dessous de 5 écarts-types (avec 1000 points, nous nous attendrions 1 valeur > 3 écarts-types):

y = x[abs(x - p50) < rSig*5]

# Print the statistics again
print("Mean= ", np.mean(y))
print("Median= ", np.median(y))
print("Max/Min=", y.max(), " ", y.min())
print("StdDev=", np.std(y))

Qui donne:

Mean=  4.99755359935
Median=  4.95213030447
Max/Min= 11.1226494654   -2.15388472011
StdDev= 1.97692712883

Je n'ai aucune idée de qui est l'approche la plus efficace/solide

InformationsquelleAutor Chris

J'aimerais donner deux méthodes dans cette réponse, la solution basée sur le "z score" et la solution fondée sur "l'EI".

Le code fourni dans cette réponse, fonctionne à la fois unique dim numpy tableau et plusieurs numpy tableau.

Nous allons importer certains modules d'abord.

import collections
import numpy as np
import scipy.stats as stat
from scipy.stats import iqr

z score méthode basée sur

Cette méthode permettra de tester si le nombre se situe à l'extérieur de trois écarts-types. Sur cette base, si la valeur est aberrant, la méthode renvoie true, sinon, retourne false.

def sd_outlier(x, axis = None, bar = 3, side = 'both'):
    assert side in ['gt', 'lt', 'both'], 'Side should be `gt`, `lt` or `both`.'

    d_z = stat.zscore(x, axis = axis)

    if side == 'gt':
        return d_z > bar
    elif side == 'lt':
        return d_z < -bar
    elif side == 'both':
        return np.abs(d_z) > bar

IQR la méthode basée sur la

Cette méthode permettra de tester si la valeur est inférieure à q1 - 1.5 * iqr ou supérieure à q3 + 1.5 * iqr, qui est similaire à SPSS intrigue de méthode.

def q1(x, axis = None):
    return np.percentile(x, 25, axis = axis)

def q3(x, axis = None):
    return np.percentile(x, 75, axis = axis)

def iqr_outlier(x, axis = None, bar = 1.5, side = 'both'):
    assert side in ['gt', 'lt', 'both'], 'Side should be `gt`, `lt` or `both`.'

    d_iqr = iqr(x, axis = axis)
    d_q1 = q1(x, axis = axis)
    d_q3 = q3(x, axis = axis)
    iqr_distance = np.multiply(d_iqr, bar)

    stat_shape = list(x.shape)

    if isinstance(axis, collections.Iterable):
        for single_axis in axis:
            stat_shape[single_axis] = 1
    else:
        stat_shape[axis] = 1

    if side in ['gt', 'both']:
        upper_range = d_q3 + iqr_distance
        upper_outlier = np.greater(x - upper_range.reshape(stat_shape), 0)
    if side in ['lt', 'both']:
        lower_range = d_q1 - iqr_distance
        lower_outlier = np.less(x - lower_range.reshape(stat_shape), 0)

    if side == 'gt':
        return upper_outlier
    if side == 'lt':
        return lower_outlier
    if side == 'both':
        return np.logical_or(upper_outlier, lower_outlier)

Enfin, si vous souhaitez filtrer les valeurs aberrantes, l'utilisation d'un numpy sélecteur.

Avoir une belle journée.

InformationsquelleAutor Losses Don

0

Je voulais faire quelque chose de similaire, à l'exception de la fixation du nombre de NaN, plutôt que de le supprimer de données, car si vous l'enlevez, vous modifiez la longueur qui peut gâcher le traçage (par exemple, si vous êtes seulement enlever les valeurs aberrantes d'une colonne dans une table, mais vous avez besoin qu'il reste le même que les autres colonnes de sorte que vous pouvez tracer les uns contre les autres).

Pour ce faire j'ai utilisé numpy est le masquage des fonctions:
```
def reject_outliers(data, m=2):
    stdev = np.std(data)
    mean = np.mean(data)
    maskMin = mean - stdev * m
    maskMax = mean + stdev * m
    mask = np.ma.masked_outside(data, maskMin, maskMax)
    print('Masking values outside of {} and {}'.format(maskMin, maskMax))
    return mask
```
- Vous pouvez également np.clip à minimum et le maximum des valeurs autorisées à conserver les dimensions.
InformationsquelleAutor Alex S

Vous devez vous connecter pour publier un commentaire.