La façon la plus efficace de calculer l'exécution d'un écart-type?

J'ai un tableau de listes de nombres, par exemple:

[0] (0.01, 0.01, 0.02, 0.04, 0.03)
[1] (0.00, 0.02, 0.02, 0.03, 0.02)
[2] (0.01, 0.02, 0.02, 0.03, 0.02)
     ...
[n] (0.01, 0.00, 0.01, 0.05, 0.03)

Ce que je voudrais faire est efficace de calculer la moyenne et l'écart-type à chaque index d'une liste, dans tous les éléments du tableau.

À faire la moyenne, j'ai été une boucle par le choix et la somme de la valeur à un index donné une liste. À la fin, j'ai diviser chaque valeur de mon "moyennes" liste par n.

À faire l'écart-type, je boucle à travers encore une fois, maintenant que j'ai la moyenne calculée.

Je voudrais éviter de passer par le tableau à deux reprises, une fois pour la moyenne et puis, une fois pour la SD (après j'ai une moyenne).

Est-il une méthode efficace pour le calcul de ces deux valeurs, seulement en passant par le tableau une fois? Tout le code dans un langage interprété (par exemple, Perl ou Python) ou pseudo-code est très bien.

Langue différente, mais même algorithme: stackoverflow.com/questions/895929/...
Merci, je vais vérifier que l'algorithme de sortir. Ressemble à ce dont j'ai besoin.
Merci de m'indiquer la bonne réponse, dmckee. Je tiens à vous donner la "meilleure réponse" case à cocher, si vous souhaitez prendre un moment pour ajouter votre réponse ci-dessous (si vous souhaitez que les points).
Aussi, il y a plusieurs exemples dans le rosettacode.org/wiki/Standard_Deviation
Wikipédia a un Python de mise en œuvre de en.wikipedia.org/wiki/...

InformationsquelleAutor Alex Reynolds | 2009-07-23

103

La réponse est d'utiliser Welford de l'algorithme, qui est très clairement définie après le "naïf méthodes", dans:
- Wikipédia: Algorithmes pour le calcul de la variance
Il est numériquement plus stable que soit la passe de deux ou en ligne simple somme des carrés des collectionneurs suggéré dans d'autres réponses. La stabilité n'est vraiment important quand vous avez beaucoup de valeurs qui sont proches les uns des autres comme ils le conduire à ce qui est connu comme "catastrophique annulation" en virgule flottante, la littérature.

Vous pouvez également balayer vers le haut sur la différence entre les divisant par le nombre d'échantillons (N) et N-1 dans le calcul de l'écart (écart au carré). En divisant par N-1 conduit à une estimation non biaisée de la variance de l'échantillon, alors qu'en divisant par N, en moyenne, sous-estime la variance (car elle ne prend pas en compte l'écart entre la moyenne de l'échantillon et la moyenne vraie).

J'ai écrit deux entrées de blog sur le sujet que d'aller dans plus de détails, y compris la façon de supprimer les valeurs précédentes en ligne:
- Le calcul de l'Échantillon de la Moyenne et de la Variance en Ligne en Un seul Passage
- La suppression de Valeurs dans Welford Algorithme de Ligne Moyenne et de la Variance
Vous pouvez également prendre un coup d'oeil à mon Java mettre en œuvre; la javadoc, la source, et les tests unitaires sont tous en ligne:
- +1, pour prendre soin au sujet de la suppression des valeurs de Welford de l'algorithme de
- Belle réponse, +1 pour rappeler au lecteur de la différence entre l'écart type de la population et un écart type de l'échantillon.
- Après de revenir à cette question après toutes ces années, je voulais juste dire un mot de remerciement pour avoir pris le temps de fournir une grande réponse.
InformationsquelleAutor Bob Carpenter
70

La réponse de base est d'accumuler la somme des deux x (appelons cela la "sum_x1') et x² (appelons cela la "sum_x2'), comme vous allez. La valeur de l'écart-type est alors:
```
stdev = sqrt((sum_x2 / n) - (mean * mean)) 
```
où
```
mean = sum_x / n
```
C'est l'écart-type d'échantillon; vous obtenez l'écart type de population à l'aide de " n "au lieu de" n - 1 " comme le diviseur.

Vous pouvez avoir besoin de vous soucier de la stabilité numérique de la prise de la différence entre les deux grands nombres si vous travaillez avec des échantillons de grande taille. Aller pour les références externes dans d'autres réponses (Wikipedia, etc) pour plus d'informations.
- C'est ce que j'allais suggérer. C'est le meilleur et le plus rapide, en supposant que les erreurs de précision ne sont pas un problème.
- J'ai décidé d'aller avec Welford de l'Algorithme tel qu'il effectue de manière plus fiable, avec le même calcul frais généraux.
- C'est une version simplifiée de la réponse et peut donner non de vrais résultats en fonction de l'entrée (c'est à dire, lorsque sum_x2 < sum_x1 * sum_x1). Afin d'assurer un réel valide résultat, passez à " sd = sqrt(((n * sum_x2) - (sum_x1 * sum_x1)) / (n * (n - 1)))
- ai-je raté quelque chose? Votre expression semble être différente de la mienne en garantie pour produire un résultat différent - parce que vous avez multiplié sum_x2 par n mais qui n'est pas une compensation de la multiplication de sum_x1 * sum_x1?
- points d'une question valable - la formule ci-dessus se décompose pour x>1 parce que vous finissez par prendre la racine carrée d'un nombre négatif. Le Knuth approche est la suivante: sqrt((sum_x2 / n) - (moyenne * moyenne)) où moyenne = (sum_x / n).
- La réponse a changé depuis que j'ai laissé un commentaire il y a 1 an et Greg quitté son de plus de deux mois. La formule utilisée pour être sqrt((sum_x2 - sum_x1 * sum_x1) / (n - 1)), qui, si je ne me trompe, était en fait incorrect.
- merci pour la réponse. supprimé mon commentaire précédent.
- En divisant par N donne le maximum de vraisemblance estimation de la variance, mais c'est biaisé vers le bas de la côte, car il utilise la moyenne de l'échantillon plutôt que de la vraie moyenne. En divisant par N - 1 vous donne une estimation non biaisée de la variance.
InformationsquelleAutor Jonathan Leffler

Peut-être pas ce que vous demandez, mais ... Si vous utilisez un tableau numpy, il va faire le travail pour vous, de manière efficace:

from numpy import array

nums = array(((0.01, 0.01, 0.02, 0.04, 0.03),
              (0.00, 0.02, 0.02, 0.03, 0.02),
              (0.01, 0.02, 0.02, 0.03, 0.02),
              (0.01, 0.00, 0.01, 0.05, 0.03)))

print nums.std(axis=1)
# [ 0.0116619   0.00979796  0.00632456  0.01788854]

print nums.mean(axis=1)
# [ 0.022  0.018  0.02   0.02 ]

Par le façon, il ya une intéressante discussion dans ce blog et les commentaires sur une passe de méthodes pour le calcul des moyennes et des variances:

http://lingpipe-blog.com/2009/03/19/computing-sample-mean-variance-online-one-pass/

InformationsquelleAutor ars

Ici est un littéral pur Python traduction de la Welford, l'algorithme de mise en œuvre de http://www.johndcook.com/standard_deviation.html:

https://github.com/liyanage/python-modules/blob/master/running_stats.py

class RunningStats:

    def __init__(self):
        self.n = 0
        self.old_m = 0
        self.new_m = 0
        self.old_s = 0
        self.new_s = 0

    def clear(self):
        self.n = 0

    def push(self, x):
        self.n += 1

        if self.n == 1:
            self.old_m = self.new_m = x
            self.old_s = 0
        else:
            self.new_m = self.old_m + (x - self.old_m) / self.n
            self.new_s = self.old_s + (x - self.old_m) * (x - self.new_m)

            self.old_m = self.new_m
            self.old_s = self.new_s

    def mean(self):
        return self.new_m if self.n else 0.0

    def variance(self):
        return self.new_s / (self.n - 1) if self.n > 1 else 0.0

    def standard_deviation(self):
        return math.sqrt(self.variance())

Utilisation:

rs = RunningStats()
rs.push(17.0);
rs.push(19.0);
rs.push(24.0);

mean = rs.mean();
variance = rs.variance();
stdev = rs.standard_deviation();

Ce doit être la accepté de répondre que c'est le seul qui est à la fois correct et montre l'algorithme, avec référence à Knuth.

InformationsquelleAutor Marc Liyanage

10

La Python "runstats" Module est pour ce genre de chose. Installer "runstats" de PyPI:
```
pip install runstats
```
"Runstats" résumés peuvent produire de la moyenne, la variance, l'écart-type, coefficient d'asymétrie et le coefficient d'aplatissement en un seul passage de données. Nous pouvons l'utiliser pour créer votre "running" version.
```
from runstats import Statistics

stats = [Statistics() for num in range(len(data[0]))]

for row in data:

    for index, val in enumerate(row):
        stats[index].push(val)

    for index, stat in enumerate(stats):
        print 'Index', index, 'mean:', stat.mean()
        print 'Index', index, 'standard deviation:', stat.stddev()
```
Statistiques sommaires sont basés sur les Knuth et de Welford méthode pour le calcul de la déviation standard en une seule passe comme décrit dans l'Art de la Programmation Informatique, Vol 2, p. 232, 3e édition. L'avantage de cette est numériquement stable et la précision des résultats.

Avertissement: je suis l'auteur du Python "runstats" module.
- Nice module. Il serait intéressant s'il y avait un Statistics a un .pop méthode de déploiement de la statistique pourrait également être calculé.
- ne pas maintenir une liste de valeurs donc je ne suis pas sûr que ce soit possible. Mais tirer les demandes sont les bienvenus.
InformationsquelleAutor GrantJ

Statistiques::Descriptif est un très décent module Perl pour ces types de calculs:

#!/usr/bin/perl

use strict; use warnings;

use Statistics::Descriptive qw( :all );

my $data = [
    [ 0.01, 0.01, 0.02, 0.04, 0.03 ],
    [ 0.00, 0.02, 0.02, 0.03, 0.02 ],
    [ 0.01, 0.02, 0.02, 0.03, 0.02 ],
    [ 0.01, 0.00, 0.01, 0.05, 0.03 ],
];

my $stat = Statistics::Descriptive::Full->new;
# You also have the option of using sparse data structures

for my $ref ( @$data ) {
    $stat->add_data( @$ref );
    printf "Running mean: %f\n", $stat->mean;
    printf "Running stdev: %f\n", $stat->standard_deviation;
}
__END__

De sortie:

C:\Temp> g
Running mean: 0.022000
Running stdev: 0.013038
Running mean: 0.020000
Running stdev: 0.011547
Running mean: 0.020000
Running stdev: 0.010000
Running mean: 0.020000
Running stdev: 0.012566

InformationsquelleAutor Sinan Ünür

7

Ont un coup d'oeil à PDL (prononcé "piddle!").

C'est le Perl de Données de la Langue qui est conçu pour la haute précision des mathématiques et de l'informatique scientifique.

Voici un exemple d'utilisation de vos figures....
```
use strict;
use warnings;
use PDL;

my $figs = pdl [
    [0.01, 0.01, 0.02, 0.04, 0.03],
    [0.00, 0.02, 0.02, 0.03, 0.02],
    [0.01, 0.02, 0.02, 0.03, 0.02],
    [0.01, 0.00, 0.01, 0.05, 0.03],
];

my ( $mean, $prms, $median, $min, $max, $adev, $rms ) = statsover( $figs );

say "Mean scores:     ", $mean;
say "Std dev? (adev): ", $adev;
say "Std dev? (prms): ", $prms;
say "Std dev? (rms):  ", $rms;
```
Qui produit:
```
Mean scores:     [0.022 0.018 0.02 0.02]
Std dev? (adev): [0.0104 0.0072 0.004 0.016]
Std dev? (prms): [0.013038405 0.010954451 0.0070710678 0.02]
Std dev? (rms):  [0.011661904 0.009797959 0.0063245553 0.017888544]
```
Jetez un oeil à PDL::Primitive pour plus d'informations sur le statsover de la fonction. Ceci semble suggérer que l'ADEV est le "écart-type".

Toutefois, il peut-être les personnes à mobilité RÉDUITE (qui Sinan Statistiques::Descriptive exemple montre) ou RMS (qui ars NumPy montre l'exemple). Je suppose que l'une de ces trois doit être droit 😉

Pour plus d'PDL informations, jetez un oeil à:
- pdl.perl.org (officiel PDL page).
- PDL guide de référence rapide sur PerlMonks
- Le dr Dobb's article sur PDL
- PDL Wiki
- L'entrée de Wikipedia pour PDL
- Page du projet sur Sourceforge pour PDL
- Ce n'est pas l'exécution d'un calcul.
InformationsquelleAutor draegtun
3

Quelle est la taille de votre tableau? Sauf si c'est des milliards d'éléments de long, ne vous inquiétez pas sur la boucle par deux fois. Le code est simple et facile de tester.

Ma préférence serait d'utiliser la numpy tableau de mathématiques de l'extension de convertir votre tableau de tableaux dans un numpy tableau 2D et obtenir l'écart-type directement:
```
>>> x = [ [ 1, 2, 4, 3, 4, 5 ], [ 3, 4, 5, 6, 7, 8 ] ] * 10
>>> import numpy
>>> a = numpy.array(x)
>>> a.std(axis=0) 
array([ 1. ,  1. ,  0.5,  1.5,  1.5,  1.5])
>>> a.mean(axis=0)
array([ 2. ,  3. ,  4.5,  4.5,  5.5,  6.5])
```
Si ce n'est pas une option et que vous avez besoin d'un pur Python solution, continuez à lire...

Si votre tableau est
```
x = [ 
      [ 1, 2, 4, 3, 4, 5 ],
      [ 3, 4, 5, 6, 7, 8 ],
      ....
]
```
Puis l'écart-type est:
```
d = len(x[0])
n = len(x)
sum_x = [ sum(v[i] for v in x) for i in range(d) ]
sum_x2 = [ sum(v[i]**2 for v in x) for i in range(d) ]
std_dev = [ sqrt((sx2 - sx**2)/N)  for sx, sx2 in zip(sum_x, sum_x2) ]
```
Si vous êtes déterminé à boucle à travers votre tableau qu'une seule fois, les cumuls peuvent être combinés.
```
sum_x  = [ 0 ] * d
sum_x2 = [ 0 ] * d
for v in x:
   for i, t in enumerate(v):
   sum_x[i] += t
   sum_x2[i] += t**2
```
Ce n'est pas aussi élégant que la liste de compréhension de la solution ci-dessus.
- Je ne réellement avoir à traiter avec des millions de numéros, qui est ce qui motive mon besoin d'une solution efficace. Merci!
- ce n'est pas sur la taille du jeu de données est, son sujet de la façon dont je dois SOUVENT faire 3500 différents écart-type des calculs de plus de 500 éléments sur chaque calcul par seconde
InformationsquelleAutor Stephen Simmons
2

Je pense que cette question va vous aider. Écart-type
- +1 @Lasse V. Karlsen du lien Wikipedia est bon, mais c'est l'algorithme de droite, j'ai utilisé...
InformationsquelleAutor peterdemin
1

Vous pouvez consulter l'article de Wikipedia sur Écart-Type, en particulier la section sur le Rapide des méthodes de calcul.

Il y a aussi un article que j'ai trouvé qui utilise Python, vous devriez être en mesure d'utiliser le code sans trop de changement: Les Messages Subliminaux - L'Exécution Des Écarts-Types.
- Les Messages subliminaux version n'est pas très stable numériquement.
InformationsquelleAutor Lasse Vågsæther Karlsen

n=int(raw_input("Enter no. of terms:"))

L=[]

for i in range (1,n+1):

    x=float(raw_input("Enter term:"))

    L.append(x)

sum=0

for i in range(n):

    sum=sum+L[i]

avg=sum/n

sumdev=0

for j in range(n):

    sumdev=sumdev+(L[j]-avg)**2

dev=(sumdev/n)**0.5

print "Standard deviation is", dev

InformationsquelleAutor Anuraag

1

Comme la réponse suivante décrit:
Ne pandas/scipy/numpy fournir une norme cumulative fonction d'écart?
Le Python Pandas module contient une méthode pour calculer l'exécution ou la cumulé écart-type.
Pour cela, vous devrez convertir vos données dans une pandas dataframe (ou une série si c'est 1D), mais il existe des fonctions pour que.

InformationsquelleAutor Ramon Crehuet

Voici un "one-liner", réparties sur plusieurs lignes de la programmation fonctionnelle style:

def variance(data, opt=0):
    return (lambda (m2, i, _): m2 / (opt + i - 1))(
        reduce(
            lambda (m2, i, avg), x:
            (
                m2 + (x - avg) ** 2 * i / (i + 1),
                i + 1,
                avg + (x - avg) / (i + 1)
            ),
            data,
            (0, 0, 0)))

InformationsquelleAutor Mehrdad

Je tiens à exprimer la mise à jour de cette façon:

def running_update(x, N, mu, var):
    '''
        @arg x: the current data sample
        @arg N : the number of previous samples
        @arg mu: the mean of the previous samples
        @arg var : the variance over the previous samples
        @retval (N+1, mu', var') -- updated mean, variance and count
    '''
    N = N + 1
    rho = 1.0/N
    d = x - mu
    mu += rho*d
    var += rho*((1-rho)*d**2 - var)
    return (N, mu, var)

que l'un passe-fonction devrait ressembler à ceci:

def one_pass(data):
    N = 0
    mu = 0.0
    var = 0.0
    for x in data:
        N = N + 1
        rho = 1.0/N
        d = x - mu
        mu += rho*d
        var += rho*((1-rho)*d**2 - var)
        # could yield here if you want partial results
   return (N, mu, var)

noter que c'est le calcul de la variance de l'échantillon (1/N), et non l'estimation non biaisée de la variance de population (qui utilise un 1/(N-1) normalzation facteur). Contrairement à d'autres réponses, la variable, var, qui est suivi de l'exécution de la variance n'augmente pas en proportion du nombre d'échantillons. En tout temps, elle est juste la variance de l'ensemble des échantillons vu jusqu'à présent (il n'y a pas de finale "en divisant par n" dans l'obtention de la variance).

Dans une classe, il devrait ressembler à ceci:

class RunningMeanVar(object):
    def __init__(self):
        self.N = 0
        self.mu = 0.0
        self.var = 0.0
    def push(self, x):
        self.N = self.N + 1
        rho = 1.0/N
        d = x-self.mu
        self.mu += rho*d
        self.var += + rho*((1-rho)*d**2-self.var)
    # reset, accessors etc. can be setup as you see fit

Cela fonctionne aussi pour les pondérée des échantillons:

def running_update(w, x, N, mu, var):
    '''
        @arg w: the weight of the current sample
        @arg x: the current data sample
        @arg mu: the mean of the previous N sample
        @arg var : the variance over the previous N samples
        @arg N : the number of previous samples
        @retval (N+w, mu', var') -- updated mean, variance and count
    '''
    N = N + w
    rho = w/N
    d = x - mu
    mu += rho*d
    var += rho*((1-rho)*d**2 - var)
    return (N, mu, var)

InformationsquelleAutor Dave

Vous devez vous connecter pour publier un commentaire.