Python - calcul des courbes de tendance avec des erreurs

Donc j'ai quelques données stockées dans deux listes, et tracées à l'aide de

plot(datasetx, datasety)

Puis-je définir une courbe de tendance

trend = polyfit(datasetx, datasety)
trendx = []
trendy = []

for a in range(datasetx[0], (datasetx[-1]+1)):
    trendx.append(a)
    trendy.append(trend[0]*a**2 + trend[1]*a + trend[2])

plot(trendx, trendy)

Mais j'ai une troisième liste de données, ce qui est l'erreur dans l'original datasety. Je suis très bien avec le tracé de la errorbars, mais ce que je ne sais pas qui est à l'aide de ceci, comment trouver l'erreur dans l'estimation des coefficients du polynôme courbe de tendance.

Donc dire que ma courbe de tendance est sorti à 5x^2 + 3x + 4 = y, il doit y avoir une sorte d'erreur sur les 5, 3 et 4 les valeurs.

Est-il un outil à l'aide de NumPy qui va calculer ce pour moi?

source d'informationauteur Aaron Powell | 2011-08-24

11

Je pense que vous pouvez utiliser la fonction curve_fit de scipy.optimize (la documentation). Un exemple de base de l'utilisation:
```
import numpy as np
from scipy.optimize import curve_fit

def func(x, a, b, c):
    return a*x**2 + b*x + c

x = np.linspace(0,4,50)
y = func(x, 5, 3, 4)
yn = y + 0.2*np.random.normal(size=len(x))

popt, pcov = curve_fit(func, x, yn)
```
La suite de la documentation, de la pcov donne:

L'estimation de la covariance de popt. Les diagonales de fournir la variance
de l'estimation du paramètre.

Donc, de cette façon, vous pouvez calculer une erreur d'estimation sur les coefficients. Pour avoir l'écart-type, vous pouvez prendre la racine carrée de la variance.

Maintenant vous avez une erreur sur les coefficients, mais il est seulement basé sur l'écart entre le ydata et l'ajustement. Dans le cas où vous souhaitez également compte d'une erreur sur le ydata lui-même, le curve_fit fonction fournit la sigma argument:

sigma : Aucun ou N-longueur de la séquence

Sinon Aucune, il représente la norme de la déviation de ydata. Cette
vecteur, le cas échéant, sera utilisé comme poids dans la méthode des moindres carrés
problème.

Un exemple complet:
```
import numpy as np
from scipy.optimize import curve_fit

def func(x, a, b, c):
    return a*x**2 + b*x + c

x = np.linspace(0,4,20)
y = func(x, 5, 3, 4)
# generate noisy ydata
yn = y + 0.2 * y * np.random.normal(size=len(x))
# generate error on ydata
y_sigma = 0.2 * y * np.random.normal(size=len(x))

popt, pcov = curve_fit(func, x, yn, sigma = y_sigma)

# plot
import matplotlib.pyplot as plt

fig = plt.figure()
ax = fig.add_subplot(111)
ax.errorbar(x, yn, yerr = y_sigma, fmt = 'o')
ax.plot(x, np.polyval(popt, x), '-')
ax.text(0.5, 100, r"a = {0:.3f} +/- {1:.3f}".format(popt[0], pcov[0,0]**0.5))
ax.text(0.5, 90, r"b = {0:.3f} +/- {1:.3f}".format(popt[1], pcov[1,1]**0.5))
ax.text(0.5, 80, r"c = {0:.3f} +/- {1:.3f}".format(popt[2], pcov[2,2]**0.5))
ax.grid()
plt.show()
```
Puis quelque chose d'autresur l'utilisation des tableaux numpy. L'un des principaux avantages de l'utilisation de numpy est que vous pouvez éviter de boucles parce que les opérations sur les tableaux s'appliquent elementwise. De sorte que la boucle for dans votre exemple peut également être effectué comme suit:
```
trendx = arange(datasetx[0], (datasetx[-1]+1))
trendy = trend[0]*trendx**2 + trend[1]*trendx + trend[2]
```
Où j'utilise arange au lieu de fourchette, elle retourne un tableau numpy au lieu d'une liste.
Dans ce cas, vous pouvez également utiliser la fonction numpy polyval:
```
trendy = polyval(trend, trendx)
```

Je n'ai pas été en mesure de trouver un moyen d'obtenir les erreurs dans l'estimation des coefficients qui est intégré dans numpy ou python. J'ai un simple outil que j'ai écrit basé sur la Section 8.5 et 8.6 de John Taylor Une Introduction à l'Analyse des Erreurs. Peut-être que ce sera suffisant pour votre tâche (à noter le retour par défaut est la variance, pas l'écart-type). Vous pouvez obtenir de grosses erreurs (comme dans l'exemple fourni) en raison de covariance significative.

def leastSquares(xMat, yMat):
'''
Purpose
-------
Perform least squares using the procedure outlined in 8.5 and 8.6 of Taylor, solving
matrix equation X a = Y

Examples
--------
>>> from scipy import matrix
>>> xMat = matrix([[  1,   5,  25],
                   [  1,   7,  49],
                   [  1,   9,  81],
                   [  1,  11, 121]])
>>> # matrix has rows of format [constant, x, x^2]
>>> yMat = matrix([[142],
                   [168],
                   [211],
                   [251]])
>>> a, varCoef, yRes = leastSquares(xMat, yMat)
>>> # a is a column matrix, holding the three coefficients a, b, c, corresponding to
>>> # the equation a + b*x + c*x^2

Returns
-------
a: matrix
    best fit coefficients
varCoef: matrix
    variance of derived coefficents
yRes: matrix
    y-residuals of fit 
'''
xMatSize = xMat.shape
numMeas = xMatSize[0]
numVars = xMatSize[1]

xxMat = xMat.T * xMat
xyMat = xMat.T * yMat
xxMatI = xxMat.I

aMat = xxMatI * xyMat
yAvgMat = xMat * aMat
yRes = yMat - yAvgMat

var = (yRes.T * yRes) / (numMeas - numVars)
varCoef = xxMatI.diagonal() * var[0, 0]

return aMat, varCoef, yRes

Vous devez vous connecter pour publier un commentaire.