la confiance et la prédiction des intervalles de StatsModels

Je fais ce linear regression avec StatsModels:

import numpy as np
import statsmodels.api as sm
from statsmodels.sandbox.regression.predstd import wls_prediction_std

n = 100

x = np.linspace(0, 10, n)
e = np.random.normal(size=n)
y = 1 + 0.5*x + 2*e
X = sm.add_constant(x)

re = sm.OLS(y, X).fit()
print(re.summary())

prstd, iv_l, iv_u = wls_prediction_std(re)

Mes questions sont, iv_l et iv_u sont le haut et le bas intervalles de confiance ou prédiction des intervalles de?

La façon dont je reçois les autres?

J'ai besoin de la confiance et de la prédiction des intervalles pour tous les points, faire un complot.

Pour user333700 - Non, l'intervalle de prédiction et de l'intervalle de confiance sont des choses différentes. Voir, par exemple, à la page 275 de "Appliqué la Régression Linéaire", par S. WEISBERG ou "l'Analyse de Régression Linéaire" par G. Seber et A. Lee. J'ai toujours pas trouvé une façon simple de calculer en Python, mais il peut être fait dans la R très simplement.

InformationsquelleAutor F.N.B | 2013-07-09

38

mise à jour voir la deuxième réponse qui est plus récente. Certains des modèles et des résultats des classes ont maintenant un get_prediction méthode qui fournit des renseignements additionnels, y compris la prédiction des intervalles et/ou les intervalles de confiance pour la predicted mean.

vieille réponse:

iv_l et iv_u vous donner les limites de l'intervalle de prévision pour chaque point.

Intervalle de prédiction est l'intervalle de confiance pour une observation et inclut l'estimation de l'erreur.

Je pense, l'intervalle de confiance pour la moyenne de prédiction n'est pas encore disponible dans statsmodels.
(En fait, l'intervalle de confiance pour les valeurs ajustées se cache à l'intérieur de la summary_table de influence_outlier, mais j'ai besoin de vérifier.)

Correcte des méthodes de prédiction pour statsmodels sont sur la liste des tâches.

Plus

Les intervalles de confiance sont là pour LO, mais l'accès est un peu maladroit.

Être inclus après l'exécution de votre script:
```
from statsmodels.stats.outliers_influence import summary_table

st, data, ss2 = summary_table(re, alpha=0.05)

fittedvalues = data[:, 2]
predict_mean_se  = data[:, 3]
predict_mean_ci_low, predict_mean_ci_upp = data[:, 4:6].T
predict_ci_low, predict_ci_upp = data[:, 6:8].T

# Check we got the right things
print np.max(np.abs(re.fittedvalues - fittedvalues))
print np.max(np.abs(iv_l - predict_ci_low))
print np.max(np.abs(iv_u - predict_ci_upp))

plt.plot(x, y, 'o')
plt.plot(x, fittedvalues, '-', lw=2)
plt.plot(x, predict_ci_low, 'r--', lw=2)
plt.plot(x, predict_ci_upp, 'r--', lw=2)
plt.plot(x, predict_mean_ci_low, 'r--', lw=2)
plt.plot(x, predict_mean_ci_upp, 'r--', lw=2)
plt.show()
```
Cela devrait donner les mêmes résultats que SAS, http://jpktd.blogspot.ca/2012/01/nice-thing-about-seeing-zeros.html
- Un problème avec cette méthode est que si les points sont rares, predict_mean_ci_low et predict_mean_ci_upp vont être déchiqueté/pointu lorsque tracées parce qu'ils n'existent que dans les valeurs ajustées, au lieu d'une gamme de points. Cependant, l'ajustement de la ligne est définie pour tous les points. Il y a un commentaire qui dit using hat_matrix only works for fitted values dans github.com/statsmodels/statsmodels/blob/master/statsmodels/... - aucune idée de comment la contourner?
- J'ai un problème avec l'application de cette réponse à mon dataset, posté une question distincte ici: stackoverflow.com/questions/34998772/.... Des conseils très apprécié!
- C'est une vieille question, mais sur la base de cette réponse, comment serait-il possible d'obtenir uniquement les points de données ci-dessous le 95 CI? J'ai posté ce que nouvelle question stackoverflow.com/questions/50585837/...
InformationsquelleAutor Josef
23

Des données de test, vous pouvez essayer d'utiliser les éléments suivants.
```
predictions = result.get_prediction(out_of_sample_df)
predictions.summary_frame(alpha=0.05)
```
J'ai trouvé le summary_frame() la méthode enterré ici et vous pouvez trouver les get_prediction() la méthode ici. Vous pouvez modifier le niveau de signification de l'intervalle de confiance et l'intervalle de prédiction en modifiant le "alpha" de paramètre.

Je vous poste ça ici parce que c'est le premier post qui arrive lorsque vous cherchez une solution pour la confiance & prédiction des intervalles – même si cela concerne des données de test plutôt.

Voici une fonction pour faire un modèle, de nouvelles données, et l'arbitraire d'un quantile, à l'aide de cette approche:
```
def ols_quantile(m, X, q):
  # m: OLS model.
  # X: X matrix.
  # q: Quantile.
  #
  # Set alpha based on q.
  a = q * 2
  if q > 0.5:
    a = 2 * (1 - q)
  predictions = m.get_prediction(X)
  frame = predictions.summary_frame(alpha=a)
  if q > 0.5:
    return frame.obs_ci_upper
  return frame.obs_ci_lower
```
- les prédictions.summary_frame(alpha=0,05) renvoie une erreur pour moi (TypeError: 'builtin_function_or_method' object is not iterable). J'ai soulevé une question sur github: github.com/statsmodels/statsmodels/issues/4437
- Qu'est-ce que out_of_sample_df? Ou plus généralement, quels sont les paramètres ne get_prediction() prendre? Quand j'ai essayer de l'alimenter par ex. valeurs de x pour la prédiction, il ValueErrors à l'extérieur.
- Voir statsmodels.org/dev/generated/....
InformationsquelleAutor Julius
1

Vous pouvez obtenir les intervalles de prédiction en utilisant LRPI() de la classe à partir de la Ipython notebook dans mon repo (https://github.com/shahejokarian/regression-prediction-interval).

Vous devez définir la valeur t pour obtenir le désiré de l'intervalle de confiance pour la prédiction des valeurs, sinon la valeur par défaut est de 95% conf. d'intervalle.

La LRPI classe utilise sklearn.linear_model de LinearRegression , numpy et les pandas bibliothèques.

Il y a par exemple montré dans le cahier de trop.

InformationsquelleAutor Shahe Jokarian
1

summary_frame et summary_table bien travailler quand vous en avez besoin à des résultats exacts pour un seul quantile, mais ne pas vectoriser bien. Cela permettra de fournir une approximation normale de l'intervalle de prédiction (pas d'intervalle de confiance) et travaille pour un vecteur de quantiles:
```
def ols_quantile(m, X, q):
  # m: Statsmodels OLS model.
  # X: X matrix of data to predict.
  # q: Quantile.
  #
  from scipy.stats import norm
  mean_pred = m.predict(X)
  se = np.sqrt(m.scale)
  return mean_pred + norm.ppf(q) * se
```
InformationsquelleAutor Max Ghenis

Vous pouvez les calculer sur la base des résultats donnée par statsmodel et la normalité des hypothèses.

Voici un exemple pour le MCO et de CI pour la valeur moyenne:

import statsmodels.api as sm
import numpy as np
from scipy import stats

#Significance level:
sl = 0.05
#Evaluate mean value at a required point x0. Here, at the point (0.0,2.0) for N_model=2:
x0 = np.asarray([1.0, 0.0, 2.0])# If you have no constant in your model, remove the first 1.0. For more dimensions, add the desired values.

#Get an OLS model based on output y and the prepared vector X (as in your notation):
model = sm.OLS(endog = y, exog = X )
results = model.fit()
#Get two-tailed t-values:
(t_minus, t_plus) = stats.t.interval(alpha = (1.0 - sl), df =  len(results.resid) - len(x0) )
y_value_at_x0 = np.dot(results.params, x0)
lower_bound = y_value_at_x0 + t_minus*np.sqrt(results.mse_resid*( np.dot(np.dot(x0.T,results.normalized_cov_params),x0) ))
upper_bound = y_value_at_x0 +  t_plus*np.sqrt(results.mse_resid*( np.dot(np.dot(x0.T,results.normalized_cov_params),x0) ))

Vous pouvez enrouler une belle fonction autour de ce avec la participation des résultats, point x0 et niveau de signification sl.

Je ne suis pas sûr maintenant, si vous pouvez l'utiliser pour WLS() car il y a des choses qui s'y passe.

Ref: Ch3 dans [DC Montgomery et E. A. Peck. “Introduction à l'Analyse de Régression Linéaire.” 4e. Ed., Wiley, 1992].

InformationsquelleAutor fabrica

Vous devez vous connecter pour publier un commentaire.