Exécuter une régression des moindres carrés ordinaires avec des Pandas bloc de Données

J'ai un pandas bloc de données et je voudrais en mesure de prédire les valeurs de la colonne A de la valeurs dans les colonnes B et C. Voici un jouet exemple:

import pandas as pd
df = pd.DataFrame({"A": [10,20,30,40,50], 
                   "B": [20, 30, 10, 40, 50], 
                   "C": [32, 234, 23, 23, 42523]})

Idéalement, j'aurais quelque chose comme ols(A ~ B + C, data = df) mais quand je regarde la exemples de l'algorithme de bibliothèques comme scikit-learn il semble nourrir les données du modèle, avec une liste de lignes au lieu de colonnes. Cela m'obligerait à reformater les données dans les listes les listes, ce qui semble à l'encontre du but de l'utilisation de pandas géants dans la première place. Qu'est-ce que la plupart des pythonic façon d'exécuter une régression des moindres carrés ordinaires (ou de tout algorithme d'apprentissage automatique, plus généralement) sur les données dans une pandas bloc de données?

InformationsquelleAutor Michael | 2013-11-15

132

Je pense que vous pouvez presque faire exactement ce que vous pensé que l'idéal serait, à l'aide de la statsmodels package qui a été l'un des pandas' dépendances optionnelles avant pandas version 0.20.0 (il a été utilisé pour quelques choses dans pandas.stats.)

>>> import pandas as pd
>>> import statsmodels.formula.api as sm
>>> df = pd.DataFrame({"A": [10,20,30,40,50], "B": [20, 30, 10, 40, 50], "C": [32, 234, 23, 23, 42523]})
>>> result = sm.ols(formula="A ~ B + C", data=df).fit()
>>> print(result.params)
Intercept    14.952480
B             0.401182
C             0.000352
dtype: float64
>>> print(result.summary())
OLS Regression Results                            
==============================================================================
Dep. Variable:                      A   R-squared:                       0.579
Model:                            OLS   Adj. R-squared:                  0.158
Method:                 Least Squares   F-statistic:                     1.375
Date:                Thu, 14 Nov 2013   Prob (F-statistic):              0.421
Time:                        20:04:30   Log-Likelihood:                -18.178
No. Observations:                   5   AIC:                             42.36
Df Residuals:                       2   BIC:                             41.19
Df Model:                           2                                         
==============================================================================
coef    std err          t      P>|t|      [95.0% Conf. Int.]
------------------------------------------------------------------------------
Intercept     14.9525     17.764      0.842      0.489       -61.481    91.386
B              0.4012      0.650      0.617      0.600        -2.394     3.197
C              0.0004      0.001      0.650      0.583        -0.002     0.003
==============================================================================
Omnibus:                          nan   Durbin-Watson:                   1.061
Prob(Omnibus):                    nan   Jarque-Bera (JB):                0.498
Skew:                          -0.123   Prob(JB):                        0.780
Kurtosis:                       1.474   Cond. No.                     5.21e+04
==============================================================================
Warnings:
[1] The condition number is large, 5.21e+04. This might indicate that there are
strong multicollinearity or other numerical problems.

Notez que le mot de passe correct n'est formula, j'ai accidentellement tapé formulas et je l'ai erreur bizarre: TypeError: from_formula() takes at least 3 arguments (2 given)
Très python. Essayé de lancer votre même code et eu des erreurs sur les deux messages d'impression: impression de résultat.résumé() ^ SyntaxError: invalid syntaxe >>> résultat d'impression.parmas Fichier "<stdin>", line 1 résultat d'impression.parmas ^ SyntaxError: Manquant entre parenthèses dans l'appel à "imprimer" ...Peut-être que je packages chargés de mal?? Il semble fonctionner quand je ne mets pas "imprimer". Merci.
L'OP du code est en Python 2. Le seul changement, je pense que vous devez faire est de mettre entre parenthèses tour les arguments pour imprimer: print(result.params) et print(result.summary())
Je vous serais reconnaissant si vous pouviez regarder et je vous en remercie: stackoverflow.com/questions/44923808/...
tentative d'utilisation de ce formula() approche jette le type d'erreur TypeError: __init__() manquant 1 nécessaire de position argument: "endog', donc je suppose que c'est déconseillé. aussi, ols est maintenant OLS
Comme d'autres mentionnent, sm.ols a été dépréciée en faveur de la sm.MCO. Le comportement par défaut est également différente. Pour exécuter une régression de la formule, comme le fait ici, que vous devez faire: result = sm.OLS.from_formula(formula="A ~ B + C", data=df).fit()
Aussi loin que je peux dire, en tant que de Mar 2019, c'est le seul exemple de travail de faire une régression à partir d'une pandas DataFrame sur l'ensemble de l'Internet.

InformationsquelleAutor DSM

67

Remarque: pandas.stats a été supprimé avec 0.20.0

Il est possible de le faire avec pandas.stats.ols:
```
>>> from pandas.stats.api import ols
>>> df = pd.DataFrame({"A": [10,20,30,40,50], "B": [20, 30, 10, 40, 50], "C": [32, 234, 23, 23, 42523]})
>>> res = ols(y=df['A'], x=df[['B','C']])
>>> res
-------------------------Summary of Regression Analysis-------------------------
Formula: Y ~ <B> + <C> + <intercept>
Number of Observations:         5
Number of Degrees of Freedom:   3
R-squared:         0.5789
Adj R-squared:     0.1577
Rmse:             14.5108
F-stat (2, 2):     1.3746, p-value:     0.4211
Degrees of Freedom: model 2, resid 2
-----------------------Summary of Estimated Coefficients------------------------
Variable       Coef    Std Err     t-stat    p-value    CI 2.5%   CI 97.5%
--------------------------------------------------------------------------------
B     0.4012     0.6497       0.62     0.5999    -0.8723     1.6746
C     0.0004     0.0005       0.65     0.5826    -0.0007     0.0014
intercept    14.9525    17.7643       0.84     0.4886   -19.8655    49.7705
---------------------------------End of Summary---------------------------------
```
Noter que vous devez avoir statsmodels paquet installé, il est utilisé en interne par le pandas.stats.ols fonction.
- Notez que cela va être obsolète dans une future version de pandas!
- Pourquoi le faire? J'espère vivement cette fonction survit! Il est VRAIMENT utile et rapide!
- The pandas.stats.ols module is deprecated and will be removed in a future version. We refer to external packages like statsmodels, see some examples here: http://www.statsmodels.org/stable/regression.html
- Cela peut être en raison d'un problème avec missing intercepts. Le concepteur de l'équivalent R forfait s'ajuste par la suppression de l'ajustement pour le dire: stats.stackexchange.com/a/36068/64552 . . Autres suggestions: you can use sm.add_constant to add an intercept to the exog array et l'utilisation d'un dict: reg = ols("y ~ x", data=dict(y=y,x=x)).fit()
- C'était un triste jour quand ils ont enlevé le pandas.stats
- Désolé, mais les normes sont-elles permettre de faire votre déménagement commentaire en haut de votre réponse, plus grande et plus audacieux? 🙂 Ou en les déplaçant au-dessous de la ligne grise. Mes yeux continuais à aller à la "Il est possible" de la partie...
InformationsquelleAutor Roman Pekar
25

Je ne sais pas si c'est nouveau dans sklearn ou pandas, mais je suis en mesure de passer le bloc de données directement à sklearn sans conversion de la trame de données d'un tableau numpy ou de tout autres types de données.
```
from sklearn import linear_model
reg = linear_model.LinearRegression()
reg.fit(df[['B', 'C']], df['A'])
>>> reg.coef_
array([  4.01182386e-01,   3.51587361e-04])
```
- Petit détournement de l'OP mais j'ai trouvé cette réponse très utile, après l'ajout .values.reshape(-1, 1) pour le dataframe colonnes. Par exemple: x_data = df['x_data'].values.reshape(-1, 1) et en passant le x_data (et un créés de la même façon y_data) np tableaux dans le .fit() méthode.
InformationsquelleAutor 3novak
16

Cela m'obligerait à reformater les données dans les listes les listes, ce qui semble à l'encontre du but de l'utilisation de pandas géants dans la première place.

Non, ce n'est pas le cas, il suffit de convertir un tableau NumPy:
```
>>> data = np.asarray(df)
```
Cela prend un temps constant, car il crée un vue sur vos données. Puis l'alimentation de scikit-learn:
```
>>> from sklearn.linear_model import LinearRegression
>>> lr = LinearRegression()
>>> X, y = data[:, 1:], data[:, 0]
>>> lr.fit(X, y)
LinearRegression(copy_X=True, fit_intercept=True, normalize=False)
>>> lr.coef_
array([  4.01182386e-01,   3.51587361e-04])
>>> lr.intercept_
14.952479503953672
```
- J'ai eu à faire np.matrix( np.asarray( df ) ), parce que sklearn prévu un vecteur vertical, tandis que les tableaux numpy, une fois que vous les tranchez hors d'un tableau, d'agir comme horizontale vecotrs, ce qui est excellent, la plupart du temps.
- pas de moyen simple de faire des tests de coefficients avec cette route, cependant
- N'est-il pas un moyen de nourrir directement Scikit-Learn avec les Pandas DataFrame ?
- pour d'autres sklearn modules (arbre de décision, etc), j'ai utilisé df['colname'].valeurs, mais cela ne fonctionne pas pour cela.
- Est-il un moyen facile de trouver des résidus de sklearn?
- Vous pouvez également utiliser la .values attribut. I. e., reg.fit(df[['B', 'C']].values, df['A'].values).
InformationsquelleAutor Fred Foo

Statsmodels kan construire un Modèle OLS avec les références de colonne directement à une pandas dataframe.

Court et doux:

model = sm.OLS(df[y], df[x]).fit()

Les détails du Code et de la régression résumé:

# imports
import pandas as pd
import statsmodels.api as sm
import numpy as np
# data
np.random.seed(123)
df = pd.DataFrame(np.random.randint(0,100,size=(100, 3)), columns=list('ABC'))
# assign dependent and independent /explanatory variables
variables = list(df.columns)
y = 'A'
x = [var for var in variables if var not in y ]
# Ordinary least squares regression
model_Simple = sm.OLS(df[y], df[x]).fit()
# Add a constant term like so:
model = sm.OLS(df[y], sm.add_constant(df[x])).fit()
model.summary()

De sortie:

                            OLS Regression Results                            
==============================================================================
Dep. Variable:                      A   R-squared:                       0.019
Model:                            OLS   Adj. R-squared:                 -0.001
Method:                 Least Squares   F-statistic:                    0.9409
Date:                Thu, 14 Feb 2019   Prob (F-statistic):              0.394
Time:                        08:35:04   Log-Likelihood:                -484.49
No. Observations:                 100   AIC:                             975.0
Df Residuals:                      97   BIC:                             982.8
Df Model:                           2                                         
Covariance Type:            nonrobust                                         
==============================================================================
coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const         43.4801      8.809      4.936      0.000      25.996      60.964
B              0.1241      0.105      1.188      0.238      -0.083       0.332
C             -0.0752      0.110     -0.681      0.497      -0.294       0.144
==============================================================================
Omnibus:                       50.990   Durbin-Watson:                   2.013
Prob(Omnibus):                  0.000   Jarque-Bera (JB):                6.905
Skew:                           0.032   Prob(JB):                       0.0317
Kurtosis:                       1.714   Cond. No.                         231.
==============================================================================

Comment faire pour obtenir directement des R-squared, les Coefficients et la p-valeur:

# commands:
model.params
model.pvalues
model.rsquared
# demo:
In[1]: 
model.params
Out[1]:
const    43.480106
B         0.124130
C        -0.075156
dtype: float64
In[2]: 
model.pvalues
Out[2]: 
const    0.000003
B        0.237924
C        0.497400
dtype: float64
Out[3]:
model.rsquared
Out[2]:
0.0190

InformationsquelleAutor vestland

Vous devez vous connecter pour publier un commentaire.