T-test dans les Pandas

Si je veux calculer la moyenne de deux catégories dans les Pandas, je peux faire comme ceci:

data = {'Category': ['cat2','cat1','cat2','cat1','cat2','cat1','cat2','cat1','cat1','cat1','cat2'],
        'values': [1,2,3,1,2,3,1,2,3,5,1]}
my_data = DataFrame(data)
my_data.groupby('Category').mean()

Category:     values:   
cat1     2.666667
cat2     1.600000

J'ai beaucoup de données formaté de cette manière, et maintenant j'ai besoin de faire un T-test pour voir si la moyenne de cat1 et cat2 sont statistiquement différents. Comment puis-je le faire?

InformationsquelleAutor hirolau | 2012-11-15

70

cela dépend de ce genre de t-test que vous voulez faire (d'un seul côté ou des deux côtés dépendante ou indépendante), mais il devrait être aussi simple que:
```
from scipy.stats import ttest_ind

cat1 = my_data[my_data['Category']=='cat1']
cat2 = my_data[my_data['Category']=='cat2']

ttest_ind(cat1['values'], cat2['values'])
>>> (1.4927289925706944, 0.16970867501294376)
```
elle renvoie un tuple avec la statistique t & la p-valeur

voir ici pour d'autres tests t http://docs.scipy.org/doc/scipy/reference/stats.html

InformationsquelleAutor G Garcia
9

EDIT: je n'avais pas réalisé que c'était à propos du format des données. Vous pourrait utiliser
```
two_data = pd.DataFrame(data, index=data['Category'])
```
Puis accéder à l'catégories est aussi simple que
```
scipy.stats.ttest_ind(two_data.loc['cat'], two_data.loc['cat2'], equal_var=False)
```
La loc opérateur accède lignes par étiquette.

Comme @G, a déclaré Garcia

d'un seul côté ou des deux côtés dépendante ou indépendante

Si vous avez deux échantillons indépendants mais vous ne savent pas qu'ils sont à égalité de la variance, vous pouvez utiliser Welch test-t de. C'est aussi simple que
```
scipy.stats.ttest_ind(cat1['values'], cat2['values'], equal_var=False)
```
Pour des raisons de préférer Welch test, voir https://stats.stackexchange.com/questions/305/when-conducting-a-t-test-why-would-one-prefer-to-assume-or-test-for-equal-vari.

Pour deux dépendante des échantillons, vous pouvez utiliser
```
scipy.stats.ttest_rel(cat1['values'], cat2['values'])
```
InformationsquelleAutor serv-inc

Je simplifie un peu le code.

from scipy.stats import ttest_ind
ttest_ind(*my_data.groupby('Category')['value'].apply(lambda x:list(x)))

InformationsquelleAutor Ningrong Ye

Vous devez vous connecter pour publier un commentaire.