Comment faire un panda tableau croisé avec des pourcentages?

Donné un dataframe avec différentes variables catégorielles, comment puis-je retourner un croisement avec des pourcentages au lieu de fréquences?

df = pd.DataFrame({'A' : ['one', 'one', 'two', 'three'] * 6,
                   'B' : ['A', 'B', 'C'] * 8,
                   'C' : ['foo', 'foo', 'foo', 'bar', 'bar', 'bar'] * 4,
                   'D' : np.random.randn(24),
                   'E' : np.random.randn(24)})


pd.crosstab(df.A,df.B)


B       A    B    C
A               
one     4    4    4
three   2    2    2
two     2    2    2

En utilisant les marges de l'option dans le tableau croisé de calcul de ligne et de colonne des totaux de nous assez proche à penser qu'il devrait être possible à l'aide d'un aggfunc ou groupby, mais mon pauvre cerveau ne peut pas penser.

B       A     B    C
A               
one     .33  .33  .33
three   .33  .33  .33
two     .33  .33  .33

Ne serait-il pas s'attendre à la table à 0.167 0.167 0.167\n 0.083 0.083 0.083\n 0.083 0.083 0.083?
Je suppose que vous voulez spécifiquement le "pour cent au sein de la ligne" (par exemple, en.wikipedia.org/wiki/Crosstab).
Dans les Pandas 0.18.1, il semble que vous pouvez passer normaliser="index" pour diviser chaque entrée dans la ligne de la somme .

InformationsquelleAutor Brian Keegan | 2014-01-21

52
```
pd.crosstab(df.A, df.B).apply(lambda r: r/r.sum(), axis=1)
```
Fondamentalement, vous avez juste la fonction qui fait row/row.sum(), et que vous utilisez apply avec axis=1 de l'appliquer en ligne.

(Si cela en Python 2, vous devez utiliser from __future__ import division pour s'assurer de la division retourne toujours un char.)
- Vous auriez besoin d'un from __future__ import division à force floating point de la division sur les nombres entiers.
- C'est vrai. J'ai ajouté à ma réponse. (J'ai ma coquille à définir pour ce faire automatiquement, donc j'oublie toujours qu'il doit être fait.)
- Quelle est l'importance de l'axe=1 ici..!? vraiment pas en mesure de comprendre..!
- Pas sûr de ce que vous ne comprenez pas. Comme je l'ai dit dans ma réponse, axis=1 s'applique la fonction en ligne. Sinon, les pourcentages seraient calculées par rapport à la colonne des totaux plutôt que de la ligne des totaux.
- ouais..Merci pour la clarification.
InformationsquelleAutor BrenBarn
60

De Pandas 0.18.1 partir, il y a un normalize option:
```
In [1]: pd.crosstab(df.A,df.B, normalize='index')
Out[1]:

B              A           B           C
A           
one     0.333333    0.333333    0.333333
three   0.333333    0.333333    0.333333
two     0.333333    0.333333    0.333333
```
Où vous pouvez normaliser sur all, index (lignes), ou columns.

Plus de détails sont disponibles dans la documentation.
- Un avantage de cette option est qu'elle fonctionne toujours si vous incluez marginal des sous-totaux.
InformationsquelleAutor Harry

Nous pouvons montrer que les pourcentages en multipliant par 100:

pd.crosstab(df.A,df.B, normalize='index')\
    .round(4)*100

B          A      B      C
A                         
one    33.33  33.33  33.33
three  33.33  33.33  33.33
two    33.33  33.33  33.33

Où j'ai arrondi pour plus de commodité.

InformationsquelleAutor gabra

3

Si vous êtes à la recherche d'un pourcentage du total de l', vous pouvez diviser par le len de la df au lieu de la ligne de la somme:
```
pd.crosstab(df.A, df.B).apply(lambda r: r/len(df), axis=1)
```
InformationsquelleAutor howMuchCheeseIsTooMuchCheese

Une autre option est d'utiliser div plutôt que de l'appliquer:

In [11]: res = pd.crosstab(df.A, df.B)

Diviser par la somme sur l'indice:

In [12]: res.sum(axis=1)
Out[12]: 
A
one      12
three     6
two       6
dtype: int64

Similaire à ci-dessus, vous avez besoin de faire quelque chose au sujet de division entière (j'utilise astype('float')):

In [13]: res.astype('float').div(res.sum(axis=1), axis=0)
Out[13]: 
B             A         B         C
A                                  
one    0.333333  0.333333  0.333333
three  0.333333  0.333333  0.333333
two    0.333333  0.333333  0.333333

InformationsquelleAutor Andy Hayden

0

Normalisation de l'indice sera tout simplement marcher. Utiliser le paramètre, normalize = "index" dans pd.crosstab().

InformationsquelleAutor Shivam Aranya

Vous devez vous connecter pour publier un commentaire.