Calculer la Fonction de Répartition Cumulative (CDF) en Python

Comment puis-je calculer en python la Fonction de Répartition Cumulative (CDF)?

Je veux calculer à partir d'un tableau de points que j'ai (distribution discrète), pas avec le continu des distributions, par exemple, scipy.

Comment sur l'utilisation de numpy.cumsum?
Pour utiliser numpy.cumsum je crois que vous devez d'abord calculer le format PDF, ce qui est une surcharge.
Vous êtes à la recherche pour ECDF. @DrV vous a fourni une version simple. Il est également disponible dans statsmodels.

OriginalL'auteur wizbcn | 2014-07-16

18

(Il est possible que mon interprétation de la question est mal. Si la question est de savoir comment obtenir à partir d'une discrète PDF dans un discrète CDF, puis np.cumsum divisé par un constant va faire si les échantillons sont equispaced. Si le tableau n'est pas equispaced, puis np.cumsum du tableau multiplié par la distance entre les points).

Si vous avez un discret tableau d'échantillons, et vous voulez savoir la CDF de l'échantillon, alors vous pouvez simplement trier le tableau. Si vous regardez le résultat trié, vous vous rendrez compte que la plus petite valeur correspond à 0% , et la plus grande valeur représente 100 %. Si vous souhaitez connaître la valeur à 50 % de la distribution, il suffit de regarder l'élément du tableau qui est dans le milieu du tableau trié.

Laissez-nous jeter un oeil de plus près à cela avec un exemple simple:
```
import matplotlib.pyplot as plt
import numpy as np

# create some randomly ddistributed data:
data = np.random.randn(10000)

# sort the data:
data_sorted = np.sort(data)

# calculate the proportional values of samples
p = 1. * arange(len(data)) / (len(data) - 1)

# plot the sorted data:
fig = figure()
ax1 = fig.add_subplot(121)
ax1.plot(p, data_sorted)
ax1.set_xlabel('$p$')
ax1.set_ylabel('$x$')

ax2 = fig.add_subplot(122)
ax2.plot(data_sorted, p)
ax2.set_xlabel('$x$')
ax2.set_ylabel('$p$')
```
Cela donne à la suite de l'intrigue où le côté droit de la parcelle est la traditionnelle fonction de distribution cumulée. Elle doit tenir compte de la CDF du processus derrière les points, mais, naturellement, elle n'est pas aussi longue que le nombre de points est finie.

Cette fonction est facile à inverser, et cela dépend de votre application qui forme dont vous avez besoin.

Neat! Merci pour la réponse. Je ne sais pas si je dois créer une nouvelle question, mais, que faire si mes données a N dimensions? (pour les fins de l'exemple permet de dire que 2)
Comment puis-je obtenir une fonction que je peux utiliser? Votre réponse uniquement les parcelles.
Dans la ligne de p = 1. * arange(len(data)) / (len(data) - 1) devrait arange au lieu d'être np.arange?
Cette np.linspace(0, 1, len(data)) est plus propre que le 1. * arange(len(data)) / (len(data) - 1)
pour obtenir ce titre qu'une fonction, vous pouvez utiliser l'interpolation: f = lambda x: np.interp(x, p, data_sorted). Ensuite, vous pouvez f(0.5) par exemple, pour obtenir la médiane.

OriginalL'auteur DrV
0

En supposant que vous savez comment vos données est distribuée (c'est à dire que vous connaissez le pdf de vos données), puis scipy prend en charge les données discrètes lors du calcul du cdf
```
import numpy as np
import scipy
import matplotlib.pyplot as plt
import seaborn as sns

x = np.random.randn(10000) # generate samples from normal distribution (discrete data)
norm_cdf = scipy.stats.norm.cdf(x) # calculate the cdf - also discrete

# plot the cdf
sns.lineplot(x=x, y=norm_cdf)
plt.show()
```
On peut même imprimer les premières valeurs de la cdf pour montrer qu'ils sont discrets
```
print(norm_cdf[:10])
>>> array([0.39216484, 0.09554546, 0.71268696, 0.5007396 , 0.76484329,
       0.37920836, 0.86010018, 0.9191937 , 0.46374527, 0.4576634 ])
```
La même méthode pour calculer la cdf travaille également pour de multiples dimensions: nous utilisons des données 2d ci-dessous pour illustrer
```
mu = np.zeros(2) # mean vector
cov = np.array([[1,0.6],[0.6,1]]) # covariance matrix
# generate 2d normally distributed samples using 0 mean and the covariance matrix above
x = np.random.multivariate_normal(mean=mu, cov=cov, size=1000) # 1000 samples
norm_cdf = scipy.stats.norm.cdf(x)
print(norm_cdf.shape)
>>> (1000, 2)
```
Dans les exemples ci-dessus, j'ai eu connaissance préalable que mes données a été distribuée normalement, c'est pourquoi j'ai utilisé scipy.stats.norm() - il y a plusieurs distributions scipy prend en charge. Mais encore une fois, vous avez besoin de savoir comment vos données sont distribuées à l'avance pour utiliser de telles fonctions. Si vous ne savez pas comment vos données sont distribuées et il vous suffit d'utiliser n'importe quelle distribution pour calculer la cdf, vous allez probablement obtenir des résultats incorrects.

Je ne comprends pas l'intérêt d'avoir vecteur x échantillonnés à partir d'une distribution normale. Vecteur x plutôt être linespace le tracé de la paramétrique version de cdf vous avez utilisé de scipy.stats. De toute façon l'OP demander pour les non-paramétrique CDF, il est demandé à la discrète, mais il est très probablement censé ECDF qui est non-paramétrique.

OriginalL'auteur PyRsquared

Vous devez vous connecter pour publier un commentaire.