Échantillon aléatoire d'un sous-ensemble d'un dataframe dans les Pandas

Dire que j'ai un dataframe avec 100 000 entrées et souhaitez divisé en 100 sections de 1000 entrées.

Comment dois-je prendre un échantillon aléatoire de taille 50 de l'un des 100 articles. l'ensemble de données est déjà commandé, tels que les 1000 premiers résultats sont la première section la section suivante de la suivante et ainsi de suite.

merci beaucoup

df.iloc[np.random.randint(1,1000,50),:]. df1 est l'un des 100 articles.

OriginalL'auteur WGP | 2016-06-28

21

Vous pouvez utiliser le exemple méthode*:
```
In [11]: df = pd.DataFrame([[1, 2], [3, 4], [5, 6], [7, 8]], columns=["A", "B"])

In [12]: df.sample(2)
Out[12]:
   A  B
0  1  2
2  5  6

In [13]: df.sample(2)
Out[13]:
   A  B
3  7  8
0  1  2
```
*Sur les DataFrames.

Remarque: Si vous avez une taille d'échantillon plus importante que la taille du DataFrame vous relevez une erreur, sauf si vous avez de l'échantillon de remplacement.
```
In [14]: df.sample(5)
ValueError: Cannot take a larger sample than population when 'replace=False'

In [15]: df.sample(5, replace=True)
Out[15]:
   A  B
0  1  2
1  3  4
2  5  6
3  7  8
1  3  4
```
pouvez-vous nous expliquer ce qui ne replace faire? la documentation n'est pas claire pour moi. Merci!!!!
il prend un "échantillon avec remplacement", donc si vous avez un jeu de données de taille 5, vous pouvez prendre un échantillon de taille 10. Aussi, si vous prenez de l'échantillon de N éléments, sans un échantillon de taille N aurez chaque élément, avec remplacement, il ne peut pas. E. g. voir statisticshowto.datasciencecentral.com/...

OriginalL'auteur Andy Hayden

Une solution consiste à utiliser la choice fonction de numpy.

Dites que vous voulez entrées de 50 sur 100, vous pouvez utiliser:

import numpy as np
chosen_idx = np.random.choice(1000, replace=False, size=50)
df_trimmed = df.iloc[chosen_idx]

Bien sûr ce n'est pas, compte tenu de votre structure de bloc. Si vous voulez une 50 de l'élément de exemple de bloc i par exemple, vous pouvez faire:

import numpy as np
block_start_idx = 1000 * i
chosen_idx = np.random.choice(1000, replace=False, size=50)
df_trimmed_from_block_i = df.iloc[block_start_idx + chosen_idx]

OriginalL'auteur jpjandrade

Vous devez vous connecter pour publier un commentaire.