Échantillon aléatoire d'un sous-ensemble d'un dataframe dans les Pandas
Dire que j'ai un dataframe avec 100 000 entrées et souhaitez divisé en 100 sections de 1000 entrées.
Comment dois-je prendre un échantillon aléatoire de taille 50 de l'un des 100 articles. l'ensemble de données est déjà commandé, tels que les 1000 premiers résultats sont la première section la section suivante de la suivante et ainsi de suite.
merci beaucoup
df.iloc[np.random.randint(1,1000,50),:]
. df1
est l'un des 100 articles.OriginalL'auteur WGP | 2016-06-28
Vous devez vous connecter pour publier un commentaire.
Vous pouvez utiliser le
exemple
méthode*:*Sur les DataFrames.
Remarque: Si vous avez une taille d'échantillon plus importante que la taille du DataFrame vous relevez une erreur, sauf si vous avez de l'échantillon de remplacement.
replace
faire? la documentation n'est pas claire pour moi. Merci!!!!il prend un "échantillon avec remplacement", donc si vous avez un jeu de données de taille 5, vous pouvez prendre un échantillon de taille 10. Aussi, si vous prenez de l'échantillon de N éléments, sans un échantillon de taille N aurez chaque élément, avec remplacement, il ne peut pas. E. g. voir statisticshowto.datasciencecentral.com/...
OriginalL'auteur Andy Hayden
Une solution consiste à utiliser la
choice
fonction de numpy.Dites que vous voulez entrées de 50 sur 100, vous pouvez utiliser:
Bien sûr ce n'est pas, compte tenu de votre structure de bloc. Si vous voulez une 50 de l'élément de exemple de bloc
i
par exemple, vous pouvez faire:OriginalL'auteur jpjandrade