qui est plus rapide pour la charge: pickle ou hdf5 en python

Donné, c'est un 1.5 Go liste des pandas dataframes.

Je suis vous vous demandez ce qui est une meilleure approche pour gérer le chargement de ces données:
cornichon (via cPickle), hdf5, ou quelque chose d'autre en python?

D'abord, le "dumping" les données sont OK pour prendre longtemps, j'ai seulement le faire une fois.

Je suis aussi pas concerné avec la taille du fichier sur le disque.

Question:
Ce que je suis inquiète, c'est la la vitesse de chargement des les données en mémoire aussi rapidement que possible.

source d'informationauteur denvar

Je considère que deux formats de stockage: HDF5 (PyTables) et Plume

Voici les résultats de mon lire et écrire comparaison pour le DF (forme: 4000000 x 6, taille de la mémoire 183.1 MO, la taille non compressée CSV - 492 MO).

Comparaison pour la suite de formats de stockage: (CSVCSV.gzipPickleHDF5 [divers compression]):

                  read_s  write_s  size_ratio_to_CSV
storage
CSV               17.900    69.00              1.000
CSV.gzip          18.900   186.00              0.047
Pickle             0.173     1.77              0.374
HDF_fixed          0.196     2.03              0.435
HDF_tab            0.230     2.60              0.437
HDF_tab_zlib_c5    0.845     5.44              0.035
HDF_tab_zlib_c9    0.860     5.95              0.035
HDF_tab_bzip2_c5   2.500    36.50              0.011
HDF_tab_bzip2_c9   2.500    36.50              0.011

Mais il peut être différent pour vous, parce que toutes mes données était de la datetime dtype, il est donc toujours préférable de faire une telle comparaison avec votre réel de données ou à tout le moins des données similaires...

Vous devez vous connecter pour publier un commentaire.