qui est plus rapide pour la charge: pickle ou hdf5 en python
Donné, c'est un 1.5 Go liste des pandas dataframes.
Je suis vous vous demandez ce qui est une meilleure approche pour gérer le chargement de ces données:
cornichon (via cPickle), hdf5, ou quelque chose d'autre en python?
D'abord, le "dumping" les données sont OK pour prendre longtemps, j'ai seulement le faire une fois.
Je suis aussi pas concerné avec la taille du fichier sur le disque.
Question:
Ce que je suis inquiète, c'est la la vitesse de chargement des les données en mémoire aussi rapidement que possible.
source d'informationauteur denvar
Vous devez vous connecter pour publier un commentaire.
Je considère que deux formats de stockage: HDF5 (PyTables) et Plume
Voici les résultats de mon lire et écrire comparaison pour le DF (forme: 4000000 x 6, taille de la mémoire 183.1 MO, la taille non compressée CSV - 492 MO).
Comparaison pour la suite de formats de stockage: (
CSV
CSV.gzip
Pickle
HDF5
[divers compression]):Mais il peut être différent pour vous, parce que toutes mes données était de la
datetime
dtype, il est donc toujours préférable de faire une telle comparaison avec votre réel de données ou à tout le moins des données similaires...