Comment ajouter des données à un ensemble de données spécifique dans un hdf5 fichier avec h5py

Je suis à la recherche d'une possibilité d'ajouter des données à un dataset existant à l'intérieur d'une h5-fichier à l'aide de python (h5py).

Une courte intro de mon projet: je cherche à former un CNN à l'aide de données d'imagerie médicale. En raison de l'énorme quantité de données et de l'utilisation massive de la mémoire lors de la transformation des données de nparrays, j'avais besoin de diviser la "transformation" dans quelques morceaux de données --> Charger et prétraiter les 100 premières images médicales et d'enregistrer le nparrays à hdf5 fichier --> Charger de la prochaine 100 ensembles de données et les ajouter à l'existant h5-fichier.

Maintenant, j'ai essayé de stocker les 100 premiers transformé nparrays comme suit:

import h5py
from LoadIPV import LoadIPV

X_train_data, Y_train_data, X_test_data, Y_test_data = LoadIPV()

with h5py.File('.\PreprocessedData.h5', 'w') as hf:
    hf.create_dataset("X_train", data=X_train_data, maxshape=(None, 512, 512, 9))
    hf.create_dataset("X_test", data=X_test_data, maxshape=(None, 512, 512, 9))
    hf.create_dataset("Y_train", data=Y_train_data, maxshape=(None, 512, 512, 1))
    hf.create_dataset("Y_test", data=Y_test_data, maxshape=(None, 512, 512, 1))

Comme on le voit, la transformée nparrays sont divisées en quatre différents "groupes" qui sont stockés dans les quatre hdf5 ensembles de données[X_train,X_test,Y_train,Y_test].
Le LoadIPV() fonction effectue le traitement des données d'imagerie médicale.

Mon problème est que je voudrais stocker les 100 prochaines nparrays dans le même h5-fichier dans les jeux de données existants, ce qui signifie Que je voudrais ajouter par exemple l'actuelle X_train-dataset[100,512,512,9] avec les 100 prochaines nparrays tels que X_train devient [200,512,512,9]. Le même travail pour les trois autres ensembles de données X_test, Y_train, Y_test.

Merci beaucoup pour votre aide!

InformationsquelleAutor Midas.Inc | 2017-11-02

23

J'ai trouvé une solution qui semble fonctionner!

Ont un coup d'oeil à ceci: différentiels écrit à hdf5 avec h5py!

Afin d'ajouter des données à un ensemble de données spécifique, il est tout d'abord nécessaire de redimensionner le jeu de données spécifique dans l'axe correspondant et par la suite ajouter de nouvelles données à la fin de la "vieille" nparray.

Ainsi, la solution ressemble à ceci:
```
with h5py.File('.\PreprocessedData.h5', 'a') as hf:
    hf["X_train"].resize((hf["X_train"].shape[0] + X_train_data.shape[0]), axis = 0)
    hf["X_train"][-X_train_data.shape[0]:] = X_train_data

    hf["X_test"].resize((hf["X_test"].shape[0] + X_test_data.shape[0]), axis = 0)
    hf["X_test"][-X_test_data.shape[0]:] = X_test_data

    hf["Y_train"].resize((hf["Y_train"].shape[0] + Y_train_data.shape[0]), axis = 0)
    hf["Y_train"][-Y_train_data.shape[0]:] = Y_train_data

    hf["Y_test"].resize((hf["Y_test"].shape[0] + Y_test_data.shape[0]), axis = 0)
    hf["Y_test"][-Y_test_data.shape[0]:] = Y_test_data
```
- Pour que cela fonctionne, vous devez également vous assurer que vous définissez la maxshape argument lors de la création du jeu de données ou de h5py ne vous laisse pas le prolonger
- Juste pour être super clair sur la façon de créer le dataset en premier lieu, voici à quoi ça ressemblera: h5f.create_dataset('X_train', data=orig_data, compression="gzip", des morceaux=True, maxshape=(None,)) La partie de la configuration de l'maxshape être un n-uplet que je l'ai.
InformationsquelleAutor Midas.Inc

Vous devez vous connecter pour publier un commentaire.