Comment faire pour mettre mon jeu de données dans une .pkl fichier dans le format exact et de la structure de données utilisée dans l' “mnist.pkl.gz”?

Je suis en train d'utiliser le Théano bibliothèque python pour faire quelques expériences avec une Profonde Conviction de Réseaux. J'ai utiliser le code à cette adresse: DBN code complet. Ce code d'utiliser le MNIST Manuscrite de la base de données. Ce fichier est déjà dans la saumure format.
C'est décousu dans:

train_set
valid_set
test_set

Qui est plus unpickled:

train_set_x, train_set_y = train_set
valid_set_x, valid_set_y = valid_set
test_set_x, test_set_y = test_set

Svp quelqu'un peut me donner le code qui génère ce jeu de données afin de créer mon propre?
Le DBN exemple, j'ai besoins d'utilisation des données dans ce format et je ne sais pas comment le faire.
si quelqu'un a des idées sur la façon de résoudre ce problème, s'il vous plaît dites-moi.

Voici mon code:

from datetime import datetime
import time
import os
from pprint import pprint
import numpy as np
import gzip, cPickle
import theano.tensor as T
from theano import function
os.system("cls")
filename = "completeData.txt"
f = open(filename,"r")
X = []
Y = []
for line in f:
line = line.strip('\n')  
b = line.split(';')
b[0] = float(b[0])
b[1] = float(b[1])
b[2] = float(b[2])
b[3] = float(b[3])
b[4] = float(b[4])
b[5] = float(b[5])
b[6] = float(b[6])
b[7] = float(b[7])
b[8] = float(b[8])
b[9] = float(b[9])
b[10] = float(b[10])
b[11] = float(b[11])
b[12] = float(b[12])
b[13] = float(b[13])
b[14] = float(b[14])
b[15] = float(b[15])
b[17] = int(b[17])
X.append(b[:16])
Y.append(b[17])
Len = len(X);
X = np.asmatrix(X)
Y = np.asarray(Y)
sizes = [0.8, 0.1, 0.1]
arr_index = int(sizes[0]*Len)
arr_index2_start = arr_index + 1
arr_index2_end = arr_index + int(sizes[1]*Len)
arr_index3_start = arr_index2_start + 1
"""
train_set_x = np.array(X[:arr_index])
train_set_y = np.array(Y[:arr_index])
val_set_x = np.array(X[arr_index2_start:arr_index2_end])
val_set_y = np.array(Y[arr_index2_start:arr_index2_end])
test_set_x = np.array(X[arr_index3_start:])
test_set_y = np.array(X[arr_index3_start:])
train_set = train_set_x, train_set_y
val_set = val_set_x, val_set_y
test_set = test_set_x, test_set_y
"""
x = T.dmatrix('x')
z = x
t_mat = function([x],z)
y = T.dvector('y')
k = y
t_vec = function([y],k)
train_set_x = t_mat(X[:arr_index].T)
train_set_y = t_vec(Y[:arr_index])
val_set_x = t_mat(X[arr_index2_start:arr_index2_end].T)
val_set_y = t_vec(Y[arr_index2_start:arr_index2_end])
test_set_x = t_mat(X[arr_index3_start:].T)
test_set_y = t_vec(Y[arr_index3_start:])
train_set = train_set_x, train_set_y
val_set = val_set_x, val_set_y
test_set = test_set_x, test_set_y
dataset = [train_set, val_set, test_set]
f = gzip.open('..\..\..\data\dex.pkl.gz','wb')
cPickle.dump(dataset, f, protocol=-1)
f.close()
pprint(train_set_x.shape)
print('Finished\n')

Vous pouvez simplement mettre en œuvre Python à partir de la description ci-dessous.

OriginalL'auteur John Krit | 2014-09-29

6

Un .pkl fichier n'est pas nécessaire d'adapter le code de la Théano tutoriel à vos propres données. Vous avez seulement besoin d'imiter leur structure de données.

Quick fix

Recherchez les lignes suivantes. C'est la ligne 303, DBN.py.
```
datasets = load_data(dataset)
train_set_x, train_set_y = datasets[0]
```
La remplacer par votre propre train_set_x et train_set_y.
```
my_x = []
my_y = []
with open('path_to_file', 'r') as f:
for line in f:
my_list = line.split(' ') # replace with your own separator instead
my_x.append(my_list[1:-1]) # omitting identifier in [0] and target in [-1]
my_y.append(my_list[-1])
train_set_x = theano.shared(numpy.array(my_x, dtype='float64'))
train_set_y = theano.shared(numpy.array(my_y, dtype='float64'))
```
S'adapter à votre entrée de données et le code que vous utilisez.

La même chose travaille pour cA.py, dA.py et SdA.py mais ils n'utilisent train_set_x.

Chercher des endroits comme n_ins=28 * 28 où mnist les tailles d'image sont codés en dur. Remplacer 28 * 28 avec votre propre nombre de colonnes.

Explication

C'est là où vous mettez vos données dans un format qui Théano pouvez travailler avec.
```
train_set_x = theano.shared(numpy.array(my_x, dtype='float64'))
train_set_y = theano.shared(numpy.array(my_y, dtype='float64'))
```
shared() transforme un tableau numpy dans le Théano format conçu pour l'efficacité sur les Gpu.

dtype='float64' est prévu dans Théano tableaux.

Plus de détails sur de base du tenseur de fonctionnalité.

.pkl fichier

L' .pkl fichier est un moyen de sauver votre structure de données.

Vous pouvez créer votre propre.
```
import cPickle
f = file('my_data.pkl', 'wb')
cPickle.dump((train_set_x, train_set_y), f, protocol=cPickle.HIGHEST_PROTOCOL)
f.close()
```
Plus de détails sur chargement et sauvegarde.

OriginalL'auteur xagg
5

La marinés fichier représente un n-uplet de 3 listes : l'ensemble de la formation, de la validation et de l'ensemble de test. (train, val, test)
- Chacune des trois listes est une paire formée à partir d'une liste d'images et une liste des étiquettes de classe pour chacune des images.
- Une image est représentée comme numpy 1-dimensions tableau de 784 (28 x 28) flottent des valeurs entre 0 et 1 (0 représente pour le noir, 1 blanc).
- Les étiquettes sont des nombres compris entre 0 et 9 indique chiffre que l'image représente.
OriginalL'auteur anh_ng8

Cela peut aider:

from PIL import Image
from numpy import genfromtxt
import gzip, cPickle
from glob import glob
import numpy as np
import pandas as pd
Data, y = dir_to_dataset("trainMNISTForm\\*.BMP","trainLabels.csv")
# Data and labels are read 
train_set_x = Data[:2093]
val_set_x = Data[2094:4187]
test_set_x = Data[4188:6281]
train_set_y = y[:2093]
val_set_y = y[2094:4187]
test_set_y = y[4188:6281]
# Divided dataset into 3 parts. I had 6281 images.
train_set = train_set_x, train_set_y
val_set = val_set_x, val_set_y
test_set = test_set_x, val_set_y
dataset = [train_set, val_set, test_set]
f = gzip.open('file.pkl.gz','wb')
cPickle.dump(dataset, f, protocol=2)
f.close()

C'est la fonction que j'ai utilisé. Peut changer en fonction de votre fichier de détails.

def dir_to_dataset(glob_files, loc_train_labels=""):
print("Gonna process:\n\t %s"%glob_files)
dataset = []
for file_count, file_name in enumerate( sorted(glob(glob_files),key=len) ):
image = Image.open(file_name)
img = Image.open(file_name).convert('LA') #tograyscale
pixels = [f[0] for f in list(img.getdata())]
dataset.append(pixels)
if file_count % 1000 == 0:
print("\t %s files processed"%file_count)
# outfile = glob_files+"out"
# np.save(outfile, dataset)
if len(loc_train_labels) > 0:
df = pd.read_csv(loc_train_labels)
return np.array(dataset), np.array(df["Class"])
else:
return np.array(dataset)

OriginalL'auteur sinhayash

Vous devez vous connecter pour publier un commentaire.

Quick fix

Explication

.pkl fichier