Comment puis-je sérialiser un tableau numpy, tout en préservant la matrice de dimensions?

numpy.array.tostring ne semble pas conserver les informations relatives aux dimensions de la matrice (voir cette question), demandant à l'utilisateur de lancer un appel à numpy.array.reshape.

Est-il un moyen pour sérialiser un tableau numpy au format JSON, tout en préservant cette information?

Remarque: Les tableaux peuvent contenir des entiers, des flotteurs ou des booléens. Il est raisonnable de s'attendre à un tableau transposé.

Note 2: ce qui est fait avec l'intention de passer le tableau numpy par une Tempête de topologie à l'aide de streamparse, dans le cas où ces informations finit par être pertinentes.

Pourquoi avez-vous downvote? Ma solution est correcte et fonctionne pour les tableaux numpy de toute dimension et de tout type de données.
Downvotes ne viennent pas de moi. Quelqu'un a une mauvaise journée, je pense :/
Wow...qui est downvoting une solution dans un fil de discussion où il est lui-même pas le propriétaire?^^ Alors..désolé pour la gêne occasionnée. J'espère que vous êtes heureux avec la solution 🙂
Peut-être parce qu'il échoue sur structurée tableaux? Il faut aussi que la matrice C est contigu, et je soupçonne qu'il pourrait aussi faire la mauvaise chose si un tableau est sérialisé sur un little-endian système et désérialisé sur un big-endian système ou vice-versa, mais je n'ai pas le matériel pour vérifier. Je ne suis pas le downvoter et ne sais pas le downvoter de raisons, mais je ne voudrais pas upvote il.
Est-il besoin d'être un format de texte? Parce que numpy.save et numpy.load (qui utilisent un format binaire) faire enregistrer la forme du tableau (et le type et l'ordre).
Il doit être JSON-sérialisable, en fait. C'est un peu une exigence de l'étrange, mais la Tempête du JSON-driven multilang protocole ne me donne pas trop le choix :/
Eh bien, vous pourriez save à un StringIO, read la StringIO, et de transformer les octets avec base64 ou quelque chose.
ouais, il ne fonctionnera pas sans quelques "bidouilles" sur la structure de tableaux structurés mais les tableaux (dans mon expérience) ne sont pas utilisés très souvent, et de traiter avec eux est toujours relativement complexes, comme la sérialisation de montre...
...et même plus important: la question était sur la sérialisation des tableaux numpy avec certains matrice dimenions (afin de flotteurs, entiers, ...). La question n'était pas comment sérialiser multi-type structuré tableaux.
J'apprécie vos commentaires pour cette question, alors, passons à ces stupides downvoters. Il ressemble à la tendance s'est inversée, de toute façon.
J'ai édité la question de l'essayer et de le rendre clair qu'il convient de TEMPÊTE compatible. Mais vous devriez vraiment avoir compris que. Nous ne pouvons pas lire dans les pensées. 🙂
Merci. Mon intention était de pas pour défendre ma réponse ou offenser personne. Je voulais juste faire remarquer que, dans mon esprit, la question était de savoir comment sérialiser des tableaux numpy (flotteurs, entiers, ...) ayant des dimensions variables et non pas sur le multi-type structuré tableaux^^
Je ne suis pas sûr si je suis d'accord avec votre dernier lot de modifications. La sérialisation JSON est suffisant pour en faire une tempête compatible; pas besoin de le rendre plus complexe qu'elle ne l'est...
Se sentir libre de les annuler. 🙂 Mais je pense que la tempête et/ou JSON doit être mentionnée, car ils sont pertinents à la question.
Ouais, je crois que la question est plus de savoir si vous voulez "normal" des tableaux numpy être sérialisé ou vraiment tout scipy/numpy tableau d'objets que l'on peut penser, y compris multi-type structuré des tableaux et des trucs. J'ai vraiment pensé à "normal" des tableaux lorsque j'ai lu votre question et je suppose que c'est ce que @RolandSmith voulais dire avec "STORM-compatible"?!
fait. Je viens de penser à un sympathique heads-up serait poli 🙂
actuellement, les tableaux d'entiers, des flotteurs et des booléens sont tout ce qui est nécessaire. Il est raisonnable de s'attendre à ce transposée tableaux. Je vais mettre à jour la question.
C'est exactement ce que j'ai pensé quand j'ai lu votre question...pour toutes ces raisons mentionnées ma solution fonctionne bien 🙂
Avez-vous essayé jsonpickle?

InformationsquelleAutor blz | 2015-06-07

42

pickle.décharges ou numpy.enregistrer encoder toutes les informations nécessaires pour reconstruire l'arbitraire d'un tableau NumPy, même en présence de l'endianness questions, non contigus des tableaux, ou bizarre tuple dtypes. Endianness questions sont probablement le plus important; vous ne voulez pas array([1]) soudainement devenir array([16777216]) parce que vous avez chargé votre tableau sur un big-endian machine. pickle est probablement le plus pratique, mais save a ses propres avantages, compte tenu de la npy format de justification.

La pickle option:
```
import pickle
a = # some NumPy array
serialized = pickle.dumps(a, protocol=0) # protocol 0 is printable ASCII
deserialized_a = pickle.loads(serialized)
```
numpy.save utilise un format binaire, et il doit écrire dans un fichier, mais vous pouvez vous déplacer qu'avec StringIO:
```
a = # any NumPy array
memfile = StringIO.StringIO()
numpy.save(memfile, a)
memfile.seek(0)
serialized = json.dumps(memfile.read().decode('latin-1'))
# latin-1 maps byte n to unicode code point n
```
Et désérialiser:
```
memfile = StringIO.StringIO()
memfile.write(json.loads(serialized).encode('latin-1'))
memfile.seek(0)
a = numpy.load(memfile)
```
- Pouvez-vous expliquer pourquoi json.dumps(memfile.read().decode('latin-1')) est inclus?
- Il est là pour sérialiser les octets brutes en JSON, parce que l'interlocuteur demandé pour la sortie JSON. Je ne me souviens pas pourquoi j'ai ne pas mettre quelque chose comme ça pour la pickle option; il était probablement liée à bytestring vs chaîne unicode questions.
- En python 3, j'ai dû remplacer StringIO.StringIO() avec io.BytesIO() que allusion ici.
InformationsquelleAutor user2357112 supports Monica
13

EDIT: Comme on peut le lire dans les commentaires de la question de cette solution concerne la "normale" des tableaux numpy (flotteurs, entiers, booléens,...) et non pas avec multi-type structuré tableaux.

Solution de sérialisation d'un tableau numpy de toutes les dimensions et les types de données

Comme je sais que vous ne pouvez pas simplement sérialiser un tableau numpy avec n'importe quel type de données et les dimensions...mais vous pouvez stocker ses données, le type, la dimension et de l'information dans une liste à la représentation et puis sérialiser en utilisant JSON.

Les importations nécessaires:
```
import json
import base64
```
Pour l'encodage vous pourriez utiliser (nparray est quelques un tableau numpy de tout type de données et de toute dimension):
```
json.dumps([str(nparray.dtype), base64.b64encode(nparray), nparray.shape])
```
Après cela, vous obtenez un JSON dump (string) de vos données, contenant une liste à la représentation de son type de données et la forme ainsi que les tableaux de données/contenus encodés en base64.

Et pour le décodage ce fait le travail (encStr est codé chaîne JSON, chargé à partir de quelque part):
```
# get the encoded json dump
enc = json.loads(encStr)

# build the numpy data type
dataType = numpy.dtype(enc[0])

# decode the base64 encoded numpy array data and create a new numpy array with this data & type
dataArray = numpy.frombuffer(base64.decodestring(enc[1]), dataType)

# if the array had more than one data set it has to be reshaped
if len(enc) > 2:
     dataArray.reshape(enc[2])   # return the reshaped numpy array containing several data sets
```
JSON dumps sont efficaces et de la croix-compatible pour de nombreuses raisons, mais juste de prendre JSON conduit à des résultats inattendus si vous souhaitez stocker et charger les tableaux numpy de tout type et toute dimension.

Cette solution, les magasins et les charges des tableaux numpy quel que soit le type ou dimension et restaure correctement (type de données, dimension, ...)

J'ai essayé plusieurs solutions de moi-même il y a des mois et c'était la seule efficace, polyvalent solution je suis venu à travers.
- Upvoted parce que c'est utilisable réponse. Deux mineurs, mais liées nitpicks. Tout d'abord, je vous suggère de l'écriture de la matrice de données sous forme de texte. De cette façon, il est lisible par l'homme, et vous obtenez autour de la possible endianness questions. Deuxièmement, je voudrais mettre à la fois le dtype et de la forme avant les données, comme une sorte de "tête".
- Cela a encore le problème d'exiger que le tableau C-contiguës, et je soupçonne fortement, il va produire de sortie incorrecte si la machine qui sérialise le tableau et la machine qui désérialise il ont différentes boutisme.
InformationsquelleAutor daniel451

J'ai trouvé le code dans Msgpack-numpy utile.
https://github.com/lebedov/msgpack-numpy/blob/master/msgpack_numpy.py

J'ai modifié le sérialisés dict légèrement et ajout de l'encodage base64 pour réduire la sérialisés taille.

À l'aide de la même interface que le json (offrant charge(s),dump(s)), vous pouvez fournir une baisse-dans le remplacement pour la sérialisation json.

Cette même logique peut être étendu à l'ajout automatique de la non-trivial de la sérialisation, tels que les objets datetime.

MODIFIER
J'ai écrit un générique, modulaire, analyseur qui fait cela, et plus encore.
https://github.com/someones/jaweson

Mon code est comme suit:

np_json.py

from json import *
import json
import numpy as np
import base64
def to_json(obj):
if isinstance(obj, (np.ndarray, np.generic)):
if isinstance(obj, np.ndarray):
return {
'__ndarray__': base64.b64encode(obj.tostring()),
'dtype': obj.dtype.str,
'shape': obj.shape,
}
elif isinstance(obj, (np.bool_, np.number)):
return {
'__npgeneric__': base64.b64encode(obj.tostring()),
'dtype': obj.dtype.str,
}
if isinstance(obj, set):
return {'__set__': list(obj)}
if isinstance(obj, tuple):
return {'__tuple__': list(obj)}
if isinstance(obj, complex):
return {'__complex__': obj.__repr__()}
# Let the base class default method raise the TypeError
raise TypeError('Unable to serialise object of type {}'.format(type(obj)))
def from_json(obj):
# check for numpy
if isinstance(obj, dict):
if '__ndarray__' in obj:
return np.fromstring(
base64.b64decode(obj['__ndarray__']),
dtype=np.dtype(obj['dtype'])
).reshape(obj['shape'])
if '__npgeneric__' in obj:
return np.fromstring(
base64.b64decode(obj['__npgeneric__']),
dtype=np.dtype(obj['dtype'])
)[0]
if '__set__' in obj:
return set(obj['__set__'])
if '__tuple__' in obj:
return tuple(obj['__tuple__'])
if '__complex__' in obj:
return complex(obj['__complex__'])
return obj
# over-write the load(s)/dump(s) functions
def load(*args, **kwargs):
kwargs['object_hook'] = from_json
return json.load(*args, **kwargs)
def loads(*args, **kwargs):
kwargs['object_hook'] = from_json
return json.loads(*args, **kwargs)
def dump(*args, **kwargs):
kwargs['default'] = to_json
return json.dump(*args, **kwargs)
def dumps(*args, **kwargs):
kwargs['default'] = to_json
return json.dumps(*args, **kwargs)

Vous devriez être en mesure de procéder de la façon suivante:

import numpy as np
import np_json as json
np_data = np.zeros((10,10), dtype=np.float32)
new_data = json.loads(json.dumps(np_data))
assert (np_data == new_data).all()

InformationsquelleAutor Rebs

1

Msgpack a le meilleur de la sérialisation de la performance: http://www.benfrederickson.com/dont-pickle-your-data/

Utilisation msgpack-numpy. Voir https://github.com/lebedov/msgpack-numpy

L'installer:
```
pip install msgpack-numpy
```
Alors:
```
import msgpack
import msgpack_numpy as m
import numpy as np
x = np.random.rand(5)
x_enc = msgpack.packb(x, default=m.encode)
x_rec = msgpack.unpackb(x_enc, object_hook=m.decode)
```
InformationsquelleAutor thayne
0

Si elle doit être lisible par l'homme et vous savez que c'est un tableau numpy:
```
import numpy as np; 
import json;
a = np.random.normal(size=(50,120,150))
a_reconstructed = np.asarray(json.loads(json.dumps(a.tolist())))
print np.allclose(a,a_reconstructed)
print (a==a_reconstructed).all()
```
Peut-être pas le plus efficace à mesure que le tableau des tailles de grandir, mais travaille pour les plus petits tableaux.

InformationsquelleAutor Chris.Wilson
0

Essayer traitschema https://traitschema.readthedocs.io/en/latest/

"Créer serializable, type vérifié sur le schéma à l'aide de traits et de Numpy. Un cas d'utilisation typique implique l'enregistrement de plusieurs tableaux Numpy de faire varier la forme et le type."

InformationsquelleAutor SemanticBeeng
-5

Essayez d'utiliser numpy.array_repr ou numpy.array_str.
- ceci renvoie à la chaîne explicite de la représentation. Il n'a pas d' serialize le tableau.
- Ces montrent seulement une petite fraction de la gamme, sauf si vous modifiez le mondial des options d'impression avec numpy.set_printoptions.
InformationsquelleAutor Ken

Vous devez vous connecter pour publier un commentaire.