Comment importer des données à partir de mongodb pour les pandas?

J'ai une grande quantité de données dans une collection mongodb qui j'ai besoin d'analyser. Comment puis-je importer les données pour les pandas?

Je suis nouveau sur les pandas et numpy.

EDIT:
La collection mongodb contient des valeurs de capteur étiqueté avec la date et l'heure. Le capteur de valeurs du type de données float.

Des Données De L'Échantillon:

{
"_cls" : "SensorReport",
"_id" : ObjectId("515a963b78f6a035d9fa531b"),
"_types" : [
"SensorReport"
],
"Readings" : [
{
"a" : 0.958069536790466,
"_types" : [
"Reading"
],
"ReadingUpdatedDate" : ISODate("2013-04-02T08:26:35.297Z"),
"b" : 6.296118156595,
"_cls" : "Reading"
},
{
"a" : 0.95574014778624,
"_types" : [
"Reading"
],
"ReadingUpdatedDate" : ISODate("2013-04-02T08:27:09.963Z"),
"b" : 6.29651468650064,
"_cls" : "Reading"
},
{
"a" : 0.953648289182713,
"_types" : [
"Reading"
],
"ReadingUpdatedDate" : ISODate("2013-04-02T08:27:37.545Z"),
"b" : 7.29679823731148,
"_cls" : "Reading"
},
{
"a" : 0.955931884300997,
"_types" : [
"Reading"
],
"ReadingUpdatedDate" : ISODate("2013-04-02T08:28:21.369Z"),
"b" : 6.29642922525632,
"_cls" : "Reading"
},
{
"a" : 0.95821381,
"_types" : [
"Reading"
],
"ReadingUpdatedDate" : ISODate("2013-04-02T08:41:20.801Z"),
"b" : 7.28956613,
"_cls" : "Reading"
},
{
"a" : 4.95821335,
"_types" : [
"Reading"
],
"ReadingUpdatedDate" : ISODate("2013-04-02T08:41:36.931Z"),
"b" : 6.28956574,
"_cls" : "Reading"
},
{
"a" : 9.95821341,
"_types" : [
"Reading"
],
"ReadingUpdatedDate" : ISODate("2013-04-02T08:42:09.971Z"),
"b" : 0.28956488,
"_cls" : "Reading"
},
{
"a" : 1.95667927,
"_types" : [
"Reading"
],
"ReadingUpdatedDate" : ISODate("2013-04-02T08:43:55.463Z"),
"b" : 0.29115237,
"_cls" : "Reading"
}
],
"latestReportTime" : ISODate("2013-04-02T08:43:55.463Z"),
"sensorName" : "56847890-0",
"reportCount" : 8
}

À l'aide de un type de champ personnalisé avec MongoEngine peut rendre le stockage et la récupération des Pandas DataFrames aussi simple que mongo_doc.data_frame = my_pandas_df

InformationsquelleAutor Nithin | 2013-04-27

102

pymongo peut vous donner un coup de main, trouvera ci-après quelques codes que j'utilise:
```
import pandas as pd
from pymongo import MongoClient
def _connect_mongo(host, port, username, password, db):
""" A util for making a connection to mongo """
if username and password:
mongo_uri = 'mongodb://%s:%s@%s:%s/%s' % (username, password, host, port, db)
conn = MongoClient(mongo_uri)
else:
conn = MongoClient(host, port)
return conn[db]
def read_mongo(db, collection, query={}, host='localhost', port=27017, username=None, password=None, no_id=True):
""" Read from Mongo and Store into DataFrame """
# Connect to MongoDB
db = _connect_mongo(host=host, port=port, username=username, password=password, db=db)
# Make a query to the specific DB and Collection
cursor = db[collection].find(query)
# Expand the cursor and construct the DataFrame
df =  pd.DataFrame(list(cursor))
# Delete the _id
if no_id:
del df['_id']
return df
```
- Merci, c'est la méthode que j'ai fini de l'utiliser. J'ai eu aussi un éventail de documents incorporés dans chaque ligne. J'ai donc dû effectuer une itération qui aussi bien au sein de chaque ligne. Est-il une meilleure façon de le faire??
- Est-il possible de fournir quelques échantillons de votre mongodb structure?
- Chercher à modifier pour un exemple de ligne de données. Un tableau du document incorporé "Lecture" est stockée à l'intérieur de lectures. Maintenant, je suis en train de faire une requête pour trouver plusieurs enregistrements et puis itérer sur chaque lecture dans les lectures de tableau pour chaque enregistrement. Est-il un moyen plus facile d'importer des données dans mon cas?
- Remarque le list() à l'intérieur de df = pd.DataFrame(list(cursor)) évalue comme une liste ou d'un générateur, afin de garder le CPU cool. Si u ont un zillionty-l'un des éléments de données, et les quelques lignes auraient raisonnablement partioned, au niveau de l'détaillée, et de couper eux, l'ensemble de shmegegge est encore sûr à laisser tomber. Nice.
- C'est très lent @ df = pd.DataFrame(list(cursor)). Pure db quering est beaucoup plus rapide. Pourrions-nous changer list casting pour quelque chose d'autre?
- cette ligne a également attiré mon attention. Casting d'une base de données de curseur, qui est conçu pour être itératif et, potentiellement, des enveloppements de grandes quantités de données, dans une liste en mémoire ne semble pas intelligent pour moi.
InformationsquelleAutor waitingkuo

Vous pouvez charger votre mongodb données aux pandas DataFrame l'aide de ce code. Il fonctionne pour moi. J'espère pour vous aussi.

import pymongo
import pandas as pd
from pymongo import MongoClient
client = MongoClient()
db = client.database_name
collection = db.collection_name
data = pd.DataFrame(list(collection.find()))

InformationsquelleAutor saimadhu.polamuri

21

Monary fait exactement cela, et c'est super rapide. (un autre lien)

Voir ce cool post qui comprend un tutoriel rapide et certains horaires.
- Ne Monary support type de données string ?
- J'ai essayé Monary, mais il prend beaucoup de temps. Je suis pas certains d'optimisation? Essayé client = Monary(host, 27017, database="db_tmp") columns = ["col1", "col2"] data_type = ["int64", "int64"] arrays = client.query("db_tmp", "coll", {}, columns, data_type) Pour 50000 enregistrements prend environ 200s.
- Que des sons extrêmement lent... Franchement, je ne sais pas quel est le statut de ce projet est que, maintenant, 4 ans plus tard...
InformationsquelleAutor shx2
11

Comme par PEP, simple est le mieux que compliqué:
```
import pandas as pd
df = pd.DataFrame.from_records(db.<database_name>.<collection_name>.find())
```
Vous pouvez inclure des conditions, comme vous le feriez de travail régulière de la base de données mongoDB ou même utiliser find_one() pour obtenir un seul élément de la base de données, etc.

et le tour est joué!
- pd.DataFrame.from_records semble être aussi lente que DataFrame(list()), mais les résultats sont très contradictoires. %%temps de rien montré de 800 ms à 1,9 s
- Ce n'est pas bon pour les grands dossiers comme ce n'est pas montre d'erreur de mémoire, instread bloque le système de trop grands volumes de données. alors que pd.DataFrame(liste(curseur)) montre une erreur de la mémoire.
InformationsquelleAutor Cy Bu

import pandas as pd
from odo import odo
data = odo('mongodb://localhost/db::collection', pd.DataFrame)

InformationsquelleAutor fengwt

6

Pour traiter les out-of-core (pas de montage dans la RAM) les données de façon efficace (c'est à dire avec l'exécution en parallèle), vous pouvez essayer Python Blaze écosystème: Blaze /Dask /Odon.

Blaze (et Odon) a out-of-the-box fonctions de traiter avec MongoDB.

Quelques articles utiles pour commencer:
- L'Introduction De Blaze Expessions (avec MongoDB exemple de requête)
- ReproduceIt: Reddit nombre de mots
- Différence entre Dask Tableaux et Blaze
Et un article qui montre ce qu'est incroyable de choses sont possibles avec le Blaze de la pile: L'analyse de 1,7 Milliard de Reddit Commentaires avec Blaze et Impala (essentiellement, l'interrogation 975 Go de Reddit commentaires en secondes).

P. S. je ne suis pas affilié avec aucun de ces technologies.
- J'ai aussi écrit un post à l'aide de Jupyter Portable avec un exemple comment Dask contribue à l'accélération de l'exécution même sur les données de montage en mémoire à l'aide de plusieurs cœurs sur une seule machine.
InformationsquelleAutor Dennis Golomazov
4

Une autre option que je trouve très utile:
```
from pandas.io.json import json_normalize
cursor = my_collection.find()
df = json_normalize(cursor)
```
cette façon, vous obtenez le déroulement de imbriquée mongodb documents gratuitement.
- J'ai eu une erreur avec cette méthode TypeError: data argument can't be an iterator
- Étrange, cela fonctionne sur mon python 3.6.7 à l'aide de pandas 0.24.2. Peut-être que vous pouvez essayer df = json_normalize(list(cursor)) à la place?
InformationsquelleAutor Ikar Pohorský

À l'aide de

pandas.DataFrame(list(...))

permettra de consommer beaucoup de mémoire si l'itérateur/générateur de résultat est de grande

mieux pour générer petits morceaux et concat à la fin

def iterator2dataframes(iterator, chunk_size: int):
"""Turn an iterator into multiple small pandas.DataFrame
This is a balance between memory and efficiency
"""
records = []
frames = []
for i, record in enumerate(iterator):
records.append(record)
if i % chunk_size == chunk_size - 1:
frames.append(pd.DataFrame(records))
records = []
if records:
frames.append(pd.DataFrame(records))
return pd.concat(frames)

InformationsquelleAutor Deo Leung

2

http://docs.mongodb.org/manual/reference/mongoexport

exporter au format csv et de les utiliser read_csv
ou JSON et l'utilisation DataFrame.from_records
- C'est DataFrame.from_records().
InformationsquelleAutor Jeff

La suite de cette grande réponse par waitingkuo je voudrais ajouter la possibilité de le faire à l'aide de chunksize en ligne avec .read_sql() et .read_csv(). Je agrandir la réponse de Deu Leung en évitant d'aller un par un chaque "enregistrement" de la "itérateur' /'curseur'.
Je vais emprunter précédente read_mongo fonction.

def read_mongo(db, 
collection, query={}, 
host='localhost', port=27017, 
username=None, password=None,
chunksize = 100, no_id=True):
""" Read from Mongo and Store into DataFrame """
# Connect to MongoDB
#db = _connect_mongo(host=host, port=port, username=username, password=password, db=db)
client = MongoClient(host=host, port=port)
# Make a query to the specific DB and Collection
db_aux = client[db]
# Some variables to create the chunks
skips_variable = range(0, db_aux[collection].find(query).count(), int(chunksize))
if len(skips_variable)<=1:
skips_variable = [0,len(skips_variable)]
# Iteration to create the dataframe in chunks.
for i in range(1,len(skips_variable)):
# Expand the cursor and construct the DataFrame
#df_aux =pd.DataFrame(list(cursor_aux[skips_variable[i-1]:skips_variable[i]]))
df_aux =pd.DataFrame(list(db_aux[collection].find(query)[skips_variable[i-1]:skips_variable[i]]))
if no_id:
del df_aux['_id']
# Concatenate the chunks into a unique df
if 'df' not in locals():
df =  df_aux
else:
df = pd.concat([df, df_aux], ignore_index=True)
return df

InformationsquelleAutor Rafael Valero

Une approche similaire comme Rafael Valero, waitingkuo et Deu Leung à l'aide de pagination:

def read_mongo(
# db, 
collection, query=None, 
# host='localhost', port=27017, username=None, password=None,
chunksize = 100, page_num=1, no_id=True):
# Connect to MongoDB
db = _connect_mongo(host=host, port=port, username=username, password=password, db=db)
# Calculate number of documents to skip
skips = chunksize * (page_num - 1)
# Sorry, this is in spanish
# https://www.toptal.com/python/c%C3%B3digo-buggy-python-los-10-errores-m%C3%A1s-comunes-que-cometen-los-desarrolladores-python/es
if not query:
query = {}
# Make a query to the specific DB and Collection
cursor = db[collection].find(query).skip(skips).limit(chunksize)
# Expand the cursor and construct the DataFrame
df =  pd.DataFrame(list(cursor))
# Delete the _id
if no_id:
del df['_id']
return df

InformationsquelleAutor Jordy Cuan

Vous devez vous connecter pour publier un commentaire.