Comment écrire DataFrame de postgres table?

Il est DataFrame.to_sql méthode, mais il ne fonctionne que pour mysql, sqlite, oracle et les bases de données. Je ne peux pas passer à cette méthode postgres connexion ou de sqlalchemy moteur.

InformationsquelleAutor m9_psy | 2014-04-16

99

À partir de pandas 0.14 (sorti fin Mai 2014), postgresql est pris en charge. Le sql module utilise maintenant sqlalchemy de soutien de base de données différent de saveurs. Vous pouvez passer une sqlalchemy moteur de base de données postgresql (voir docs). E. g.:
```
from sqlalchemy import create_engine
engine = create_engine('postgresql://scott:tiger@localhost:5432/mydatabase')
df.to_sql('table_name', engine)
```
Il est exact que dans les pandas jusqu'à la version 0.13.1 postgresql n'a pas été pris en charge. Si vous avez besoin d'utiliser une ancienne version de pandas, voici une version corrigée de pandas.io.sql: https://gist.github.com/jorisvandenbossche/10841234.

J'ai écrit cela il y a un temps, donc ne peut pas garantir qu'elle fonctionne toujours, buth la base devrait être là). Si vous placez ce fichier dans votre répertoire de travail et l'importer, alors vous devriez être en mesure de le faire (d'où con est une connexion postgresql):
```
import sql  # the patched version (file is named sql.py)
sql.write_frame(df, 'table_name', con, flavor='postgresql')
```
- A ce rendre à 0,14?
- Oui, et aussi de 0,15 est déjà sorti (release candidate). Je vais mettre à jour la réponse, merci de la poser.
- Ce post a résolu le problème pour moi: stackoverflow.com/questions/24189150/...
- Remarque: to_sql ne pas exporter les types de tableau dans postgresql.
- Au lieu de créer un nouveau Sqlalchemy engine, puis-je utiliser une Postgres de connexion créés à l'aide de psycopg2.connect()?
- Pour les tables à écrire, ce n'est pas possible. Il doit être un sqlalchemy du moteur ou de la connexion.
InformationsquelleAutor joris
65

Option plus rapide:

Le code suivant va copier votre Pandas DF pour postgres DB beaucoup plus rapide que la df.to_sql méthode et vous n'aurez pas besoin d'un intermédiaire fichier csv pour stocker le df.

Créer un moteur basé sur votre DB spécifications.

Créer une table dans votre postgres DB qui a le même nombre de colonnes que le Dataframe (df).

Données dans le DF obtiendrez inséré dans votre postgres table.
```
from sqlalchemy import create_engine
import psycopg2 
import io
```
si vous souhaitez remplacer le tableau, on peut la remplacer par de la normale to_sql méthode utilisant les en-têtes de nos df, puis charger la totalité du gros temps df en DB.
```
engine = create_engine('postgresql+psycopg2://username:password@host:port/database')

df.head(0).to_sql('table_name', engine, if_exists='replace',index=False) #truncates the table

conn = engine.raw_connection()
cur = conn.cursor()
output = io.StringIO()
df.to_csv(output, sep='\t', header=False, index=False)
output.seek(0)
contents = output.getvalue()
cur.copy_from(output, 'table_name', null="") # null values become ''
conn.commit()
```
- Quelle est la variable contents faire? Cela devrait-il être celui qui est écrit dans copy_from()?
- Ouais simplement ignorer le contents variable, tout le reste devrait fonctionner parfaitement
- est-il un moyen de remplacer la table plutôt que de les ajouter?
- pourquoi faites-vous output.seek(0) ?
- C'est tellement rapide que c'est drôle 😀
- Avez couru tests pour cela? Pouvez-vous poster les résultats
- Chargement de la table est un échec pour moi à cause de caractères de nouvelle ligne dans certains domaines. Comment puis-je gérer cela? df.to_csv(sortie, sep='\t', header=False, index=False, encoding='utf-8') cur.copy_from(sortie, "messages", null="") # les valeurs null devenir "
InformationsquelleAutor Aseem

Pandas 0.24.0+ solution

Dans les Pandas 0.24.0 une nouvelle fonctionnalité a été introduite spécifiquement conçu pour les écritures rapides à Postgres. Vous pouvez en apprendre plus à ce sujet ici: https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html#io-sql-method

import csv
from io import StringIO

from sqlalchemy import create_engine

def psql_insert_copy(table, conn, keys, data_iter):
    # gets a DBAPI connection that can provide a cursor
    dbapi_conn = conn.connection
    with dbapi_conn.cursor() as cur:
        s_buf = StringIO()
        writer = csv.writer(s_buf)
        writer.writerows(data_iter)
        s_buf.seek(0)

        columns = ', '.join('"{}"'.format(k) for k in keys)
        if table.schema:
            table_name = '{}.{}'.format(table.schema, table.name)
        else:
            table_name = table.name

        sql = 'COPY {} ({}) FROM STDIN WITH CSV'.format(
            table_name, columns)
        cur.copy_expert(sql=sql, file=s_buf)

engine = create_engine('postgresql://myusername:mypassword@myhost:5432/mydatabase')
df.to_sql('table_name', engine, method=psql_insert_copy)

Pour la plupart du temps, ajouter method='multi' option est assez rapide. Mais oui, ce COPY méthode est le moyen le plus rapide maintenant.
Est-ce pour les csv seul? Peut-il être utilisé avec .xlsx ainsi? Quelques notes sur ce que chaque partie de ce fait serait utile. La première partie après le with est écrit dans une mémoire tampon. La dernière partie de la with est à l'aide d'une instruction SQL et profitant de copy_expert de la vitesse de charger les données en masse. Qu'est-ce que la partie centrale qui commence avec columns = faire?

InformationsquelleAutor mgoldwasser

C'est la façon dont je l'ai fait.

Il peut être plus rapide car il utilise execute_batch:

# df is the dataframe
if len(df) > 0:
    df_columns = list(df)
    # create (col1,col2,...)
    columns = ",".join(df_columns)

    # create VALUES('%s', '%s",...) one '%s' per column
    values = "VALUES({})".format(",".join(["%s" for _ in df_columns])) 

    #create INSERT INTO table (columns) VALUES('%s',...)
    insert_stmt = "INSERT INTO {} ({}) {}".format(table,columns,values)

    cur = conn.cursor()
    psycopg2.extras.execute_batch(cur, insert_stmt, df.values)
    conn.commit()
    cur.close()

Je reçois AttributeError: module 'psycopg2' n'a pas d'attribut "extras". Ah, ce doit être importés de façon explicite. importation psycopg2.extras
cette fonction est beaucoup plus rapide que la solution sqlalchemy

InformationsquelleAutor Behdad Forghani

Pour Python 2.7 et les Pandas 0.24.2 et à l'aide de Psycopg2

Psycopg2 Module De Connexion

def dbConnect (db_parm, username_parm, host_parm, pw_parm):
    # Parse in connection information
    credentials = {'host': host_parm, 'database': db_parm, 'user': username_parm, 'password': pw_parm}
    conn = psycopg2.connect(**credentials)
    conn.autocommit = True  # auto-commit each entry to the database
    conn.cursor_factory = RealDictCursor
    cur = conn.cursor()
    print ("Connected Successfully to DB: " + str(db_parm) + "@" + str(host_parm))
    return conn, cur

Se connecter à la base de données

conn, cur = dbConnect(databaseName, dbUser, dbHost, dbPwd)

En supposant dataframe d'être présent déjà que df

output = io.BytesIO() # For Python3 use StringIO
df.to_csv(output, sep='\t', header=True, index=False)
output.seek(0) # Required for rewinding the String object
copy_query = "COPY mem_info FROM STDOUT csv DELIMITER '\t' NULL ''  ESCAPE '\\' HEADER "  # Replace your table name in place of mem_info
cur.copy_expert(copy_query, output)
conn.commit()

InformationsquelleAutor Mayukh Ghosh

Vous devez vous connecter pour publier un commentaire.