Accélérer les pandas.DataFrame.to_sql avec fast_executemany de pyODBC

Je voudrais adresser un grand pandas.DataFrame à un serveur distant fonctionnant sous MS SQL. La façon dont je le fais maintenant, c'est par la conversion d'un data_frame objet d'une liste de tuples et ensuite l'envoyer balader avec pyODBC de executemany() fonction. Il va quelque chose comme ceci:

 import pyodbc as pdb

 list_of_tuples = convert_df(data_frame)

 connection = pdb.connect(cnxn_str)

 cursor = connection.cursor()
 cursor.fast_executemany = True
 cursor.executemany(sql_statement, list_of_tuples)
 connection.commit()

 cursor.close()
 connection.close()

J'ai alors commencé à me demander si les choses peuvent être accéléré (ou au moins plus lisible) à l'aide de data_frame.to_sql() méthode. Je suis venu avec la solution suivante:

 import sqlalchemy as sa

 engine = sa.create_engine("mssql+pyodbc:///?odbc_connect=%s" % cnxn_str)
 data_frame.to_sql(table_name, engine, index=False)

Maintenant le code est plus lisible, mais le téléchargement est au moins 150 fois plus lent...

Est-il un moyen de retourner la fast_executemany lors de l'utilisation de SQLAlchemy?

Je suis en utilisant des pandas-0.20.3, pyODBC-4.0.21 et sqlalchemy-1.1.13.

InformationsquelleAutor J.K. | 2017-12-28

37

MODIFIER (08/03/2019): Gord Thompson a commenté ci-dessous, avec de bonnes nouvelles de la mise à jour de journaux de sqlalchemy: Depuis SQLAlchemy 1.3.0, publié 2019-03-04, sqlalchemy prend désormais en charge engine = create_engine(sqlalchemy_url, fast_executemany=True) pour la mssql+pyodbc dialecte. I. e., il n'est plus nécessaire de définir une fonction et l'utilisation @event.listens_for(engine, 'before_cursor_execute') Signification ci-dessous la fonction peut être supprimée et seule l'indicateur doit être défini dans le create_engine de l'instruction et de toujours conserver le speed-up.

Original Post:

Viens de faire un compte pour poster ceci. Je voulais commentaire sous le fil au-dessus car il s'agit d'un suivi sur le déjà fourni la réponse. La solution ci-dessus a fonctionné pour moi avec la Version 17 SQL pilote Microsoft SQL stockage de l'écriture à partir d'un Ubuntu installation.

Le code complet que j'ai utilisé pour accélérer les choses de manière significative (parler >100x speed-up) est ci-dessous. Ceci est un extrait de à la condition que vous modifiez la chaîne de connexion avec vos détails pertinents. L'affiche ci-dessus, je vous remercie très beaucoup pour la solution que je cherchais tout à fait un certain temps déjà.
```
import pandas as pd
import numpy as np
import time
from sqlalchemy import create_engine, event
from urllib.parse import quote_plus


conn =  "DRIVER={ODBC Driver 17 for SQL Server};SERVER=IP_ADDRESS;DATABASE=DataLake;UID=USER;PWD=PASS"
quoted = quote_plus(conn)
new_con = 'mssql+pyodbc:///?odbc_connect={}'.format(quoted)
engine = create_engine(new_con)


@event.listens_for(engine, 'before_cursor_execute')
def receive_before_cursor_execute(conn, cursor, statement, params, context, executemany):
    print("FUNC call")
    if executemany:
        cursor.fast_executemany = True


table_name = 'fast_executemany_test'
df = pd.DataFrame(np.random.random((10**4, 100)))


s = time.time()
df.to_sql(table_name, engine, if_exists = 'replace', chunksize = None)
print(time.time() - s)
```
Sur la base des commentaires ci-dessous, je voulais prendre un peu de temps pour expliquer certaines limitations sur les pandas to_sql mise en œuvre et la façon dont la requête est traitée. Il y a 2 choses qui peuvent causer la MemoryError soulevé autant que je sache:

1) en Supposant que vous écrivez à une instance distante de SQL de stockage. Lorsque vous essayez d'écrire un grand pandas DataFrame avec le to_sql méthode il convertit l'intégralité du dataframe dans une liste de valeurs. Cette transformation prend beaucoup plus de RAM que l'original DataFrame n' (sur le dessus de cela, comme l'ancien DataFrame reste encore présent dans la mémoire RAM). Cette liste est fournie à la dernière executemany appel à votre connecteur ODBC. Je pense que le connecteur ODBC a quelques problèmes pour le traitement de ces requêtes importantes. Une façon de résoudre ce problème est de fournir le to_sql méthode un chunksize argument (10**5 semble être autour optimale donnant sur 600 mbit/s (!) des vitesses d'écriture sur un 2 UC 7 GO de ram MSSQL application de Stockage d'Azur ne peux pas le recommander Azure btw). Donc, la première limitation, soit la taille de requête peut être contournée par la fourniture d'un chunksize argument. Cependant, ce ne sera pas vous permettre d'écrire un dataframe la taille de 10**7 ou plus, (au moins pas sur la VM, je travaille avec ce qui a ~55GB RAM), étant à la question n ° 2.

Cela peut être contourné par la rupture de la DataFrame avec np.split (10**6 taille DataFrame morceaux) ils peuvent être écrits à l'écart de manière itérative. Je vais essayer de faire une pull request, quand j'ai une solution toute prête pour la to_sql méthode dans la base de pandas lui-même de sorte que vous n'aurez pas à faire cette pré-rupture de tous les temps. De toute façon j'ai fini par écrire une fonction similaire (pas de clé) pour les opérations suivantes:
```
import pandas as pd
import numpy as np

def write_df_to_sql(df, **kwargs):
    chunks = np.split(df, df.shape()[0] / 10**6)
    for chunk in chunks:
        chunk.to_sql(**kwargs)
    return True
```
Un exemple plus complet de l'extrait ci-dessus peuvent être consultées ici: https://gitlab.com/timelord/timelord/blob/master/timelord/utils/connector.py

C'est une classe que j'ai écrit qui intègre le patch et facilite certaines des frais généraux qui vient avec l'établissement de connexions avec SQL. Encore écrire de la documentation. J'ai également la planification sur le patch pour les pandas lui-même, mais n'ai pas trouvé une belle façon sur la façon de le faire.

J'espère que cette aide.
- Merci pour cette. Je suis sûr que ça va aider! Encore une chose à noter: pyODBC doit être d'au 4.0.19 ou au-dessus.
- mon code ressemble à la vôtre, sauf le moteur de la création: engine = sa.create_engine('mssql+pyodbc://SERVER/DATABASE?driver=SQL+Server+Native+Client+11.0') . pensez-vous que le Native Client a quelque chose à voir avec le débrancher?
- Je viens d'écrire du code réutilisable autour de votre solution, qui ne fait le travail, j'ai donc à vous remercier pour l'effort principal! @ Cameron Taylor: pas sûr, mais il semble probable, j'espère que vous êtes en mesure d'essayer avec un autre pilote.
- Ce qui est excellent. Pour une raison quelconque, je finis par obtenir des erreurs de mémoire maintenant lors de l'utilisation de cette nouvelle fast_executemany méthode comme indiqué ci-dessus. Y aurait-il quelque raison que cette méthode serait plus gourmandes en mémoire?
- J'ai édité ma réponse à fournir une solution à vos problèmes de mémoire. Réponse courte, to_sql est très gourmande en mémoire en raison de la transformation en une list type. (un 700MO de RAM DataFrame semblait utiliser à peakload sur 8GO de RAM avec la to_sql méthode à cause de cela. )
- C'est un grand travail et le profilage des performances pour aider à comprendre le problème. J'ai également posté une réponse à l'aide de la nouvelle turbodbc bibliothèque qui peut être une bonne option aussi.
- df.to_sql fonctionne bien lorsque if_exists est définie replace. Lorsque j'essaie d'utiliser append jupyter ordinateur portable se bloque. Toutes les solutions?
- Peut-être que vous êtes en train d'écrire trop gros morceaux? Pas sûr, il est difficile de juger sans pleine de sperme. Si votre question n'est pas vraiment plus donc je pense que c'est mieux si vous faites une nouvelle question, ou de regarder autour de sur la ALORS pour des questions similaires. Bonne chance.
- C'est seulement 8000 lignes et 5 colonnes. J'utilise exactement le même code que vous avez fournis. Il fonctionne très bien avec 'replace' mais pas avec 'append', Comment est-ce n'est pas lié?
- J'ai même essayé de morceau tailles aussi petites que 500.
- Je pense qu'il n'est pas lié qu'à la question d'origine était concernant l'accélération de la méthode to_sql. Vous vous demandez maintenant sur une erreur d'un argument dans la même méthode, ce qui n'est pas liée avec la question d'origine: autant que je sache. Juste essayer de respecter les normes de SORTE que j'ai l'habitude de voir. concernant les informations que vous avez fournies maintenant peut-être que l'erreur est déclenchée, car déjà présent tableau est de taille différente et donc ne peut pas être ajouté à la fin (erreur type)? Aussi le dernier extrait de code que j'ai fourni a titre d'illustration, vous avez probablement besoin de le modifier un peu.
- J'ai posté une question à propos de la mémoire d'erreur ici. stackoverflow.com/questions/49887717/...
- Ne sais pas pourquoi je n'ai pas partagé cela avant, mais ici, c'est la classe que j'utilise souvent pour obtenir dataframes dans et hors d'une base de données SQL: gitlab.com/timelord/timelord/blob/master/timelord/utils/... Profitez-en!
- pourriez-vous donner un exemple sur la façon d'utiliser cette classe?
- J'ai mis à jour la classe avec un bon exemple. Ne noter que pas toutes les bases de données utilisent le même pilote et va donc générer une erreur lors de l'utilisation de cette classe. Un exemple de base de données qui n'utilise pas c'est PostgreSQL. Je n'ai pas trouvé un moyen rapide encore d'insérer des données dans PSQL. Une façon de toujours utiliser cette classe, comme cela est explicitement tournant l'interrupteur en appelant le: con._init_engine(SET_FAST_EXECUTEMANY_SWITCH=False) Après avoir initialisé la classe. Bonne chance.
- Vous êtes un vrai gelntleman! merci!!!J'ai dû ajouter une auto._init_engine() appel à la _write_df méthode. Cependant, l'utilisation de "db_type": "mssql+pymssql" est terrible lenteur. Ce db_type dois-je utiliser pour un Serveur SQL?
- Cette classe est destinée à être utilisée exactement avec mssql! Cependant, comme pour mon exemple d'utilisation mssql+pyodbc. Cela permettra de tirer parti de la fast_insert SUR le switch qui est définie sur True dans la classe en tant que par défaut. La classe est juste une fantaisie wrapper de deux extraits de code dans mon exemple.
- J'ai essayé pyodbc avant. Je suis en train d'essayer de nouveau avec votre classe, MAIS je reçois ce message d'erreur: ProgrammingError: ('SQL contient 26464 marqueurs de paramètres, mais 92000 paramètres fournis', 'HY000') Mon df a 91 colonnes et 1000 lignes.
- Avoir vu cette erreur avant, mais je ne me souviens pas de la solution. Avez-vous essayé la mise à jour de vos bibliothèques? Peut-être que va faire l'affaire. Iirc anaconda est livré avec une ancienne pyodbc. Bonne chance.
- J'ai essayé de l'événement à base de solution ci-dessus et a obtenu l'erreur suivante: sqlalchemy.exc.DBAPIError: (pyodbc.Error) ('HY010', '[HY010] [Microsoft][ODBC Driver 11 for SQL Server]Function sequence error (0) (SQLParamData)') [SQL:...... où l' ..... est l'instruction insert générés par les pandas to_sql(). Je suis à l'aide de Python 3.7.0, Windows 7 et SQL Server 12.0.5538.0. L'accès via un nom de connexion ODBC. (Toutes mes EXCUSES: j'ai posté ce commentaire sur une autre réponse que de bien, juste pensé que ce fil semble aussi active.)
- Je pense que votre connecteur ODBC est obsolète. Je me souviens d'obtenir le même problème avec cela. Je pense que cette solution ne fonctionne que pour les versions au-dessus de 15. Goodluck
- toute idée de ce que je peux utiliser pour Redshift sans ODBC? psycopg2 ne supporte pas fast_executemany
- Puisque c'est la réponse la plus populaire, et de loin, veuillez tenir compte de la mise à jour, on peut dire que SQLAlchemy 1.3.0, publié 2019-03-04, prend désormais en charge engine = create_engine(sqlalchemy_url, fast_executemany=True) pour la mssql+pyodbc dialecte. I. e., il n'est plus nécessaire de définir une fonction et l'utilisation @event.listens_for(engine, 'before_cursor_execute'). Merci.
- Grâce Gord Thompson pour la mise à jour! J'ai mis votre commentaire en haut et a également fait un wiki de la communauté article de mon post pour les futures mises à jour.
InformationsquelleAutor
18

Après contact avec les développeurs de SQLAlchemy, une façon de résoudre ce problème est apparu. Merci à eux pour leur excellent travail!

On doit utiliser un curseur de l'exécution de l'événement et de vérifier si le executemany drapeau a été soulevée. Si c'est effectivement le cas, mettez le fast_executemany option. Par exemple:
```
from sqlalchemy import event

@event.listens_for(engine, 'before_cursor_execute')
def receive_before_cursor_execute(conn, cursor, statement, params, context, executemany):
    if executemany:
        cursor.fast_executemany = True
```
Plus d'informations sur les événements de l'exécution peut être trouvé ici.

Mise à JOUR: Soutien pour fast_executemany de pyodbc a été ajouté dans SQLAlchemy 1.3.0, de sorte que ce hack n'est pas plus nécessaire.
- Merci beaucoup de faire le travail sur le terrain sur ce. Juste pour plus de clarté, ce décorateur et la fonction doit être déclarée avant l'instanciation d'un SQLAlchemy moteur?
- Vous êtes la plupart de bienvenue. Je déclare juste après l'instanciation du moteur dans le constructeur d'une classe.
- donc cela élimine la nécessité pour les pyodbc spécifique de code de connexion? juste besoin d'appeler to_sql() après cette fonction?
- j'ai essayé d'appeler juste to_sql directement après la fonction, mais il n'a pas de vitesse que quoi que ce soit
- Je suis curieux à propos de moi-même. Je suppose que cette réponse était liée à l' .to_sql() la méthode de trop.
- Je pense que c'est, sinon sqlalchemy ne pas être utilisée. Tout simplement pas sûr de la façon de le reconstituer
- cela devrait en effet permettre de vous servir uniquement des SQLA ou liées pandas méthodes. Après une déclaration à l'écoute, je viens de l'appeler to_sql() et observer la performance qui est proche à l'aide de pyODBC seul, mais avec tous les avantages du moteur et de l'ORM de SQLA. Quelle est la version de pyODBC utilisez-vous? Les Versions plus anciennes que 4.0.19 n'ont pas cette fonctionnalité.
- Je voulais juste que vous le savez tous que j'ai mis en place un exemple d'utilisation de la nouvelle turbodbc bibliothèque qui devrait être très rapide et de gérer la consommation de mémoire mieux.
- J'ai essayé de l'événement à base de solution ci-dessus et a obtenu l'erreur suivante: sqlalchemy.exc.DBAPIError: (pyodbc.Error) ('HY010', '[HY010] [Microsoft][ODBC Driver 11 for SQL Server]Function sequence error (0) (SQLParamData)') [SQL:...... où l' ..... est l'instruction insert générés par les pandas to_sql(). Je suis à l'aide de Python 3.7.0, Windows 7 et SQL Server 12.0.5538.0. L'accès via un nom de connexion ODBC. Toute aide appréciée merci!
- Hey! Désolé, je ne pourrais pas être la personne pour l'aider car je suis un utilisateur occasionnel de SQL bibliothèques... Quelle version de pyodbc utilisez-vous? J'ai trouvé quelques discussions sur le sujet ici github.com/mkleehammer/pyodbc/issues/371 ici stackoverflow.com/questions/49887717/...
- Veuillez envisager de mettre à jour votre réponse à mentionner que SQLAlchemy 1.3.0, publié 2019-03-04, prend désormais en charge engine = create_engine(sqlalchemy_url, fast_executemany=True) pour la mssql+pyodbc dialecte. I. e., il n'est plus nécessaire de définir une fonction et l'utilisation @event.listens_for(engine, 'before_cursor_execute'). Merci.
InformationsquelleAutor J.K.
9

Je voulais juste poster cet exemple comme un autre, hautes performances et pour ceux qui peuvent utiliser la nouvelle turbodbc bibliothèque: http://turbodbc.readthedocs.io/en/latest/

Il n'y a clairement beaucoup d'options dans le flux entre les pandas .to_sql(), le déclenchement de fast_executemany par le biais de sqlalchemy, à l'aide de pyodbc directement avec les tuples/lists/etc., ou même essayer de TÉLÉCHARGEMENT en VRAC avec des fichiers plats.

Espérons-le, les éléments suivants pourraient rendre la vie un peu plus agréable que la fonctionnalité évolue dans le courant de pandas projet ou comprend quelque chose comme turbodbc intégration dans l'avenir.
```
import pandas as pd
import numpy as np
from turbodbc import connect, make_options
from io import StringIO

test_data = '''id,transaction_dt,units,measures
               1,2018-01-01,4,30.5
               1,2018-01-03,4,26.3
               2,2018-01-01,3,12.7
               2,2018-01-03,3,8.8'''

df_test = pd.read_csv(StringIO(test_data), sep=',')
df_test['transaction_dt'] = pd.to_datetime(df_test['transaction_dt'])

options = make_options(parameter_sets_to_buffer=1000)
conn = connect(driver='{SQL Server}', server='server_nm', database='db_nm', turbodbc_options=options)

test_query = '''DROP TABLE IF EXISTS [db_name].[schema].[test]

                CREATE TABLE [db_name].[schema].[test]
                (
                    id int NULL,
                    transaction_dt datetime NULL,
                    units int NULL,
                    measures float NULL
                )

                INSERT INTO [db_name].[schema].[test] (id,transaction_dt,units,measures)
                VALUES (?,?,?,?) '''

cursor.executemanycolumns(test_query, [df_test['id'].values, df_test['transaction_dt'].values, df_test['units'].values, df_test['measures'].values]
```
turbodbc devrait être TRÈS rapide dans de nombreux cas d'utilisation (en particulier avec des tableaux numpy). Veuillez observer comment simple c'est de passer les sous-jacents des tableaux numpy du dataframe colonnes en tant que paramètres à la requête directement. Je crois aussi que cela permet d'éviter la création d'objets intermédiaires que les pointes de consommation mémoire excessive. Espérons que cela est utile!
- vais essayer dans les prochains jours, puis je vais revenir avec mes conclusions
- a ce taux de participation sera utile pour vous? il serait formidable d'entendre vos résultats ici
- Salut Pylander! Je n'ai pas eu le temps d'essayer encore, très occupé ici. Pour l'instant, je suis en utilisant un outil de la société à ingérer des données. Mais j'ai besoin de ce mal pour les prochains projets, pour l'ingestion massive de données sur sql server. Le principal inconvénient que je vois, c'est que mon dfs ont 240 colonnes chacune. Lors de l'utilisation de pd.to_sql, je n'ai pas besoin de vous inquiéter à propos de chaque colonne. Puis de nouveau, pd.to_sql est vraiment très lent, au point d'être prohibitif. À l'aide de turbodbc peut être ma solution, mais avoir à les saisir manuellement à chaque un de ceux 240 colonnes ne semble pas optimal pour moi (car il y a beaucoup de différents df à être ingérés)
- J'ai eu de travail: cool! m'a tellement excité que j'ai écrit un blog sur mon github: github
- C'est génial! Je suis content que vous l'avez trouvé utile pour vos besoins dans la fin et merci pour le lien de votre belle démonstration de poste. Il devrait aider à promouvoir cette réponse et de rehausser le profil de la turbodbc projet pour les gens qui cherchent pour des solutions de trop.
InformationsquelleAutor Pylander
6

J'ai rencontré le même problème, mais l'utilisation de PostgreSQL. Ils ont maintenant lâchez pandas version 0.24.0 et il y a un nouveau paramètre dans le to_sql fonction appelée method qui a résolu mon problème.
```
from sqlalchemy import create_engine

engine = create_engine(your_options)
data_frame.to_sql(table_name, engine, method="multi")
```
Vitesse de téléchargement est 100x plus rapide pour moi.
Je recommande également le réglage de la chunksize paramètre si vous vous apprêtez à envoyer un grand nombre de données.

InformationsquelleAutor Emmanuel
4

Il semble que les Pandas 0.23.0 et 0.24.0 l'utilisation de plusieurs valeurs inserts avec PyODBC, ce qui empêche rapide executemany de l'aide – une seule INSERT ... VALUES ... déclaration est émise par morceau. Multi valeurs insérer des segments sont une amélioration par rapport à l'ancien lent executemany par défaut, mais au moins dans les tests simples de la rapide executemany méthode prévaut encore, pour ne pas mentionner aucun besoin de manuel chunksize calculs, comme cela est requis, avec de multiples valeurs des inserts. Forçant l'ancien comportement peut être fait par monkeypatching, si aucune option de configuration est fourni dans l'avenir:
```
import pandas.io.sql

def insert_statement(self, data, conn):
    return self.table.insert(), data

pandas.io.sql.SQLTable.insert_statement = insert_statement
```
L'avenir est ici, et au moins dans la master direction générale de la méthode d'insertion peut être contrôlé à l'aide de l'argument mot-clé method= de to_sql(). La valeur par défaut est None, ce qui oblige les executemany méthode. En passant method='multi' résultats dans l'utilisation de la multi valeurs à insérer. Il peut même être utilisé pour mettre en œuvre des SGBD approches spécifiques, tels que Postgresql COPY.
- Les pandas développeurs de va et vient sur cette question pendant un certain temps, mais finalement, ils semblaient s'éloigner de la multi-ligne insérer approche, au moins pour un mssql+pyodbc SQLAlchemy moteur. les pandas 0.23.4, en effet, laisser fast_executemany faire sa chose.
- N'ai pas vérifié, quelle est la situation actuelle, mais il a été remis dans la version 0.24.0. Edit: il est toujours là, au moins, dans master branche, mais il est contrôlable maintenant: github.com/pandas-dev/pandas/blob/master/pandas/io/sql.py#L1157. Semble comme passer to_sql(..., method=None) doit forcer l'executemany approche.
- ...Et None est la valeur par défaut.
InformationsquelleAutor Ilja Everilä

SQL Server performance de l'INSERT: pyodbc vs turbodbc

Lors de l'utilisation de to_sql de télécharger une pandas DataFrame de SQL Server, turbodbc sera certainement plus rapide que pyodbc sans fast_executemany. Cependant, avec fast_executemany activé pour pyodbc, les deux approches donnent essentiellement la même performance.

Des environnements de Test:

[venv1_pyodbc]

pyodbc 2.0.25

[venv2_turbodbc]

turbodbc 3.0.0

sqlalchemy-turbodbc 0.1.0

[commun aux deux]

Python 3.6.4 64 bits sur Windows

SQLAlchemy 1.3.0b1

les pandas 0.23.4

numpy 1.15.4

Code de Test:

# for pyodbc
engine = create_engine('mssql+pyodbc://sa:whatever@SQL_panorama', fast_executemany=True)
# for turbodbc
# engine = create_engine('mssql+turbodbc://sa:whatever@SQL_panorama')

# test data
num_rows = 10000
num_cols = 100
df = pd.DataFrame(
    [[f'row{x:04}col{y:03}' for y in range(num_cols)] for x in range(num_rows)],
    columns=[f'col{y:03}' for y in range(num_cols)]
)

t0 = time.time()
df.to_sql("sqlalchemy_test", engine, if_exists='replace', index=None)
print(f"pandas wrote {num_rows} rows in {(time.time() - t0):0.1f} seconds")

Les Tests ont été exécutés dans les douze (12) fois pour chaque environnement, en écartant le meilleur et le pire des moments pour chaque. Résultats (en secondes):

   rank  pyodbc  turbodbc
   ----  ------  --------
      1    22.8      27.5
      2    23.4      28.1
      3    24.6      28.2
      4    25.2      28.5
      5    25.7      29.3
      6    26.9      29.9
      7    27.0      31.4
      8    30.1      32.1
      9    33.6      32.5
     10    39.8      32.9
   ----  ------  --------
average    27.9      30.0

InformationsquelleAutor Gord Thompson

Comme l'a souligné @Pylander

Turbodbc est le meilleur choix pour l'ingestion de données, et de loin!

Je suis tellement excité à ce sujet que j'ai écrit un blog sur mon github et support:
veuillez vérifier https://medium.com/@erickfis/etl-process-with-turbodbc-1d19ed71510e

pour un exemple de travail et de comparaison avec les pandas.to_sql

Longue histoire courte,

avec turbodbc
J'ai 10000 lignes (77 colonnes) en 3 secondes

avec les pandas.to_sql
J'ai eu la même 10000 lignes (77 colonnes) de 198 secondes...

Et voici ce que je fais en détail

Les importations:

import sqlalchemy
import pandas as pd
import numpy as np
import turbodbc
import time

Charge et traiter certaines données Substitut de mon échantillon.pkl pour le vôtre:

df = pd.read_pickle('sample.pkl')

df.columns = df.columns.str.strip()  # remove white spaces around column names
df = df.applymap(str.strip) # remove white spaces around values
df = df.replace('', np.nan)  # map nans, to drop NAs rows and columns later
df = df.dropna(how='all', axis=0)  # remove rows containing only NAs
df = df.dropna(how='all', axis=1)  # remove columns containing only NAs
df = df.replace(np.nan, 'NA')  # turbodbc hates null values...

Créer la table à l'aide de sqlAlchemy

Malheureusement, turbodbc nécessite beaucoup de frais avec beaucoup de sql travail manuel, pour la création des tables et pour l'insertion de données.

Heureusement, Python est un pur bonheur et nous pouvons automatiser ce processus d'écriture de code sql.

La première étape est la création de la table qui recevra nos données. Toutefois, la création de la table manuellement l'écriture de code sql peut être problématique si votre table a plus que quelques colonnes. Dans mon cas, très souvent, les tables ont 240 colonnes!

C'est là que sqlAlchemy et les pandas peuvent encore nous aider: les pandas est mauvais pour la rédaction d'un grand nombre de lignes (10000 dans cet exemple), mais qu'en seulement 6 lignes, la tête de la table? De cette façon, nous automatiser le processus de création des tables.

Créer sqlAlchemy connexion:

mydb = 'someDB'

def make_con(db):
    """Connect to a specified db."""
    database_connection = sqlalchemy.create_engine(
        'mssql+pymssql://{0}:{1}@{2}/{3}'.format(
            myuser, mypassword,
            myhost, db
            )
        )
    return database_connection

pd_connection = make_con(mydb)

Créer une table dans SQL Server

À l'aide de pandas + sqlAlchemy, mais juste pour la préparation de la chambre pour turbodbc, comme mentionné précédemment. Veuillez noter que les df.la tête() ici: nous sommes à l'aide de pandas + sqlAlchemy pour l'insertion de seulement 6 lignes de nos données. Cela permettra de courir assez vite et est fait pour automatiser la création de la table.

table = 'testing'
df.head().to_sql(table, con=pd_connection, index=False)

Maintenant que la table est déjà en place, nous allons prendre au sérieux ici.

Turbodbc connexion:

def turbo_conn(mydb):
    """Connect to a specified db - turbo."""
    database_connection = turbodbc.connect(
                                            driver='ODBC Driver 17 for SQL Server',
                                            server=myhost,
                                            database=mydb,
                                            uid=myuser,
                                            pwd=mypassword
                                        )
    return database_connection

La préparation de sql comands et de données pour turbodbc. Nous allons automatiser la création de code, être créatif:

def turbo_write(mydb, df, table):
    """Use turbodbc to insert data into sql."""
    start = time.time()
    # preparing columns
    colunas = '('
    colunas += ', '.join(df.columns)
    colunas += ')'

    # preparing value place holders
    val_place_holder = ['?' for col in df.columns]
    sql_val = '('
    sql_val += ', '.join(val_place_holder)
    sql_val += ')'

    # writing sql query for turbodbc
    sql = f"""
    INSERT INTO {mydb}.dbo.{table} {colunas}
    VALUES {sql_val}
    """

    # writing array of values for turbodbc
    valores_df = [df[col].values for col in df.columns]

    # cleans the previous head insert
    with connection.cursor() as cursor:
        cursor.execute(f"delete from {mydb}.dbo.{table}")
        connection.commit()

    # inserts data, for real
    with connection.cursor() as cursor:
        try:
            cursor.executemanycolumns(sql, valores_df)
            connection.commit()
        except Exception:
            connection.rollback()
            print('something went wrong')

    stop = time.time() - start
    return print(f'finished in {stop} seconds')

De l'écriture de données à l'aide de turbodbc - j'ai 10000 lignes (77 colonnes) dans les 3 secondes:

turbo_write(mydb, df.sample(10000), table)

Pandas méthode de la comparaison, j'ai eu la même 10000 lignes (77 colonnes) de 198 secondes...

table = 'pd_testing'

def pandas_comparisson(df, table):
    """Load data using pandas."""
    start = time.time()
    df.to_sql(table, con=pd_connection, index=False)
    stop = time.time() - start
    return print(f'finished in {stop} seconds')

pandas_comparisson(df.sample(10000), table)

De l'environnement et des conditions de

Python 3.6.7 :: Anaconda, Inc.
TURBODBC version ‘3.0.0’
sqlAlchemy version ‘1.2.12’
pandas version ‘0.23.4’
Microsoft SQL Server 2014
user with bulk operations privileges

Veuillez vérifier https://erickfis.github.io/loose-code/ pour les mises à jour dans ce code!

InformationsquelleAutor erickfis

2

Voulais juste ajouter à la @J. K. réponse.

Si vous utilisez cette approche:
```
@event.listens_for(engine, 'before_cursor_execute')
def receive_before_cursor_execute(conn, cursor, statement, params, context, executemany):
    if executemany:
        cursor.fast_executemany = True
```
Et vous obtenez cette erreur:

"sqlalchemy.exc.DBAPIError: (pyodbc.D'erreur) ('HY010', '[HY010]
[Microsoft][SQL Server Native Client 11.0]erreur de séquence de Fonction (0)
(SQLParamData)') [SQL: 'INSERT INTO ... (...) VALUES (?, ?)']
[paramètres: ((..., ...), (..., ...)] (arrière-plan sur cette erreur:
http://sqlalche.me/e/dbapi)"

Encoder votre chaîne de valeurs comme ceci: 'yourStringValue'.encode('ascii')

Cela permettra de résoudre votre problème.

InformationsquelleAutor Azamat Bekkhozha

Vous devez vous connecter pour publier un commentaire.