Les grands Pandas Dataframe de traitement parallèle

Je suis d'accéder à un très grand Pandas dataframe comme une variable globale. Cette variable est accessible en parallèle via joblib.

Par exemple.

df = db.query("select id, a_lot_of_data from table")

def process(id):
    temp_df = df.loc[id]
    temp_df.apply(another_function)

Parallel(n_jobs=8)(delayed(process)(id) for id in df['id'].to_list())

Accès à l'original de la df de cette manière semble copier les données entre processus. C'est inattendu, car l'original de la df n'est pas altérée dans l'un des sous-processus? (ou est-il?)

OriginalL'auteur autodidacticon | 2015-11-09