La fusion de données de série chronologique par date à l'aide de numpy/pandas

J'ai le temps de la série de données à partir de trois différentes capteur de sources comme les fichiers CSV et souhaitez les combiner en un seul gros fichier CSV.
J'ai réussi à lire dans numpy utilisation de numpy est genfromtxt, mais je ne suis pas sûr de quoi faire à partir d'ici.

Fondamentalement, ce que j'ai, c'est quelque chose comme ceci:

Tableau 1:

timestamp    val_a   val_b   val_c

Tableau 2:

timestamp    val_d   val_e   val_f   val_g

Tableau 3:

timestamp    val_h   val_i

Tous les timestamps UNIX sont milliseconde horodateurs comme numpy.uint64.

Et ce que je veux est:

timestamp    val_a   val_b   val_c   val_d   val_e   val_f   val_g   val_h   val_i

...où toutes les données sont combinées et commandés par les horodateurs. Chacun des trois tableaux est déjà commandé par horodateur.
Puisque les données proviennent de différentes sources, il n'y a pas de garantie qu'un timestamp à partir de la table 1 sera également dans le tableau 2 ou 3, et vice-versa. Dans ce cas, les valeurs vides doivent être marqués comme N/A.

Jusqu'à présent, j'ai essayé d'utiliser les pandas pour convertir les données comme suit:

df_sensor1 = pd.DataFrame(numpy_arr_sens1)
df_sensor2 = pd.DataFrame(numpy_arr_sens2)
df_sensor3 = pd.DataFrame(numpy_arr_sens3)

et ensuite essayé d'utiliser des pandas.DataFrame.de fusion, mais je suis sûr que cela ne fonctionnera pas pour ce que je suis en train de le faire maintenant. Quelqu'un peut me pointer dans la bonne direction?

Pouvez-vous montrer ce que vous avez essayé avec merge, par exemple, il devrait fonctionner si vous n'avez merged = pd.merge(df_sensor1, df_sensor_2, on='timestamp') et puis répétez l'opération pour df_seonsor3, ou si vous définissez l'indice d'horodatage pour tous les dfs ensuite, vous pouvez simplement faire pd.concat([df_sensor_1, df_seonsor2, df_sensor3])
Merci pour la réponse rapide! J'ai utilisé merge exactement comme vous l'avez écrit, mais qui apparemment n'est une jointure interne, de sorte que seuls les points de données qui ont des horodateurs dans toutes les tables sont écrits à la table fusionnée. J'ai essayé une jointure externe, qui ne comprennent toutes les données, mais aussi ne pas obtenir le droit de la commande. Je n'ai juste essayer concat. Je n'ai merged = pd.concat([df_sensor1, df_sensor2, df_sensor3], axis=1) et merged.to_csv('out.csv', sep=';', header=True, index=True, na_rep='N/A') et qui semble avoir fait le travail. Je vais vérifier ça demain.

OriginalL'auteur vind | 2015-08-25

Je pense que vous pouvez tout simplement

Définir la timestamp comme le index de chaque DataFrame (utilisation de set_index)
Utiliser un join de les fusionner avec les 'outer' méthode
Optionnellement convertir timestamp à datetime

Voici à quoi il ressemble.

# generating some test data
timestamp = [1440540000, 1450540000]
df1 = pd.DataFrame(
    {'timestamp': timestamp, 'a': ['val_a', 'val2_a'], 'b': ['val_b', 'val2_b'], 'c': ['val_c', 'val2_c']})
# building a different index
timestamp = timestamp * np.random.randn(abs(1))
df2 = pd.DataFrame(
    {'timestamp': timestamp, 'd': ['val_d', 'val2_d'], 'e': ['val_e', 'val2_e'], 'f': ['val_f', 'val2_f'],
     'g': ['val_g', 'val2_g']}, index=index)
# keeping a value in common with the first index
timestamp = [1440540000, 1450560000]
df3 = pd.DataFrame({'timestamp': timestamp, 'h': ['val_h', 'val2_h'], 'i': ['val_i', 'val2_i']}, index=index)

# Setting the timestamp as the index
df1.set_index('timestamp', inplace=True)
df2.set_index('timestamp', inplace=True)
df3.set_index('timestamp', inplace=True)

# You can convert timestamps to dates but it's not mandatory I think
df1.index = pd.to_datetime(df1.index, unit='s')
df2.index = pd.to_datetime(df2.index, unit='s')
df3.index = pd.to_datetime(df3.index, unit='s')

# Just perform a join and that's it
result = df1.join(df2, how='outer').join(df3, how='outer')
result

La fusion de données de série chronologique par date à l'aide de numpy/pandas

Si vous utilisez cette solution et ont de nombreux tableaux (ou un inconnu de quantité dynamique d'entre eux), alors il est possible de mettre l' join opérations au sein de la reduce fonction, sens beaucoup moins de code. Aussi, je crois que le pandas.merge() va généraliser le join() méthode utilisée ci-dessus. Tout d'abord, from functools import reduce, puis

result = reduce(lambda left, right: pd.merge(left, right, left_on='timestamp', right_on='timestamp', how='outer'), df_list)

- où le dernier argument df_list une liste de vos DataFrames, par exemple df_list = [df1, df2, df3, ..., df_n].

OriginalL'auteur Romain

Vous devez vous connecter pour publier un commentaire.