La sortie de différence dans les deux Pandas dataframes à côté de mise en évidence de la différence

Je suis en train de mettre en évidence exactement ce qui a changé entre les deux dataframes.

Supposons que j'ai deux Python Pandas dataframes:

"StudentRoster Jan-1":
id   Name   score                    isEnrolled           Comment
111  Jack   2.17                     True                 He was late to class
112  Nick   1.11                     False                Graduated
113  Zoe    4.12                     True       

"StudentRoster Jan-2":
id   Name   score                    isEnrolled           Comment
111  Jack   2.17                     True                 He was late to class
112  Nick   1.21                     False                Graduated
113  Zoe    4.12                     False                On vacation

Mon objectif est de produire un tableau HTML:

Identifie les lignes qui ont changé (peut être de type int, float, boolean, string)

Sorties lignes avec le même, ANCIENNES et les NOUVELLES valeurs (idéalement dans un tableau HTML) de sorte que le consommateur peut voir clairement ce qui a changé entre les deux dataframes:

"StudentRoster Difference Jan-1 - Jan-2":  
id   Name   score                    isEnrolled           Comment
112  Nick   was 1.11| now 1.21       False                Graduated
113  Zoe    4.12                     was True | now False was "" | now   "On   vacation"

Je suppose que je pourrais le faire ligne par ligne et colonne par colonne, de la comparaison, mais est-il un moyen plus facile?

InformationsquelleAutor sky | 2013-06-13

135

La première partie est similaire à Constantine, vous pouvez obtenir le booléen dont les lignes sont vides*:
```
In [21]: ne = (df1 != df2).any(1)

In [22]: ne
Out[22]:
0    False
1     True
2     True
dtype: bool
```
Ensuite, nous pouvons voir les entrées qui ont changé:
```
In [23]: ne_stacked = (df1 != df2).stack()

In [24]: changed = ne_stacked[ne_stacked]

In [25]: changed.index.names = ['id', 'col']

In [26]: changed
Out[26]:
id  col
1   score         True
2   isEnrolled    True
    Comment       True
dtype: bool
```
Ici la première entrée est l'index et le deuxième les colonnes qui a été changé.
```
In [27]: difference_locations = np.where(df1 != df2)

In [28]: changed_from = df1.values[difference_locations]

In [29]: changed_to = df2.values[difference_locations]

In [30]: pd.DataFrame({'from': changed_from, 'to': changed_to}, index=changed.index)
Out[30]:
               from           to
id col
1  score       1.11         1.21
2  isEnrolled  True        False
   Comment     None  On vacation
```
* Remarque: il est important que df1 et df2 partagent le même indice ici. Pour surmonter cette ambiguïté, vous pouvez vous assurer que vous regardez seulement l'partagé des étiquettes à l'aide de df1.index & df2.index, mais je pense que je vais laisser ça comme un exercice.
- Je crois que "partagent le même indice" moyen ", assurez-vous que l'index est trié"...cela permettra de comparer ce qui est premier dans df1 à ce qui est premier dans df2, indépendamment de la valeur de l'indice. JFYI dans le cas où je ne suis pas la seule personne pour qui ce n'était pas évident. ;D Merci!
- Si le score est égal à nan dans les deux df1 et df1, cette fonction indique avoir changé de nan à nan. C'est parce que np.nan != np.nan retourne True.
- est droit. Aussi, si les valeurs comparées sont None, vous obtiendrez de fausses différences il y a trop
- Juste pour être clair - je illustrer le problème avec cette solution et de fournir un outil facile à utiliser la fonction qui résout le problème below
- ['ligne', 'col'] est préférable que ['id','col'] as changé.index.les noms, parce que ce n'est pas id, mais les lignes.
InformationsquelleAutor Andy Hayden
74

Mettant en relief la différence entre les deux DataFrames

Il est possible d'utiliser le DataFrame propriété de style pour mettre en surbrillance la couleur de fond des cellules où il y a une différence.

À l'aide de l'exemple de données à partir de la question d'origine

La première étape consiste à concaténer les DataFrames horizontalement avec le concat de la fonction et de la distinguer de chaque image avec la keys paramètre:
```
df_all = pd.concat([df.set_index('id'), df2.set_index('id')], 
                   axis='columns', keys=['First', 'Second'])
df_all
```
Il est probablement plus facile pour échanger de la colonne et de mettre les mêmes noms de colonnes à côté les uns des autres:
```
df_final = df_all.swaplevel(axis='columns')[df.columns[1:]]
df_final
```
Maintenant, son beaucoup plus facile de repérer les différences dans les images. Mais, on peut aller plus loin et d'utiliser le style propriété pour mettre en surbrillance les cellules qui sont différents. Nous définissons une fonction personnalisée pour ce faire vous pouvez le voir dans cette partie de la documentation.
```
def highlight_diff(data, color='yellow'):
    attr = 'background-color: {}'.format(color)
    other = data.xs('First', axis='columns', level=-1)
    return pd.DataFrame(np.where(data.ne(other, level=0), attr, ''),
                        index=data.index, columns=data.columns)

df_final.style.apply(highlight_diff, axis=None)
```
Cela permettra de mettre en surbrillance les cellules que les deux ont des valeurs manquantes. Vous pouvez les remplir ou de fournir de la logique supplémentaire, de sorte qu'ils n'ont pas mis en évidence.
- Savez-vous si il est possible de la couleur à la fois "Premier" et "Second" dans des couleurs différentes?
- Est-il possible de ne sélectionner que des lignes différentes? Dans ce cas, comment puis-je sélectionner la deuxième et la troisième ligne sans sélectionner la première ligne (111)?
- oui, il suffit de modifier la méthode finale de df_final[(df != df2).any(1)].style.apply(highlight_diff, axis=None)
- Cette application prend plus de temps lorsque l'on compare les dataframes avec 26K lignes et 400 colonnes. Est-il possible de l'accélérer?
InformationsquelleAutor Ted Petrou

Cette réponse étend simplement @Andy Hayden, de faire de la résistance à quand les champs numériques sont nan, et de l'emballer dans une fonction.

import pandas as pd
import numpy as np


def diff_pd(df1, df2):
    """Identify differences between two pandas DataFrames"""
    assert (df1.columns == df2.columns).all(), \
        "DataFrame column names are different"
    if any(df1.dtypes != df2.dtypes):
        "Data Types are different, trying to convert"
        df2 = df2.astype(df1.dtypes)
    if df1.equals(df2):
        return None
    else:
        # need to account for np.nan != np.nan returning True
        diff_mask = (df1 != df2) & ~(df1.isnull() & df2.isnull())
        ne_stacked = diff_mask.stack()
        changed = ne_stacked[ne_stacked]
        changed.index.names = ['id', 'col']
        difference_locations = np.where(diff_mask)
        changed_from = df1.values[difference_locations]
        changed_to = df2.values[difference_locations]
        return pd.DataFrame({'from': changed_from, 'to': changed_to},
                            index=changed.index)

Donc avec vos données (légèrement modifié pour avoir un NaN dans le score de la colonne):

import sys
if sys.version_info[0] < 3:
    from StringIO import StringIO
else:
    from io import StringIO

DF1 = StringIO("""id   Name   score                    isEnrolled           Comment
111  Jack   2.17                     True                 "He was late to class"
112  Nick   1.11                     False                "Graduated"
113  Zoe    NaN                     True                  " "
""")
DF2 = StringIO("""id   Name   score                    isEnrolled           Comment
111  Jack   2.17                     True                 "He was late to class"
112  Nick   1.21                     False                "Graduated"
113  Zoe    NaN                     False                "On vacation" """)
df1 = pd.read_table(DF1, sep='\s+', index_col='id')
df2 = pd.read_table(DF2, sep='\s+', index_col='id')
diff_pd(df1, df2)

De sortie:

                from           to
id  col                          
112 score       1.11         1.21
113 isEnrolled  True        False
    Comment           On vacation

J'ai ajouté le code pour prendre soin de légères différences dans le type de données, ce qui permettrait de jeter une erreur, si vous n'avez pas de compte pour elle.
Cheers @RoobieNuby - ressemble beaucoup
Que faire si je n'ai pas identiques des lignes de chaque côté pour les comparer?
ensuite, on devrait même les lignes d'abord, par la détection de lignes ajoutées à la nouvelle dataframe, et a supprimé les lignes de l'ancien dataframe

InformationsquelleAutor James Owers

import pandas as pd
import io

texts = ['''\
id   Name   score                    isEnrolled                        Comment
111  Jack   2.17                     True                 He was late to class
112  Nick   1.11                     False                           Graduated
113  Zoe    4.12                     True       ''',

         '''\
id   Name   score                    isEnrolled                        Comment
111  Jack   2.17                     True                 He was late to class
112  Nick   1.21                     False                           Graduated
113  Zoe    4.12                     False                         On vacation''']


df1 = pd.read_fwf(io.BytesIO(texts[0]), widths=[5,7,25,21,20])
df2 = pd.read_fwf(io.BytesIO(texts[1]), widths=[5,7,25,21,20])
df = pd.concat([df1,df2]) 

print(df)
#     id  Name  score isEnrolled               Comment
# 0  111  Jack   2.17       True  He was late to class
# 1  112  Nick   1.11      False             Graduated
# 2  113   Zoe   4.12       True                   NaN
# 0  111  Jack   2.17       True  He was late to class
# 1  112  Nick   1.21      False             Graduated
# 2  113   Zoe   4.12      False           On vacation

df.set_index(['id', 'Name'], inplace=True)
print(df)
#           score isEnrolled               Comment
# id  Name                                        
# 111 Jack   2.17       True  He was late to class
# 112 Nick   1.11      False             Graduated
# 113 Zoe    4.12       True                   NaN
# 111 Jack   2.17       True  He was late to class
# 112 Nick   1.21      False             Graduated
# 113 Zoe    4.12      False           On vacation

def report_diff(x):
    return x[0] if x[0] == x[1] else '{} | {}'.format(*x)

changes = df.groupby(level=['id', 'Name']).agg(report_diff)
print(changes)

imprime

                score    isEnrolled               Comment
id  Name                                                 
111 Jack         2.17          True  He was late to class
112 Nick  1.11 | 1.21         False             Graduated
113 Zoe          4.12  True | False     nan | On vacation

Très belle solution, beaucoup plus compact que le mien!
Je ne suis pas entièrement à l'aise avec cette solution; il semble que cela fonctionne uniquement lorsque l'index est un index multi-niveaux. Si j'ai essayer en utilisant seulement id comme l'index, puis df.groupby(level='id') génère une erreur, et je ne sais pas pourquoi...
Ce doit être la accepté de répondre, très élégant et résout exactement ce que veut l'utilisateur. 🙂

InformationsquelleAutor unutbu

J'ai été confronté à ce problème, mais a trouvé une réponse avant de trouver ce poste :

Basé sur unutbu réponse, charger vos données...

import pandas as pd
import io

texts = ['''\
id   Name   score                    isEnrolled                       Date
111  Jack                            True              2013-05-01 12:00:00
112  Nick   1.11                     False             2013-05-12 15:05:23
     Zoe    4.12                     True                                  ''',

         '''\
id   Name   score                    isEnrolled                       Date
111  Jack   2.17                     True              2013-05-01 12:00:00
112  Nick   1.21                     False                                
     Zoe    4.12                     False             2013-05-01 12:00:00''']


df1 = pd.read_fwf(io.BytesIO(texts[0]), widths=[5,7,25,17,20], parse_dates=[4])
df2 = pd.read_fwf(io.BytesIO(texts[1]), widths=[5,7,25,17,20], parse_dates=[4])

...définir votre diff fonction...

def report_diff(x):
    return x[0] if x[0] == x[1] else '{} | {}'.format(*x)

Alors il suffit d'utiliser un Panneau de conclure :

my_panel = pd.Panel(dict(df1=df1,df2=df2))
print my_panel.apply(report_diff, axis=0)

#          id  Name        score    isEnrolled                       Date
#0        111  Jack   nan | 2.17          True        2013-05-01 12:00:00
#1        112  Nick  1.11 | 1.21         False  2013-05-12 15:05:23 | NaT
#2  nan | nan   Zoe         4.12  True | False  NaT | 2013-05-01 12:00:00

Par ailleurs, si vous êtes dans IPython Notebook, vous pouvez utiliser une couleur diff fonction
pour donner des couleurs en fonction de savoir si les cellules sont différents, égal ou gauche/droite null :

from IPython.display import HTML
pd.options.display.max_colwidth = 500  # You need this, otherwise pandas
#                          will limit your HTML strings to 50 characters

def report_diff(x):
    if x[0]==x[1]:
        return unicode(x[0].__str__())
    elif pd.isnull(x[0]) and pd.isnull(x[1]):
        return u'<table style="background-color:#00ff00;font-weight:bold;">'+\
            '<tr><td>%s</td></tr><tr><td>%s</td></tr></table>' % ('nan', 'nan')
    elif pd.isnull(x[0]) and ~pd.isnull(x[1]):
        return u'<table style="background-color:#ffff00;font-weight:bold;">'+\
            '<tr><td>%s</td></tr><tr><td>%s</td></tr></table>' % ('nan', x[1])
    elif ~pd.isnull(x[0]) and pd.isnull(x[1]):
        return u'<table style="background-color:#0000ff;font-weight:bold;">'+\
            '<tr><td>%s</td></tr><tr><td>%s</td></tr></table>' % (x[0],'nan')
    else:
        return u'<table style="background-color:#ff0000;font-weight:bold;">'+\
            '<tr><td>%s</td></tr><tr><td>%s</td></tr></table>' % (x[0], x[1])

HTML(my_panel.apply(report_diff, axis=0).to_html(escape=False))

(Régulièrement en Python, pas iPython notebook) est-il possible d'inclure my_panel = pd.Panel(dict(df1=df1,df2=df2)) l'intérieur de la fonction report_diff()? Je veux dire, est-il possible de faire cela: print report_diff(df1,df2) et obtenir le même résultat que votre rapport d'impression?
pd.Panel(dict(df1=df1,df2=df2)).apply(report_diff, axis=0) - c'est génial!!!
Les panneaux sont obsolètes! Une idée de comment ce port?
J'ai pris une balançoire à mettre à jour dans ma réponse: stackoverflow.com/a/49038417/7607701

InformationsquelleAutor journois

8

Si vos deux dataframes ont le même id dans les, puis trouver ce qui a changé, c'est en fait assez facile. Juste faire frame1 != frame2 vous donnera un booléen DataFrame où chaque True est les données qui ont changé. De cela, vous pourriez facilement obtenir l'index de chaque ligne modifiée en faisant changedids = frame1.index[np.any(frame1 != frame2,axis=1)].

InformationsquelleAutor cge

Une approche différente à l'aide de concat et drop_duplicates:

import sys
if sys.version_info[0] < 3:
    from StringIO import StringIO
else:
    from io import StringIO
import pandas as pd

DF1 = StringIO("""id   Name   score                    isEnrolled           Comment
111  Jack   2.17                     True                 "He was late to class"
112  Nick   1.11                     False                "Graduated"
113  Zoe    NaN                     True                  " "
""")
DF2 = StringIO("""id   Name   score                    isEnrolled           Comment
111  Jack   2.17                     True                 "He was late to class"
112  Nick   1.21                     False                "Graduated"
113  Zoe    NaN                     False                "On vacation" """)

df1 = pd.read_table(DF1, sep='\s+', index_col='id')
df2 = pd.read_table(DF2, sep='\s+', index_col='id')
#%%
dictionary = {1:df1,2:df2}
df=pd.concat(dictionary)
df.drop_duplicates(keep=False)

De sortie:

       Name  score isEnrolled      Comment
  id                                      
1 112  Nick   1.11      False    Graduated
  113   Zoe    NaN       True             
2 112  Nick   1.21      False    Graduated
  113   Zoe    NaN      False  On vacation

InformationsquelleAutor jur

L'extension de réponse de @cge, ce qui est plutôt cool pour plus de lisibilité du résultat:

a[a != b][np.any(a != b, axis=1)].join(DataFrame('a<->b', index=a.index, columns=['a<=>b'])).join(
        b[a != b][np.any(a != b, axis=1)]
        ,rsuffix='_b', how='outer'
).fillna('')

Démonstration complète exemple:

a = DataFrame(np.random.randn(7,3), columns=list('ABC'))
b = a.copy()
b.iloc[0,2] = np.nan
b.iloc[1,0] = 7
b.iloc[3,1] = 77
b.iloc[4,2] = 777

a[a != b][np.any(a != b, axis=1)].join(DataFrame('a<->b', index=a.index, columns=['a<=>b'])).join(
        b[a != b][np.any(a != b, axis=1)]
        ,rsuffix='_b', how='outer'
).fillna('')

InformationsquelleAutor Hubbitus

Après de bidouiller avec @journois réponse, j'ai été capable de le faire fonctionner à l'aide de MultiIndex au lieu de Panel, en raison de Panneau de deprication.

Tout d'abord, la création de certaines des données factices:

df1 = pd.DataFrame({
    'id': ['111', '222', '333', '444', '555'],
    'let': ['a', 'b', 'c', 'd', 'e'],
    'num': ['1', '2', '3', '4', '5']
})
df2 = pd.DataFrame({
    'id': ['111', '222', '333', '444', '666'],
    'let': ['a', 'b', 'c', 'D', 'f'],
    'num': ['1', '2', 'Three', '4', '6'],
})

Ensuite, définir votre diff fonction, dans ce cas, je vais utiliser celui de sa réponse report_diff reste le même:

def report_diff(x):
    return x[0] if x[0] == x[1] else '{} | {}'.format(*x)

Ensuite, je vais à concaténer les données dans un MultiIndex dataframe:

df_all = pd.concat(
    [df1.set_index('id'), df2.set_index('id')], 
    axis='columns', 
    keys=['df1', 'df2'],
    join='outer'
)
df_all = df_all.swaplevel(axis='columns')[df1.columns[1:]]

Et enfin, je vais appliquer la report_diff en bas de chaque groupe de colonnes:

df_final.groupby(level=0, axis=1).apply(lambda frame: frame.apply(report_diff, axis=1))

Ce sorties:

         let        num
111        a          1
222        b          2
333        c  3 | Three
444    d | D          4
555  e | nan    5 | nan
666  nan | f    nan | 6

Et c'est tout!

InformationsquelleAutor Aaron N. Brock

Voici une autre manière à l'aide de sélectionner et de fusion:

In [6]: # first lets create some dummy dataframes with some column(s) different
...: df1 = pd.DataFrame({'a': range(-5,0), 'b': range(10,15), 'c': range(20,25)})
...: df2 = pd.DataFrame({'a': range(-5,0), 'b': range(10,15), 'c': [20] + list(range(101,105))})
In [7]: df1
Out[7]:
a   b   c
0 -5  10  20
1 -4  11  21
2 -3  12  22
3 -2  13  23
4 -1  14  24
In [8]: df2
Out[8]:
a   b    c
0 -5  10   20
1 -4  11  101
2 -3  12  102
3 -2  13  103
4 -1  14  104
In [10]: # make condition over the columns you want to comapre
...: condition = df1['c'] != df2['c']
...:
...: # select rows from each dataframe where the condition holds
...: diff1 = df1[condition]
...: diff2 = df2[condition]
In [11]: # merge the selected rows (dataframes) with some suffixes (optional)
...: diff1.merge(diff2, on=['a','b'], suffixes=('_before', '_after'))
Out[11]:
a   b  c_before  c_after
0 -4  11        21      101
1 -3  12        22      102
2 -2  13        23      103
3 -1  14        24      104

Ici est la même chose à partir d'une Jupyter capture d'écran:

La sortie de différence dans les deux Pandas dataframes à côté de mise en évidence de la différence

InformationsquelleAutor Aziz Alto

Une fonction qui trouve asymétrique de la différence entre deux trames de données est mis en œuvre ci-dessous:
(Basé sur différence pour les pandas)
RÉSUMÉ: https://gist.github.com/oneryalcin/68cf25f536a25e65f0b3c84f9c118e03

def diff_df(df1, df2, how="left"):
"""
Find Difference of rows for given two dataframes
this function is not symmetric, means
diff(x, y) != diff(y, x)
however
diff(x, y, how='left') == diff(y, x, how='right')
Ref: https://stackoverflow.com/questions/18180763/set-difference-for-pandas/40209800#40209800
"""
if (df1.columns != df2.columns).any():
raise ValueError("Two dataframe columns must match")
if df1.equals(df2):
return None
elif how == 'right':
return pd.concat([df2, df1, df1]).drop_duplicates(keep=False)
elif how == 'left':
return pd.concat([df1, df2, df2]).drop_duplicates(keep=False)
else:
raise ValueError('how parameter supports only "left" or "right keywords"')

Exemple:

df1 = pd.DataFrame(d1)
Out[1]: 
Comment  Name  isEnrolled  score
0  He was late to class  Jack        True   2.17
1             Graduated  Nick       False   1.11
2                         Zoe        True   4.12
df2 = pd.DataFrame(d2)
Out[2]: 
Comment  Name  isEnrolled  score
0  He was late to class  Jack        True   2.17
1           On vacation   Zoe        True   4.12
diff_df(df1, df2)
Out[3]: 
Comment  Name  isEnrolled  score
1  Graduated  Nick       False   1.11
2              Zoe        True   4.12
diff_df(df2, df1)
Out[4]: 
Comment Name  isEnrolled  score
1  On vacation  Zoe        True   4.12
# This gives the same result as above
diff_df(df1, df2, how='right')
Out[22]: 
Comment Name  isEnrolled  score
1  On vacation  Zoe        True   4.12

InformationsquelleAutor Mehmet Öner Yalçın

Vous devez vous connecter pour publier un commentaire.

Mettant en relief la différence entre les deux DataFrames