Comment comparer deux dataframe et imprimer les colonnes qui sont différents en scala

Nous avons deux trames de données ici:

attendus dataframe:

+------+---------+--------+----------+-------+--------+
|emp_id| emp_city|emp_name| emp_phone|emp_sal|emp_site|
+------+---------+--------+----------+-------+--------+
|     3|  Chennai|  rahman|9848022330|  45000|SanRamon|
|     1|Hyderabad|     ram|9848022338|  50000|      SF|
|     2|Hyderabad|   robin|9848022339|  40000|      LA|
|     4|  sanjose|   romin|9848022331|  45123|SanRamon|
+------+---------+--------+----------+-------+--------+

et les données réelles cadre:

+------+---------+--------+----------+-------+--------+
|emp_id| emp_city|emp_name| emp_phone|emp_sal|emp_site|
+------+---------+--------+----------+-------+--------+
|     3|  Chennai|  rahman|9848022330|  45000|SanRamon|
|     1|Hyderabad|     ram|9848022338|  50000|      SF|
|     2|Hyderabad|   robin|9848022339|  40000|      LA|
|     4|  sanjose|  romino|9848022331|  45123|SanRamon|
+------+---------+--------+----------+-------+--------+

la différence entre les deux dataframes est maintenant:

+------+--------+--------+----------+-------+--------+
|emp_id|emp_city|emp_name| emp_phone|emp_sal|emp_site|
+------+--------+--------+----------+-------+--------+
|     4| sanjose|  romino|9848022331|  45123|SanRamon|
+------+--------+--------+----------+-------+--------+

Nous utilisons l'exception de la fonction de df1.à l'exception de(df2), mais le problème est, il retourne l'ensemble de lignes qui sont différents. Ce que nous voulons, c'est de voir que les colonnes qui sont différentes à l'intérieur de cette ligne (dans ce cas, "romin" et "romino" à partir de "emp_name" sont différents). Nous avons eu beaucoup de difficultés avec elle et toute aide serait super.

  • Jointure interne et de garder les deux emp_name et supprimer toutes les lignes où les deux sont les mêmes.
  • Pouvez-vous faire des hypothèses sur les données? par exemple, pouvez-vous supposer emp_id est-il unique? ou encore mieux, doit être la même et que la validation de ses données est-elle pertinente? sinon, pourquoi est-ce une ligne différente dans emp_name et pas complètement différents l'un de l'autre emp_id
  • Question similaire, stackoverflow.com/questions/44807450/...
InformationsquelleAutor rominoushana | 2017-06-02