DataFrame de l'égalité dans Apache Spark

Assumer df1 et df2 sont deux DataFrames dans Apache Spark, calculée à l'aide de deux mécanismes différents, par exemple, la Spark SQL vs la Scala/Java/Python API.

Est-il un idiomatiques façon de déterminer si les deux trames de données sont équivalentes (égalité, isomorphe), où l'équivalence est déterminée par les données (noms de colonnes et les valeurs de colonne pour chaque ligne) étant identiques sauf pour la commande de lignes & colonnes?

La motivation de la question est qu'il y a souvent de nombreuses façons de calculer certaines données big data suite, chacune avec son propre compromis. Comme on explore ces échanges, il est important de maintenir l'exactitude et donc la nécessité de vérifier l'équivalence pour l'égalité sur un test significatif de l'ensemble de données.

OriginalL'auteur Sim | 2015-07-03