pyspark joindre plusieurs conditions

Je veux vous demander si vous avez la moindre idée sur comment je peux préciser beaucoup de conditions
pyspark lorsque j'utilise .join()

Exemple :
avec la ruche :

query= "select a.NUMCNT,b.NUMCNT as RNUMCNT ,a.POLE,b.POLE as RPOLE,a.ACTIVITE,b.ACTIVITE as RACTIVITE FROM rapexp201412 b \
    join rapexp201412 a where (a.NUMCNT=b.NUMCNT and a.ACTIVITE = b.ACTIVITE and a.POLE =b.POLE  )\

Mais dans pyspark je ne sais pas comment le faire, car les suivantes:

df_rapexp201412.join(df_aeveh,df_rapexp2014.ACTIVITE==df_rapexp2014.ACTIVITE and df_rapexp2014.POLE==df_aeveh.POLE,'inner')

ne fonctionne pas!!

  • pourriez-vous svp coller le message d'erreur pour DataFrame.rejoindre? ou essayez d'utiliser le keyBy/join en RDD, il en charge l'équi-jointure condition très bien.
  • Utiliser & entre les deux, et assurez-vous de mettre chaque condition en ()
  • Double Possible de Comment rejoindre sur plusieurs colonnes dans Pyspark?
InformationsquelleAutor malouke | 2015-12-02