Ajout d'une nouvelle colonne dans la Trame de Données calculées à partir d'autres colonnes (Spark)

Je suis en utilisant Étincelle 1.3.0 et Python. J'ai un dataframe, et je tiens à ajouter une colonne supplémentaire qui est dérivée à partir d'autres colonnes. Comme ça,

>>old_df.columns
[col_1, col_2, ..., col_m]

>>new_df.columns
[col_1, col_2, ..., col_m, col_n]

col_n = col_3 - col_4

Comment puis-je faire dans PySpark?

OriginalL'auteur menorah84 | 2015-07-10