Comment exclure plusieurs colonnes dans Spark dataframe en Python

J'ai trouvé PySpark a une méthode appelée drop mais il semble qu'il ne peut déposer une colonne à la fois. Toutes les idées sur la façon de déposer plusieurs colonnes en même temps?

df.drop(['col1','col2'])

TypeError                                 Traceback (most recent call last)
<ipython-input-96-653b0465e457> in <module>()
----> 1 selectedMachineView = machineView.drop([['GpuName','GPU1_TwoPartHwID']])

/usr/hdp/current/spark-client/python/pyspark/sql/dataframe.pyc in drop(self, col)
   1257             jdf = self._jdf.drop(col._jc)
   1258         else:
-> 1259             raise TypeError("col should be a string or a Column")
   1260         return DataFrame(jdf, self.sql_ctx)
   1261 

TypeError: col should be a string or a Column

source d'informationauteur MYjx

35

Simplement avec select:
```
df.select([c for c in df.columns if c not in {'GpuName','GPU1_TwoPartHwID'}])
```
ou si vous voulez vraiment utiliser drop puis reduce devrait faire l'affaire:
```
from functools import reduce
from pyspark.sql import DataFrame

reduce(DataFrame.drop, ['GpuName','GPU1_TwoPartHwID'], df)
```
Note:

(différence de temps d'exécution):

Il devrait y avoir aucune différence quand il s'agit de données de temps de traitement. Bien que ces méthodes de générer des logiques différents plans plans physiques sont exactement les mêmes.

Il y a une différence toutefois, lorsque nous analysons côté conducteur code:
- la première méthode ne fait qu'une seule JVM appel, tandis que la seconde est à l'appel de la JVM pour chaque colonne doit être exclu
- la première méthode génère un plan logique qui est équivalent au plan physique. Dans le second cas, il est réécrit.
- enfin compréhensions sont nettement plus vite en Python que des méthodes comme map ou reduce
- Spark 2.x+ prend en charge plusieurs colonnes dans drop. Voir SPARK-11884 (Chute de plusieurs colonnes dans le DataFrame API) et SPARK-12204 (mettre en Œuvre méthode de la goutte pour DataFrame dans SparkR) pour plus d'informations.
18

Dans PySpark 2.1.0 méthode drop prend en charge plusieurs colonnes:

PySpark 2.0.2:
```
DataFrame.drop(col)
```
PySpark 2.1.0:
```
DataFrame.drop(*cols)
```
Exemple:
```
df.drop('col1', 'col2')
```

Vous devez vous connecter pour publier un commentaire.