Sélectionnez les colonnes dans Pyspark Dataframe

Je suis à la recherche d'un moyen de sélectionner les colonnes de mon dataframe dans pyspark. Pour la première ligne, je sais que je peux utiliser df.first() mais vous ne savez pas sur les colonnes étant donné qu'ils font ont pas de noms de colonne.

J'ai 5 colonnes et souhaitez faire une boucle par le biais de chacun d'eux.

+--+---+---+---+---+---+---+
|_1| _2| _3| _4| _5| _6| _7|
+--+---+---+---+---+---+---+
|1 |0.0|0.0|0.0|1.0|0.0|0.0|
|2 |1.0|0.0|0.0|0.0|0.0|0.0|
|3 |0.0|0.0|1.0|0.0|0.0|0.0|

que voulez-vous dire "ils n'ont pas de noms de colonne"? Veuillez nous faire part de la sortie de df.show().
édité mon post. Je vois maintenant comment je pourrais le faire mais je suis encore un peu confus sur une boucle dans chaque colonne.

InformationsquelleAutor Nivi | 2017-10-18

31

Essayer quelque chose comme cela:
```
df.select([c for c in df.columns if c in ['_2','_4','_5']]).show()
```
- Je ne veux pas coder en dur parce que j'aurais à le faire pour des centaines de colonnes. Je tiens donc à boucle à travers les colonnes d'en faire une analyse.
- j'ai mis à jour ma réponse est que ce que vous voulez?
- Ah! c'est un droit à ta façon que j'ai utilisé pendant si longtemps. Je suis juste allé vide maintenant. MAx Merci 🙂
- df.sélectionnez('_2','_4','_5').show()
- href="https://stackoverflow.com/posts/46813599/revisions">stackoverflow.com/posts/46813599/revisions 😉 reason
- cela m'a aidé.
InformationsquelleAutor MaxU
17

Deux premières colonnes et 5 lignes
```
 df.select(df.columns[:2]).take(5)
```
InformationsquelleAutor Michael West

Utilisation df.schema.names:

spark.version
# u'2.2.0'

df = spark.createDataFrame([("foo", 1), ("bar", 2)])
df.show()
# +---+---+ 
# | _1| _2|
# +---+---+
# |foo|  1| 
# |bar|  2|
# +---+---+

df.schema.names
# ['_1', '_2']

for i in df.schema.names:
  # df_new = df.withColumn(i, [do-something])
  print i
# _1
# _2

InformationsquelleAutor desertnaut

La base de données dans ss.csv contient certaines colonnes je suis intéressé par:

ss_ = spark.read.csv("ss.csv", header= True, 
                      inferSchema = True)
ss_.columns

['Reporting Area', 'MMWR Year', 'MMWR Week', 'Salmonellosis (excluding Paratyphoid fever andTyphoid fever)†, Current week', 'Salmonellosis (excluding Paratyphoid fever andTyphoid fever)†, Current week, flag', 'Salmonellosis (excluding Paratyphoid fever andTyphoid fever)†, Previous 52 weeks Med', 'Salmonellosis (excluding Paratyphoid fever andTyphoid fever)†, Previous 52 weeks Med, flag', 'Salmonellosis (excluding Paratyphoid fever andTyphoid fever)†, Previous 52 weeks Max', 'Salmonellosis (excluding Paratyphoid fever andTyphoid fever)†, Previous 52 weeks Max, flag', 'Salmonellosis (excluding Paratyphoid fever andTyphoid fever)†, Cum 2018', 'Salmonellosis (excluding Paratyphoid fever andTyphoid fever)†, Cum 2018, flag', 'Salmonellosis (excluding Paratyphoid fever andTyphoid fever)†, Cum 2017', 'Salmonellosis (excluding Paratyphoid fever andTyphoid fever)†, Cum 2017, flag', 'Shiga toxin-producing Escherichia coli, Current week', 'Shiga toxin-producing Escherichia coli, Current week, flag', 'Shiga toxin-producing Escherichia coli, Previous 52 weeks Med', 'Shiga toxin-producing Escherichia coli, Previous 52 weeks Med, flag', 'Shiga toxin-producing Escherichia coli, Previous 52 weeks Max', 'Shiga toxin-producing Escherichia coli, Previous 52 weeks Max, flag', 'Shiga toxin-producing Escherichia coli, Cum 2018', 'Shiga toxin-producing Escherichia coli, Cum 2018, flag', 'Shiga toxin-producing Escherichia coli, Cum 2017', 'Shiga toxin-producing Escherichia coli, Cum 2017, flag', 'Shigellosis, Current week', 'Shigellosis, Current week, flag', 'Shigellosis, Previous 52 weeks Med', 'Shigellosis, Previous 52 weeks Med, flag', 'Shigellosis, Previous 52 weeks Max', 'Shigellosis, Previous 52 weeks Max, flag', 'Shigellosis, Cum 2018', 'Shigellosis, Cum 2018, flag', 'Shigellosis, Cum 2017', 'Shigellosis, Cum 2017, flag']

mais j'ai seulement besoin d'un peu d':

columns_lambda = lambda k: k.endswith(', Current week') or k == 'Reporting Area' or k == 'MMWR Year' or  k == 'MMWR Week'

Le filtre renvoie la liste de colonnes, la liste est évaluée:

sss = filter(columns_lambda, ss_.columns)
to_keep = list(sss)

la liste de colonnes désirées est déballé comme arguments pour dataframe sélectionner la fonction qui retourne un dataset contenant que des colonnes de la liste:

dfss = ss_.select(*to_keep)
dfss.columns

Le résultat:

['Reporting Area',
 'MMWR Year',
 'MMWR Week',
 'Salmonellosis (excluding Paratyphoid fever andTyphoid fever)†, Current week',
 'Shiga toxin-producing Escherichia coli, Current week',
 'Shigellosis, Current week']

La df.select() a une paire complémentaire: http://spark.apache.org/docs/2.4.1/api/python/pyspark.sql.html#pyspark.sql.DataFrame.drop

pour supprimer la liste de colonnes.

InformationsquelleAutor borodark

2

Vous pouvez utiliser un tableau et de les placer à l'intérieur de la sélectionner:
```
cols = ['_2','_4','_5']
df.select(*cols).show()
```
InformationsquelleAutor Shadowtrooper
0

Tout d'abord, votre schéma est créé par erreur lors de l'importation à partir de MySQL ou autre base de données.
vous pouvez utiliser le dictionnaire curseur pour modifier
```
cursor = conn.cursor(MySQLdb.cursors.DictCursor)
```
InformationsquelleAutor Shekhar Koirala

Vous devez vous connecter pour publier un commentaire.