Comment affecter et utiliser les en-têtes de colonne dans l'Étincelle?

Je suis de la lecture d'un jeu de données comme ci-dessous.

 f = sc.textFile("s3://test/abc.csv")

Mon fichier contient 50+ champs et je veux assigner des en-têtes de colonne pour chacun des champs de référence plus tard dans mon script.

Comment dois-je faire dans PySpark ? Est DataFrame de chemin à faire ici ?

PS - Débutant à l'Étincelle.

Est DataFrame de chemin à faire ici ? - oui, il est. Ou namedtuple si vous prévoyez d'utiliser un lot de la plaine du code Python.
DataFrame est une combinaison de schémas et de rdd. Maintenant la variable "f" dans votre code est un rdd. Donc, si vous ajoutez schéma, vous obtiendrez DataFrame. Alors il va falloir les en-têtes et les noms de colonne. De plus, le post que vous pouvez enregistrer ces données dans le tableau et n'SQL sur le dessus de cela.

OriginalL'auteur GoldenPlatinum | 2016-04-13

Ici est de savoir comment ajouter des noms de colonne à l'aide de DataFrame:

Assumer votre csv est le délimiteur ','. Préparer les données comme suit avant de le transférer à DataFrame:

f = sc.textFile("s3://test/abc.csv")
data_rdd = f.map(lambda line: [x for x in line.split(',')])

Supposons que les données a 3 colonnes:

data_rdd.take(1)
[[u'1.2', u'red', u'55.6']]

Maintenant, vous pouvez spécifier les noms de colonne lors du transfert de cette RDD à DataFrame à l'aide de toDF():

df_withcol = data_rdd.toDF(['height','color','width'])

df_withcol.printSchema()

    root
     |-- height: string (nullable = true)
     |-- color: string (nullable = true)
     |-- width: string (nullable = true)

Si vous ne spécifiez pas de nom de colonne, vous obtenez un DataFrame avec des noms de colonne par défaut '_1', '_2', ...:

df_default = data_rdd.toDF()

df_default.printSchema()

    root
     |-- _1: string (nullable = true)
     |-- _2: string (nullable = true)
     |-- _3: string (nullable = true)

OriginalL'auteur Ida

4

La solution de cette question dépend vraiment de la version de Spark vous êtes en cours d'exécution. En supposant que vous êtes sur la Spark 2.0+, alors vous pouvez lire le fichier CSV dans un DataFrame et ajouter des colonnes avec toDF ce qui est bon pour la transformation d'un CA d'un DataFrame OU d'ajouter des colonnes à une trame de données.
```
filename = "/path/to/file.csv"
df = spark.read.csv(filename).toDF("col1","col2","col3")
```
OriginalL'auteur BushMinusZero

f = sc.textFile("s3://test/abc.csv") <br />
header = f.first()

header will give you as below:-<br />
u'col1,col2,col3'  --> for example taking 3 columns name

head = str(header).split(",") <br />
head will give you a list<br/>
['col1','col2','col3']

fDF = f.filter(lambda row: row!=header).map(lambda x: str(x).split(",")).toDF(head)<br/>
fdF.show() <br/>

vous donnera en-tête ainsi que les données dans dataframe que nécessaire.

OriginalL'auteur Vinod Kumar

Vous devez vous connecter pour publier un commentaire.