Comment affecter et utiliser les en-têtes de colonne dans l'Étincelle?

Je suis de la lecture d'un jeu de données comme ci-dessous.

 f = sc.textFile("s3://test/abc.csv")

Mon fichier contient 50+ champs et je veux assigner des en-têtes de colonne pour chacun des champs de référence plus tard dans mon script.

Comment dois-je faire dans PySpark ? Est DataFrame de chemin à faire ici ?

PS - Débutant à l'Étincelle.

Est DataFrame de chemin à faire ici ? - oui, il est. Ou namedtuple si vous prévoyez d'utiliser un lot de la plaine du code Python.
DataFrame est une combinaison de schémas et de rdd. Maintenant la variable "f" dans votre code est un rdd. Donc, si vous ajoutez schéma, vous obtiendrez DataFrame. Alors il va falloir les en-têtes et les noms de colonne. De plus, le post que vous pouvez enregistrer ces données dans le tableau et n'SQL sur le dessus de cela.

OriginalL'auteur GoldenPlatinum | 2016-04-13