À l'aide de l'étincelle dataFrame pour charger des données à partir de HDFS
Peut-on utiliser DataFrame lors de la lecture de données à partir de HDFS.
J'ai un onglet séparé de données dans HDFS.
J'ai googlé, mais vu qu'il peut être utilisé avec des données NoSQL
OriginalL'auteur ToBeSparkShark | 2016-06-05
Vous devez vous connecter pour publier un commentaire.
DataFrame est certainement pas limité à des sources de données NoSQL. Parquet, ORC et de la prise en charge de JSON est nativement prévu de 1,4 à 1.6.1; texte délimité par des fichiers sont pris en charge à l'aide de la spark-cvs paquet.
Si vous avez votre fichier tsv dans HDFS /demo/données, puis le code suivant va lire le fichier dans un DataFrame
Pour exécuter le code de l'étincelle-shell, utilisez les éléments suivants:
Spark 2.0 csv est pris en charge nativement, donc vous devriez être en mesure de faire quelque chose comme ceci:
OriginalL'auteur Robin East
Si je suis bien comprendre, vous voulez lire des données à partir de la SF et que vous souhaitez que ces données soient automatiquement converties en un DataFrame.
Si c'est le cas, je vous recommande cette étincelle csv bibliothèque. Check this out, il a une très bonne documentation.
OriginalL'auteur dbustosp