Comment lire Avro fichier dans PySpark

Je suis en train d'écrire une étincelle de travail à l'aide de python. Cependant, j'ai besoin de lire dans un tas de avro fichiers.

Cette est le plus proche de la solution que j'ai trouvé dans la Spark exemple de dossier. Cependant, vous devez soumettre ce script python à l'aide de l'étincelle-soumettre. Dans la ligne de commande des bougies de soumettre, vous pouvez spécifier le pilote de la classe, dans ce cas, tous vos avrokey, avrovalue classe sera situé.

avro_rdd = sc.newAPIHadoopFile(
        path,
        "org.apache.avro.mapreduce.AvroKeyInputFormat",
        "org.apache.avro.mapred.AvroKey",
        "org.apache.hadoop.io.NullWritable",
        keyConverter="org.apache.spark.examples.pythonconverters.AvroWrapperToJavaConverter",
        conf=conf)

Dans mon cas, j'ai besoin de tout faire dans le script Python, j'ai essayé de créer une variable d'environnement pour inclure le fichier jar, doigt de la croix-Python ajouter le bocal pour le chemin d'accès, mais clairement, il n'est pas, il me donne de l'inattendu, de la classe d'erreur.

os.environ['SPARK_SUBMIT_CLASSPATH'] = "/opt/cloudera/parcels/CDH-5.1.0-1.cdh5.1.0.p0.53/lib/spark/examples/lib/spark-examples_2.10-1.0.0-cdh5.1.0.jar"

Quelqu'un peut m'aider comment faire pour lire avro fichier dans un script python?

OriginalL'auteur B.Mr.W. | 2015-04-20