Comment utiliser Hadoop InputFormats Dans Apache Spark?
J'ai une classe ImageInputFormat
dans Hadoop qui lit les images de HDFS. Comment utiliser mon InputFormat Spark?
Voici mon ImageInputFormat
:
public class ImageInputFormat extends FileInputFormat<Text, ImageWritable> {
@Override
public ImageRecordReader createRecordReader(InputSplit split,
TaskAttemptContext context) throws IOException, InterruptedException {
return new ImageRecordReader();
}
@Override
protected boolean isSplitable(JobContext context, Path filename) {
return false;
}
}
OriginalL'auteur hequn8128 | 2014-01-09
Vous devez vous connecter pour publier un commentaire.
La SparkContext a une méthode appelée
hadoopFile
. Il accepte les classes qui implémentent l'interfaceorg.apache.hadoop.mapred.InputFormat
Sa description dit "Obtenir un EDR pour une Hadoop fichier avec un arbitraire InputFormat".
Également jeter un oeil à la L'Étincelle De La Documentation.
Désolé, je ne suis pas vraiment une Étincelle d'experts. J'espère que quelqu'un d'autre peut répondre.
OriginalL'auteur Robert Metzger
oui, tout ce qui sera enregistré dans la spark est comme rdds
De stockage par défaut au niveau de l'étincelle est (StorageLevel.MEMORY_ONLY) ,l'utilisation MEMORY_ONLY_SER, qui est plus efficace de l'espace. Veuillez vous référer étincelle de la documentation > scala de programmation > CA persistance
Que la taille des données augmente , il aura un effet sur la performance.
OriginalL'auteur vijay kumar