Comment utiliser Hadoop InputFormats Dans Apache Spark?

J'ai une classe ImageInputFormat dans Hadoop qui lit les images de HDFS. Comment utiliser mon InputFormat Spark?

Voici mon ImageInputFormat:

public class ImageInputFormat extends FileInputFormat<Text, ImageWritable> {

    @Override
    public ImageRecordReader createRecordReader(InputSplit split, 
                  TaskAttemptContext context) throws IOException, InterruptedException {
        return new ImageRecordReader();
    }

    @Override
    protected boolean isSplitable(JobContext context, Path filename) {
        return false;
    }
}

OriginalL'auteur hequn8128 | 2014-01-09

14

La SparkContext a une méthode appelée hadoopFile. Il accepte les classes qui implémentent l'interface org.apache.hadoop.mapred.InputFormat

Sa description dit "Obtenir un EDR pour une Hadoop fichier avec un arbitraire InputFormat".

Également jeter un oeil à la L'Étincelle De La Documentation.

Merci~ je l'ai trouver maintenant. Au lieu de cela, j'utilise newAPIHadoopFile pour faire le travail.Mais j'ai un nouveau problème que ces images tous être stockés dans hadoopRDD ou je peux mettre le CA de la capacité et lorsque le CA est plein, le reste, les données seront stockées dans le disque? De plus la performance sera affectée si les données sont trop gros? Il y a 500G images de l'entrée. Je vous remercie encore.
Désolé, je ne suis pas vraiment une Étincelle d'experts. J'espère que quelqu'un d'autre peut répondre.

OriginalL'auteur Robert Metzger
2

images tous être stockés dans hadoopRDD ?

oui, tout ce qui sera enregistré dans la spark est comme rdds

pouvez définir la RDD capacité et lorsque le CA est plein, le reste, les données seront stockées dans le disque?

De stockage par défaut au niveau de l'étincelle est (StorageLevel.MEMORY_ONLY) ,l'utilisation MEMORY_ONLY_SER, qui est plus efficace de l'espace. Veuillez vous référer étincelle de la documentation > scala de programmation > CA persistance

La performance sera affectée si les données sont trop gros?

Que la taille des données augmente , il aura un effet sur la performance.

Merci beaucoup! Seulement il y a un moment, j'étais perplexe au sujet de java.lang.OutOfMemoryError: Java heap space. Ainsi, selon votre réponse, le Stockage de réglage de Niveau, peut-être probable que le problème! Mon cluster a 1 maître et 11 des esclaves. Chaque nœud a 6G de mémoire.Dans mon programme, j'ai mis de l'étincelle.exécuteur testamentaire.mémoire à la 3g. Les données à traiter est d'environ 22g qui contient 10000 images. Merci encore:)

OriginalL'auteur vijay kumar

Vous devez vous connecter pour publier un commentaire.