Hadoop plusieurs entrées

Je suis en utilisant hadoop map réduire et je veux calculer les deux fichiers. Ma première Map/reduce itération est de me donner un fichier avec une paire numéro d'ID comme ceci:

A 30
D 20

Mon objectif est d'utiliser cet ID dans le fichier à associer avec un autre fichier et avoir une autre sortie avec un trio: ID, le Numéro, le Nom, comme ceci:

A ABC 30
D EFGH 20

Mais je ne suis pas sûr que ce soit en utilisant la Carte de Réduire les est la meilleure façon de le faire. Serait-il préférable par exemple d'utiliser un Lecteur de Fichiers pour Lire le deuxième fichier d'entrée et obtenir le Nom par ID? Ou puis-je le faire avec la Carte de Réduire?

Si oui, j'essaie de trouver comment. J'ai essayé un MultipleInput solution:

MultipleInputs.addInputPath(job2, new Path(args[1]+"-tmp"),
    TextInputFormat.class, FlightsByCarrierMapper2.class);
MultipleInputs.addInputPath(job2, new Path("inputplanes"),
    TextInputFormat.class, FlightsModeMapper.class);

Mais je ne peux pas penser à une solution pour combiner les deux et obtenir le résultat que je veux. La façon dont j'ai droit maintenant, c'est juste de me donner la liste comme dans cet exemple:

A ABC
A 30
B ABCD
C ABCDEF
D EFGH
D 20

Après mon Dernier Réduire j'obtiens ceci:

N125DL  767-332
N125DL  7   , 
N126AT  737-76N
N126AT  19  , 
N126DL  767-332
N126DL  1   , 
N127DL  767-332
N127DL  7   , 
N128DL  767-332
N128DL  3

Ce que je veux c': N127DL 7 767-332. Et aussi, je ne veux pas que ceux qui ne se combinent pas.

Et c'est ma réduire classe:

public class FlightsByCarrierReducer2 s'étend Réducteur {

String merge = "";
protected void reduce(Text token, Iterable<Text> values, Context context) 
                            throws IOException, InterruptedException {

    int i = 0;  
    for(Text value:values)
    {
        if(i == 0){
            merge = value.toString()+",";
        }
        else{
            merge += value.toString();
        }
        i++;
    }

        context.write(token, new Text(merge));

}

}

Mise à jour:

http://stat-computing.org/dataexpo/2009/the-data.html c'est l'exemple que j'utilise.

Je suis en train d'essayer avec: TailNum et Annulée, ce qui est (1 ou 0) obtenir le nom du modèle qui correspond à la TailNum. Mon fichier avec le modèle a un TailNumb, Modèle et d'autres choses. Ma courant de sortie est:

N193JB ERJ 190-100 IGW

N194DN 767-332

N19503 EMB-135ER

N19554 EMB-145LR

N195DN 767-332

N195DN 2

Première vient de la clé, le deuxième le modèle, les clés qui a des vols annulés, apperas ci-dessous le modèle

Et je voudrais un trio Clé,le Numéro de Modèle de Annulée, Parce que je veux le nombre d'Annulations par modèle

quelles sont les tailles des deux fichiers d'entrée ?
la première autour de 600k entrées, la seconde autour de 2k
dire second fichier a la longueur de la ligne 100 octets en moyenne, alors la taille totale sera d'environ 200k. Je suppose que u peut le mettre dans DistributedCache pour effectuer une carte côté de jointure et d'économiser du carburant 😉
U peut pastebin 2 entrées que vous essayez de les regrouper? Qu'est-ce que N125DL...etc
veuillez lire la mise à jour

OriginalL'auteur dex90 | 2014-12-08

Vous pouvez vous joindre à eux à l'aide de l'ID comme clé pour les deux mappeur.
Vous pouvez écrire votre carte tâche en tant que quelque chose comme cela

public void map(LongWritable k, Text value, Context context) throws IOException, InterruptedException
{
    //Get the line
    //split the line to get ID seperate
    //word1 = A 
    //word2 = 30
                //Likewise for A ABC
                   //word1 = A 
                  //word2 = ABC
    context.write(word1, word2);
}

Je pense que vous pouvez resuse la même Carte tâche.
Et puis écrire un commomn Réducteur de travail où Framework Hadoop groupes de données sur la clé.
Ainsi, vous serez en mesure d'obtenir l'ID comme clé.
Et Vous pouvez mettre en cache l'un de la valeur et puis concat.

String merge = "";
public void reduce(Text key, Iterable<Text> values, Context context)
{
    int i =0;
    for(Text value:values)
    {
        if(i == 0){
            merge = value.toString()+",";
        }
        else{
            merge += value.toString();
        }
        i++;
    }
    valEmit.set(merge);
    context.write(key, valEmit);
}

Enfin, vous pouvez écrire votre Chauffeur classe

public int run(String[] args) throws Exception {
 Configuration c=new Configuration();
 String[] files=new GenericOptionsParser(c,args).getRemainingArgs();
 Path p1=new Path(files[0]);
 Path p2=new Path(files[1]);
 Path p3=new Path(files[2]);
 FileSystem fs = FileSystem.get(c);
 if(fs.exists(p3)){
  fs.delete(p3, true);
  }
 Job job = new Job(c,"Multiple Job");
 job.setJarByClass(MultipleFiles.class);
 MultipleInputs.addInputPath(job, p1, TextInputFormat.class, MultipleMap1.class);
 MultipleInputs.addInputPath(job,p2, TextInputFormat.class, MultipleMap2.class);
 job.setReducerClass(MultipleReducer.class);
 .
 .
}

Vous pouvez trouver l'exemple ICI

Espère que cette aide.

Mise à JOUR

Input1

A 30
D 20

Input2

A ABC
D EFGH

Sortie

A ABC 30
D EFGH 20

Mapper.java

import java.io.IOException;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

/**
 * @author sreeveni
 *
 */
public class Mapper1 extends Mapper<LongWritable, Text, Text, Text> {
    Text keyEmit = new Text();
    Text valEmit = new Text();

    public void map(LongWritable key, Text value, Context context)
            throws IOException, InterruptedException {
        String line = value.toString();
        String parts[] = line.split(" ");
        keyEmit.set(parts[0]);
        valEmit.set(parts[1]);
        context.write(keyEmit, valEmit);
    }
}

Reducer.java

import java.io.IOException;

import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

/**
 * @author sreeveni
 *
 */
public class ReducerJoin extends Reducer<Text, Text, Text, Text> {

    Text valEmit = new Text();
    String merge = "";

    public void reduce(Text key, Iterable<Text> values, Context context)
            throws IOException, InterruptedException {
        String character = "";
        String number = "";
        for (Text value : values) {
            //ordering output
            String val = value.toString();
            char myChar = val.charAt(0);

            if (Character.isDigit(myChar)) {
                number = val;
            } else {
                character = val;
            }
        }
        merge = character + " " + number;
        valEmit.set(merge);
        context.write(key, valEmit);
    }

}

De la classe du pilote

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.MultipleInputs;
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;
import org.apache.hadoop.util.Tool;
import org.apache.hadoop.util.ToolRunner;
/**
* @author sreeveni
*
*/
public class Driver extends Configured implements Tool {
public static void main(String[] args) throws Exception {
//TODO Auto-generated method stub
//checking the arguments count
if (args.length != 3) {
System.err
.println("Usage : <inputlocation>  <inputlocation>  <outputlocation> ");
System.exit(0);
}
int res = ToolRunner.run(new Configuration(), new Driver(), args);
System.exit(res);
}
@Override
public int run(String[] args) throws Exception {
//TODO Auto-generated method stub
String source1 = args[0];
String source2 = args[1];
String dest = args[2];
Configuration conf = new Configuration();
conf.set("mapred.textoutputformat.separator", " "); //changing default
//delimiter to user
//input delimiter
FileSystem fs = FileSystem.get(conf);
Job job = new Job(conf, "Multiple Jobs");
job.setJarByClass(Driver.class);
Path p1 = new Path(source1);
Path p2 = new Path(source2);
Path out = new Path(dest);
MultipleInputs.addInputPath(job, p1, TextInputFormat.class,
Mapper1.class);
MultipleInputs.addInputPath(job, p2, TextInputFormat.class,
Mapper1.class);
job.setReducerClass(ReducerJoin.class);
job.setMapOutputKeyClass(Text.class);
job.setMapOutputValueClass(Text.class);
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(Text.class);
job.setOutputFormatClass(TextOutputFormat.class);
/*
* delete if exist
*/
if (fs.exists(out))
fs.delete(out, true);
TextOutputFormat.setOutputPath(job, out);
boolean success = job.waitForCompletion(true);
return success ? 0 : 1;
}
}

Je pense que je suis plus près, mais je n'obtiens pas le droit de sortie, je ne sais pas pourquoi, juste de mettre à jour la question

OriginalL'auteur Unmesha SreeVeni

0

Votre réducteur a une méthode map, mais il devrait avoir un méthode qui prend un objet iterable collection de valeurs qui vous puis la fusion. Parce que vous n'avez pas de réduire() la méthode, vous obtenez le comportement par défaut qui est juste passer à travers toutes les paires clé/valeur.

le nom de la méthode est mal... j'avais déjà remarqué cette erreur. Mais il ne fera pas la différence. De toute façon j'avais déjà essayé avec Itératif de Collecte, mais il n'a pas de travail. Je vais poster mon Réducteur de toute façon.
Ajouter le @Override drapeau de la méthode pour forcer le compilateur à assurez-vous que vous avez remplacé correctement.

OriginalL'auteur Chris Gerken

Vous devez vous connecter pour publier un commentaire.