Comment mettre en œuvre le tri dans hadoop?

Mon problème est de trier les valeurs dans un fichier.
les clés et les valeurs sont des nombres entiers et de la nécessité de maintenir les clés de tri des valeurs.

key   value
1     24
3     4
4     12
5     23

de sortie:

Je suis en train de travailler avec massives de données et exécuter le code dans un cluster hadoop machines.
Comment puis-je le faire avec mapreduce?

Alors, que voulez-vous trier par? la clé ou la valeur? Pouvez-vous donner un exemple montrant le fichier et comment elles doivent être triées?
j'ai édité.
Donc, vos clés sont uniques?
double possible de Comment faire pour trier les données dans la carte de réduire hadoop?

InformationsquelleAutor user1878364 | 2013-08-09

14

Vous pouvez probablement le faire (je suis en supposant que vous utilisez Java ici)

À partir de cartes émettent, ce
```
context.write(24,1);
context.write(4,3);
context.write(12,4)
context.write(23,5)
```
Alors, vous les valeurs qui doit être triée devrait être la clé dans votre travail de mapreduce.
Hadoop par défaut tri par ordre croissant des clés.

Donc, soit vous faites cela pour trier dans l'ordre décroissant,
```
job.setSortComparatorClass(LongWritable.DecreasingComparator.class);
```
Ou, ce,

Vous avez besoin de personnaliser le Tri dans l'ordre Décroissant de Comparaison, ce qui va quelque chose comme ceci dans votre travail.
```
public static class DescendingKeyComparator extends WritableComparator {
    protected DescendingKeyComparator() {
        super(Text.class, true);
    }

    @SuppressWarnings("rawtypes")
    @Override
    public int compare(WritableComparable w1, WritableComparable w2) {
        LongWritable key1 = (LongWritable) w1;
        LongWritable key2 = (LongWritable) w2;          
        return -1 * key1.compareTo(key2);
    }
}
```
Le suffle et de tri phase dans Hadoop va prendre soin de trier vos clés dans l'ordre décroissant 24,4,12,23

Après le commentaire:

Si vous avez besoin d'un Descendant IntWritable Comparable, vous pouvez en créer un et de l'utiliser comme ceci -
```
job.setSortComparatorClass(DescendingIntComparable.class);
```
Dans le cas où si vous utilisez JobConf, utilisez cette fonction pour définir
```
jobConfObject.setOutputKeyComparatorClass(DescendingIntComparable.class);
```
Placer le code ci-dessous votre main() fonction -
```
public static void main(String[] args) {
    int exitCode = ToolRunner.run(new YourDriver(), args);
    System.exit(exitCode);
}

//this class is defined outside of main not inside
public static class DescendingIntWritableComparable extends IntWritable {
    /** A decreasing Comparator optimized for IntWritable. */ 
    public static class DecreasingComparator extends Comparator {
        public int compare(WritableComparable a, WritableComparable b) {
            return -super.compare(a, b);
        }
        public int compare(byte[] b1, int s1, int l1, byte[] b2, int s2, int l2) {
            return -super.compare(b1, s1, l1, b2, s2, l2);
        }
    }
}
```
- Si j'ai 5 ordinateurs exécutant le code, le code de travail et le résultat final est absoulutly vrai? combien réducteur ai-je besoin?
- Oui, vous pouvez avoir n'importe quel nombre de reducrs. Je vais aussi supposer que vous savez comment écrire un travail de MapReduce. S'il vous plaît donner un coup et me dire si cela résout votre problème. Je pense que ça va avec repect pour les cas d'utilisation que vous avez mentionné. Je vous remercie.
- Je travaille avec jobconf, il n'a pas setSortComparatorClass méthode.
- mes clés sont intwritable.comment puis-je utiliser DescendingKeyComparator classe dans mon code?
- Essayez d'en créer un. J'ai modifié ma réponse, veuillez vérifier et me dire si ça aide.
- Le type de classe est statique.il indique une erreur.je l'ai changé pour la finale.Ce changement cause du problème?
- la classe statique est définie en dehors de la fonction main() et non à l'intérieur, vérification de la modification de la réponse.
- Mais que penser d'un Double de la valeur? Il n'y a pas de classe à l'accomplir?
- Je pense, il y a: hadoop.apache.org/docs/r2.3.0/api/org/apache/hadoop/io/...
- Au-dessus de processus trie les données par des clés(24,23,12,4) après la carte émet des touches de valeurs et vice-versa. Puis-je prendre l'entrée dans ma réduire() à partir des données triées et le transformer dans orignal <key, value> paires, par exemple, 1 24, etc..
- Essayez d'utiliser cette DescendingIntWritableComparable de mettre en œuvre un tri décroissant au lieu de tri dans l'ordre croissant, mais de l'emploi.setSortComparatorClass() ne voit pas DescendingIntComparable.class comme une classe qui étend la classe RawComparator, de sorte qu'il ne fonctionne pas. Toutes les idées sur la façon de modifier cette façon de travailler?
InformationsquelleAutor SSaikia_JtheRocker

Vous devez vous connecter pour publier un commentaire.