Grep sur plusieurs fichiers dans Hadoop Filesystem

Je suis en train de travailler avec Hadoop et j'ai besoin de trouver qui de ~100 fichiers dans mon système de fichiers Hadoop contenir une certaine chaîne de caractères.

Je peux voir les fichiers que je souhaite à la recherche comme ceci:

bash-3.00$ hadoop fs -ls /apps/mdhi-technology/b_dps/real-time

..ce qui revient à plusieurs entrées comme ceci:

-rw-r--r--   3 b_dps mdhi-technology 1073741824 2012-07-18 22:50 /apps/mdhi-technology/b_dps/HADOOP_consolidated_RT_v1x0_20120716_aa
-rw-r--r--   3 b_dps mdhi-technology 1073741824 2012-07-18 22:50 /apps/mdhi-technology/b_dps/HADOOP_consolidated_RT_v1x0_20120716_ab

Comment puis-je trouver lequel de ces contient la chaîne de caractères bcd4bc3e1380a56108f486a4fffbc8dc? Une fois, je sais, je peux les modifier manuellement.

source d'informationauteur arsenal

28

C'est une hadoop "système de fichiers", et non pas POSIX, donc, essayez ceci:
```
hadoop fs -ls /apps/hdmi-technology/b_dps/real-time | awk '{print $8}' | \
while read f
do
  hadoop fs -cat $f | grep -q bcd4bc3e1380a56108f486a4fffbc8dc && echo $f
done
```
Cela devrait fonctionner, mais il est de série et peut être lente. Si votre cluster peut prendre la chaleur, on peut paralléliser:
```
hadoop fs -ls /apps/hdmi-technology/b_dps/real-time | awk '{print $8}' | \
  xargs -n 1 -I ^ -P 10 bash -c \
  "hadoop fs -cat ^ | grep -q bcd4bc3e1380a56108f486a4fffbc8dc && echo ^"
```
Avis de la -P 10 option pour xargs: c'est combien de fichiers que l'on télécharge et de recherche en parallèle. Commencer bas et d'augmenter le nombre jusqu'à ce que vous saturer d'I/O disque ou de la bande passante du réseau, ce qui est pertinent dans votre configuration.

MODIFIER: étant Donné que vous êtes sur SunOS (qui est un peu en état de mort cérébrale), essayez ceci:
```
hadoop fs -ls /apps/hdmi-technology/b_dps/real-time | awk '{print $8}' | while read f; do hadoop fs -cat $f | grep bcd4bc3e1380a56108f486a4fffbc8dc >/dev/null && echo $f; done
```
0

À l'aide de hadoop fs -cat (ou le plus générique hadoop fs -text) pourrait être faisable si vous avez juste deux 1 GO de fichiers. Pour les 100 fichiers mais je voudrais utiliser le streaming-api car il peut être utilisé pour adhoc-les requêtes sans avoir à recourir à un véritable travail de mapreduce. E. g. dans votre cas, créez un script get_filename_for_pattern.sh:
```
#!/bin/bash
grep -q $1 && echo $mapreduce_map_input_file
cat >/dev/null # ignore the rest
```
Noter que vous devez lire l'intégralité de l'entrée, afin d'éviter de se java.io.IOException: Stream closed exceptions.

Puis tapez les commandes
```
hadoop jar $HADOOP_HOME/hadoop-streaming.jar\
 -Dstream.non.zero.exit.is.failure=false\
 -files get_filename_for_pattern.sh\
 -numReduceTasks 1\
 -mapper "get_filename_for_pattern.sh bcd4bc3e1380a56108f486a4fffbc8dc"\
 -reducer "uniq"\
 -input /apps/hdmi-technology/b_dps/real-time/*\
 -output /tmp/files_matching_bcd4bc3e1380a56108f486a4fffbc8dc
hadoop fs -cat /tmp/files_matching_bcd4bc3e1380a56108f486a4fffbc8dc/*
```
Dans les nouvelles distributions mapred streaming au lieu de hadoop jar $HADOOP_HOME/hadoop-streaming.jar devrait fonctionner. Dans ce dernier cas, vous devez définir votre $HADOOP_HOME correctement afin de trouver le pot (ou de fournir le chemin d'accès complet directement).

Pour les requêtes plus simples, vous n'avez même pas besoin d'un script, mais juste peut fournir la commande de la -mapper paramètre directement. Mais pour rien un peu complexe, il est préférable d'utiliser un script, parce que l'obtention de la trajectoire de la droite peut être une corvée.

Si vous n'avez pas besoin de réduire la phase de fournir la symbolique NONE paramètre à la -reduce option (ou simplement l'utiliser -numReduceTasks 0). Mais dans votre cas, il est utile d'avoir une réduction de phase pour la sortie consolidés en un seul fichier.

Vous devez vous connecter pour publier un commentaire.