L'utilisation d'Hadoop pour trouver les fichiers qui contiennent une chaîne de caractères

Que j'ai autour de 1000 files et chaque fichier est de la taille de 1GB. Et j'ai besoin de trouver une Chaîne de caractères dans tous ces 1000 files et aussi les fichiers contenant la Chaîne de caractères particulière. Je suis en train de travailler avec Hadoop Système de Fichiers et tous ceux 1000 files sont dans Hadoop Système de Fichiers.

Tous les 1000 files sont sous dossier, donc Si je fais comme ci-dessous, je seront obtenir tous les 1000 files. Et j'ai besoin de trouver les fichiers qui contient une Chaîne de caractères bonjour en vertu de dossier.

bash-3.00$ hadoop fs -ls /technology/dps/real

Et c'est ma structure de données dans hdfs-

row format delimited 
fields terminated by ''
collection items terminated by ','
map keys terminated by ':'
stored as textfile

Comment je peux écrire de tâches MapReduce pour faire de ce problème afin que je puisse trouver les fichiers qui contient une chaîne de caractères? Un simple exemple sera d'une grande aide pour moi.

Mise à jour:-

Avec l'utilisation de grep dans Unix je peux résoudre le problème ci-dessus scénario, mais il est très très lent et il faut beaucoup de temps pour obtenir le résultat réel-

hadoop fs -ls /technology/dps/real | awk '{print $8}' | while read f; do hadoop fs -cat $f | grep cec7051a1380a47a4497a107fecb84c1 >/dev/null && echo $f; done

De sorte que c'est la raison pour laquelle je cherchais des tâches MapReduce pour faire ce genre de problème...

Est la Chaîne que vous avez besoin de trouver une partie du texte contenu dans le fichier ou est-il le nom de fichier?
Je pense que l'OP signifie que la recherche dans le contenu du fichier. Sinon il n'aurait pas mentionner la taille du fichier.
J'ai besoin de trouver la chaîne à l'intérieur de tous ces 1000 fichiers de contenu. Et les fichiers contenant la Chaîne de caractères est mon objectif.
double possible de Rechercher une Chaîne de caractères dans 1000 fichiers et chaque taille du fichier est de 1 GO
Dans cette question, je suis juste essayer de trouver Unix alternative à faire de cette façon, pas le travail de MapReduce et puis quelqu'un m'a suggéré de vous permettre de mieux dans le travail de MapReduce, de sorte que c'est la raison que j'ai posté une nouvelle question.

OriginalL'auteur arsenal | 2012-07-31