lire des fichiers de manière récursive dans les sous-répertoires avec spark à partir de s3 ou le système de fichiers local

Je suis en train de lire les fichiers d'un répertoire qui contient de nombreux sous-répertoires. Les données sont en S3 et je suis en train de le faire:

val rdd =sc.newAPIHadoopFile(data_loc,
    classOf[org.apache.hadoop.mapreduce.lib.input.TextInputFormat],
    classOf[org.apache.hadoop.mapreduce.lib.input.TextInputFormat],
    classOf[org.apache.hadoop.io.NullWritable])

cela ne semble pas fonctionner.

Apprécions l'aide

Avez-vous essayé tout à l'aide de textFile("s3n://<root_dir>/*") ?
oui , j'ai essayé ça ne fonctionne pas
S'il vous plaît poster un exemple de la façon dont les répertoires sont imbriqués. Il y a probablement une solution impliquant simple des caractères génériques, tels que: s3n://bucket/*/*/*.
oui ça marche je vous remercie. s3n://bucket/root_dir/*/*/* pour l'année, le mois, la date . Mais fait quelque chose comme ce travail: s3n://bucket/root_dir/*/data/*/*/* essentiellement un répertoire dans chaque sous-répertoire ?

OriginalL'auteur venuktan | 2015-01-13