Utilisez Spark pour lister tous les fichiers dans un répertoire Hadoop HDFS?

Je veux une boucle sur tous les fichiers texte dans une Hadoop dir et de compter toutes les occurrences du mot "erreur". Est-il un moyen de faire un hadoop fs -ls /users/ubuntu/ à la liste de tous les fichiers dans un dir avec Apache Spark Scala API?

De la premier exemplel'étincelle contexte semble être la seule à accéder à des fichiers individuellement par quelque chose comme:

val file = spark.textFile("hdfs://target_load_file.txt")

Dans mon problème, je ne sais pas combien, ni les noms des fichiers dans le HDFS dossier à l'avance. Regardé le spark contexte docs mais ne pouvais pas trouver ce genre de fonctionnalité.

source d'informationauteur poliu2s

apache-spark hadoop

Vous pouvez utiliser un caractère générique:

val errorCount = sc.textFile("hdfs://some-directory/*")
                   .flatMap(_.split(" ")).filter(_ == "error").count

import org.apache.hadoop.fs.{FileSystem, FileUtil, Path}
import scala.collection.mutable.Stack


val fs = FileSystem.get( sc.hadoopConfiguration )
var dirs = Stack[String]()
val files = scala.collection.mutable.ListBuffer.empty[String]
val fs = FileSystem.get(sc.hadoopConfiguration)

dirs.push("/user/username/")

while(!dirs.isEmpty){
    val status = fs.listStatus(new Path(dirs.pop()))
    status.foreach(x=> if(x.isDirectory) dirs.push(x.getPath.toString) else 
    files+= x.getPath.toString)
}
files.foreach(println)

Vous devez vous connecter pour publier un commentaire.