Spark Contexte fichier Texte: de charger plusieurs fichiers

J'ai besoin de traiter plusieurs fichiers dispersés sur différents annuaires. Je voudrais charger tous ces en un seul RDD et ensuite effectuer map/reduce sur elle. Je vois que SparkContext est capable de charger plusieurs fichiers à partir d'un seul répertoire à l'aide de caractères génériques. Je ne suis pas sûr de la façon de charger des fichiers à partir de plusieurs dossiers.

L'extrait de code suivant échoue:

for fileEntry in files:
    fileName = basePath + "/" + fileEntry
    lines = sc.textFile(fileName)
    if retval == None:
        retval = lines
    else:
        retval = sc.union(retval, lines)

Cela échoue sur la troisième boucle avec le message d'erreur suivant:

retval = sc.union(retval, lines)
TypeError: union() takes exactly 2 arguments (3 given)

Qui est bizarre étant donné que je suis en fournissant seulement 2 arguments. Tous les pointeurs apprécié.

  • ..mais le premier argument est self. À partir de la docs, vous avez besoin sc.union([retval,lines])
  • Laissez-moi essayer. Je suis surpris que ce serait travailler pour 2 boucles et d'échouer sur la troisième ...
  • Qui a fait le tour. Merci Jonathan!
  • Je viens de réaliser que vous pouvez utiliser sc.textFile(','.join(files)) de la lire en un seul coup.
InformationsquelleAutor Raj | 2014-04-30