Quelles sont les différences entre sc.paralléliser et sc.fichier texte?

Je suis nouvelle Étincelle. quelqu'un peut-veuillez effacer mes doutes:

Permet de supposer ci-dessous mon code:

a = sc.textFile(filename) 
b = a.filter(lambda x: len(x)>0 and x.split("\t").count("111"))
c = b.collect()

J'espère ci-dessous est ce qui se passe en interne: (Merci de corriger si ma compréhension est erronée)

(1) la variable a sera enregistré comme un RDD variable contenant l'attendu le contenu du fichier txt

(2) Le conducteur nœud décompose le travail en tâches chaque tâche contient des informations sur la répartition des données qu'il va opérer.
Or, ces Tâches sont confiées à des nœuds de travail.

(3) lorsque l'action de collecte (j'.e collect() dans notre cas) est invoquée, les résultats seront retournés à la maîtrise de différents nœuds, et enregistrée comme une variable locale c.

Maintenant, je veux comprendre ce que la différence de code ci-dessous donne:

a = sc.textFile(filename).collect() 
b = sc.parallelize(a).filter(lambda x: len(x)>0 and x.split("\t").count("111")) 
c = b.collect() 

Quelqu'un pourrait-il préciser ?

OriginalL'auteur user2531569 | 2017-07-01