Convertir un EDR à itératif: PySpark?
J'ai un CA dont je suis la création par le chargement d'un fichier texte et de prétraitement. Je ne veux pas pour les recueillir et de les enregistrer sur le disque ou la mémoire(ensemble de données), mais plutôt envie de passer à une autre fonction en python qui utilise des données l'un après l'autre à l'est de la forme de l'objet iterable.
Comment est-ce possible?
data = sc.textFile('file.txt').map(lambda x: some_func(x))
an_iterable = data. ## what should I do here to make it give me one element at a time?
def model1(an_iterable):
for i in an_iterable:
do_that(i)
model(an_iterable)
OriginalL'auteur pg2455 | 2015-09-24
Vous devez vous connecter pour publier un commentaire.
Je crois que ce que vous voulez, c'est
toLocalIterator()
:OriginalL'auteur danf1024
.toLocalIterator()
méthode est correcte: pas.collect()
.OriginalL'auteur Abdalla Issa Mbaideen