PySpark: java.lang.OutofMemoryError: Java heap space

J'ai été en utilisant PySpark avec Ipython dernièrement sur mon serveur avec 24 Processeurs et 32 go de RAM. Son fonctionnement sur une seule machine. Dans mon processus, je veux rassembler énorme quantité de données, c'est de donner dans le code ci-dessous:

train_dataRDD = (train.map(lambda x:getTagsAndText(x))
.filter(lambda x:x[-1]!=[])
.flatMap(lambda (x,text,tags): [(tag,(x,text)) for tag in tags])
.groupByKey()
.mapValues(list))

Quand je fais

training_data =  train_dataRDD.collectAsMap()

Il me donne l'Erreur outOfMemory. Java heap Space. Aussi, je ne peux pas effectuer d'opérations sur la Spark après cette erreur car il perd la connexion avec Java. Il donne Py4JNetworkError: Cannot connect to the java server.

Il ressemble à de la mémoire est faible. Comment puis-je le mettre à plus de limites?

MODIFIER:

Choses que j'ai essayé avant de l'exécuter:
sc._conf.set('spark.executor.memory','32g').set('spark.driver.memory','32g').set('spark.driver.maxResultsSize','0')

J'ai changé la bougie d'options selon les documents ici(si vous ne le faites ctrl-f et la recherche de l'étincelle.exécuteur testamentaire.extraJavaOptions) : http://spark.apache.org/docs/1.2.1/configuration.html

Il dit que je peux éviter OOMs par réglage de l'allumage.exécuteur testamentaire.option de mémoire. J'ai fait la même chose, mais il semble ne pas fonctionner.

Cochez cette question stackoverflow.com/questions/21138751/...
Je vois beaucoup de bougies d'options définies dans le post. Je ne l'utiliser à la scala. Je suis à l'aide de IPython. Savez-vous si je peux définir ces options à partir de l'intérieur de la coquille?
Mise à jour à la question de la suggestion de la part de la poste, que vous avez réalisé moi aussi. Il semble qu'il y est un problème avec la JVM.

OriginalL'auteur mousecoder | 2015-09-01

34

Après l'essai de charge de paramètres de configuration, j'ai trouvé qu'il y est un seul besoin d'être modifiés pour permettre plus d'espace de Segment de mémoire et de savoir spark.driver.memory.
```
sudo vim $SPARK_HOME/conf/spark-defaults.conf
#uncomment the spark.driver.memory and change it according to your use. I changed it to below
spark.driver.memory 15g
# press : and then wq! to exit vim editor
```
Fermer votre application spark et re de l'exécuter. Vous ne serez pas confronté à cette erreur à nouveau. 🙂

Pouvez-vous changer cette conf de la valeur à partir du script (c'est à dire. set('spark.driver.memory','15g')) ?
J'ai essayé de le faire mais n'a pas réussi. Je pense qu'il a besoin de la relancer avec de nouveaux paramètres globaux.
De docs: spark.le pilote.de mémoire "de la Quantité de mémoire à utiliser pour le processus de pilote, c'est à dire où SparkContext est initialisé. (par exemple, 1g, 2g). Remarque: En mode client, cette config ne doit pas être défini par le biais de la SparkConf directement dans votre application, car le pilote de la JVM a déjà commencé à ce point. Au lieu de cela, veuillez régler ce par le biais de l' --pilote-mémoire de l'option de ligne de commande ou dans votre fichier de propriétés par défaut."
J'étais en train de l'Étincelle code à l'aide de SBT exécution de l'IDÉE SBT Console, la solution pour moi a été d'ajouter -Xmx4096M -d64 à la machine virtuelle java les paramètres qui sont passés sur le SBT lancement de la Console. C'est en vertu de Other settings -> SBT.
Pas de votre solution ne fonctionne pas .

OriginalL'auteur mousecoder

Vous devez vous connecter pour publier un commentaire.