Intermittent Exception Délai à l'aide de l'Étincelle

J'ai une Étincelle de cluster avec 10 nœuds, et je suis de cette exception après l'utilisation de l'Étincelle Contexte pour la première fois:

14/11/20 11:15:13 ERROR UserGroupInformation: PriviledgedActionException as:iuberdata (auth:SIMPLE) cause:java.util.concurrent.TimeoutException: Futures timed out after [120 seconds]
Exception in thread "main" java.lang.reflect.UndeclaredThrowableException: Unknown exception in doAs
    at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1421)
    at org.apache.spark.deploy.SparkHadoopUtil.runAsSparkUser(SparkHadoopUtil.scala:52)
    at org.apache.spark.executor.CoarseGrainedExecutorBackend$.run(CoarseGrainedExecutorBackend.scala:113)
    at org.apache.spark.executor.CoarseGrainedExecutorBackend$.main(CoarseGrainedExecutorBackend.scala:156)
    at org.apache.spark.executor.CoarseGrainedExecutorBackend.main(CoarseGrainedExecutorBackend.scala)
Caused by: java.security.PrivilegedActionException: java.util.concurrent.TimeoutException: Futures timed out after [120 seconds]
    at java.security.AccessController.doPrivileged(Native Method)
    at javax.security.auth.Subject.doAs(Subject.java:415)
    at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1408)
    ... 4 more

Ce guy ont eu un problème similaire, mais j'ai déjà essayé sa solution, et n'a pas travaillé.

La même exception se produit également ici mais le problème n'est pas eux même ici alors que je suis en utilisant spark version 1.1.0 dans les deux maître ou de l'esclave et du client.

J'ai essayé d'augmenter le délai d'attente à 120s, mais ça ne fonctionne toujours pas à résoudre le problème.

Je suis doploying l'environnement à travers des scripts et je suis en utilisant le contexte.addJar inclure mon code dans le classpath.
Ce problème est intermittant, et je n'ai pas la moindre idée sur la façon de suivre pourquoi est-ce qu'il se passe. Quelqu'un a été confronté à ce problème lors de la configuration d'une étincelle cluster sais comment le résoudre?

Comme c'est le haut de réponse dans google, pour référence future, le délai d'attente rpc peut se produire sans pare-feu/configuration du réseau, si votre travail stands pour configuré période, ce qui est 120secs spark 2.0. J'ai ce problème et de rechercher une solution à d'autres, puis d'augmenter délais d'attente.

OriginalL'auteur dirceusemighini | 2014-11-20