Le travailleur de mon Spark ne peut pas connecter Master.Quelque chose ne va pas avec Akka?
Je veux installer Étincelle Standlone mode à un Cluster avec mes deux machines virtuelles.
Avec la version de spark-0.9.1-bin-hadoop1, je exécuter l'étincelle-shell avec succès dans chaque vm. J'ai suivi le document officiel de faire une vm(ip:xx.xx.xx.223) comme Maître et de l'Ouvrier et de faire les autres(ip:xx.xx.xx.224) en tant que Travailleur.
Mais l'224-ip de la vm ne peut pas se connecter 223-ip de la vm.
Suivi est 223(Master) master journal:
[@tc-52-223 logs]# tail -100f spark-root-org.apache.spark.deploy.master.Master-1-tc-52-223.out
Spark Command: /usr/local/jdk/bin/java -cp :/data/test/spark-0.9.1-bin-hadoop1/conf:/data/test/spark-0.9.1-bin-hadoop1/assembly/target/scala-2.10/spark-assembly_2.10-0.9.1-hadoop1.0.4.jar -Dspark.akka.logLifecycleEvents=true -Djava.library.path= -Xms512m -Xmx512m org.apache.spark.deploy.master.Master --ip 10.11.52.223 --port 7077 --webui-port 8080
log4j:WARN No appenders could be found for logger (akka.event.slf4j.Slf4jLogger).
log4j:WARN Please initialize the log4j system properly.
log4j:WARN See http://logging.apache.org/log4j/1.2/faq.html#noconfig for more info.
14/04/14 22:17:03 INFO Master: Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties
14/04/14 22:17:03 INFO Master: Starting Spark master at spark://10.11.52.223:7077
14/04/14 22:17:03 INFO MasterWebUI: Started Master web UI at http://tc-52-223:8080
14/04/14 22:17:03 INFO Master: I have been elected leader! New state: ALIVE
14/04/14 22:17:06 INFO Master: Registering worker tc-52-223:20599 with 1 cores, 4.0 GB RAM
14/04/14 22:17:06 INFO Master: Registering worker tc_52_224:21371 with 1 cores, 4.0 GB RAM
14/04/14 22:17:06 INFO RemoteActorRefProvider$RemoteDeadLetterActorRef: Message [org.apache.spark.deploy.DeployMessages$RegisteredWorker] from Actor[akka://sparkMaster/user/Master#1972530850] to Actor[akka://sparkMaster/deadLetters] was not delivered. [1] dead letters encountered. This logging can be turned off or adjusted with configuration settings 'akka.log-dead-letters' and 'akka.log-dead-letters-during-shutdown'.
14/04/14 22:17:26 INFO Master: Registering worker tc_52_224:21371 with 1 cores, 4.0 GB RAM
14/04/14 22:17:26 INFO RemoteActorRefProvider$RemoteDeadLetterActorRef: Message [org.apache.spark.deploy.DeployMessages$RegisterWorkerFailed] from Actor[akka://sparkMaster/user/Master#1972530850] to Actor[akka://sparkMaster/deadLetters] was not delivered. [2] dead letters encountered. This logging can be turned off or adjusted with configuration settings 'akka.log-dead-letters' and 'akka.log-dead-letters-during-shutdown'.
14/04/14 22:17:46 INFO Master: Registering worker tc_52_224:21371 with 1 cores, 4.0 GB RAM
14/04/14 22:17:46 INFO RemoteActorRefProvider$RemoteDeadLetterActorRef: Message [org.apache.spark.deploy.DeployMessages$RegisterWorkerFailed] from Actor[akka://sparkMaster/user/Master#1972530850] to Actor[akka://sparkMaster/deadLetters] was not delivered. [3] dead letters encountered. This logging can be turned off or adjusted with configuration settings 'akka.log-dead-letters' and 'akka.log-dead-letters-during-shutdown'.
14/04/14 22:18:06 INFO Master: akka.tcp://sparkWorker@tc_52_224:21371 got disassociated, removing it.
14/04/14 22:18:06 INFO Master: akka.tcp://sparkWorker@tc_52_224:21371 got disassociated, removing it.
14/04/14 22:18:06 INFO LocalActorRef: Message [akka.remote.transport.ActorTransportAdapter$DisassociateUnderlying] from Actor[akka://sparkMaster/deadLetters] to Actor[akka://sparkMaster/system/transports/akkaprotocolmanager.tcp0/akkaProtocol-tcp%3A%2F%2FsparkMaster%4010.11.52.224%3A61550-1#646150938] was not delivered. [4] dead letters encountered. This logging can be turned off or adjusted with configuration settings 'akka.log-dead-letters' and 'akka.log-dead-letters-during-shutdown'.
14/04/14 22:18:06 INFO Master: akka.tcp://sparkWorker@tc_52_224:21371 got disassociated, removing it.
14/04/14 22:18:06 ERROR EndpointWriter: AssociationError [akka.tcp://[email protected]:7077] -> [akka.tcp://sparkWorker@tc_52_224:21371]: Error [Association failed with [akka.tcp://sparkWorker@tc_52_224:21371]] [
akka.remote.EndpointAssociationException: Association failed with [akka.tcp://sparkWorker@tc_52_224:21371]
Caused by: akka.remote.transport.netty.NettyTransport$$anonfun$associate$1$$anon$2: Connection refused: tc_52_224/10.11.52.224:21371
]
14/04/14 22:18:06 INFO Master: akka.tcp://sparkWorker@tc_52_224:21371 got disassociated, removing it.
14/04/14 22:18:06 ERROR EndpointWriter: AssociationError [akka.tcp://[email protected]:7077] -> [akka.tcp://sparkWorker@tc_52_224:21371]: Error [Association failed with [akka.tcp://sparkWorker@tc_52_224:21371]] [
akka.remote.EndpointAssociationException: Association failed with [akka.tcp://sparkWorker@tc_52_224:21371]
Caused by: akka.remote.transport.netty.NettyTransport$$anonfun$associate$1$$anon$2: Connection refused: tc_52_224/10.11.52.224:21371
]
14/04/14 22:18:06 ERROR EndpointWriter: AssociationError [akka.tcp://[email protected]:7077] -> [akka.tcp://sparkWorker@tc_52_224:21371]: Error [Association failed with [akka.tcp://sparkWorker@tc_52_224:21371]] [
akka.remote.EndpointAssociationException: Association failed with [akka.tcp://sparkWorker@tc_52_224:21371]
Caused by: akka.remote.transport.netty.NettyTransport$$anonfun$associate$1$$anon$2: Connection refused: tc_52_224/10.11.52.224:21371
]
14/04/14 22:18:06 INFO Master: akka.tcp://sparkWorker@tc_52_224:21371 got disassociated, removing it.
14/04/14 22:19:03 WARN Master: Removing worker-20140414221705-tc_52_224-21371 because we got no heartbeat in 60 seconds
14/04/14 22:19:03 INFO Master: Removing worker worker-20140414221705-tc_52_224-21371 on tc_52_224:21371
Suivi est 223(Travailleur) travailleur journal:
14/04/14 22:17:06 INFO Worker: Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties
14/04/14 22:17:06 INFO Worker: Starting Spark worker tc-52-223:20599 with 1 cores, 4.0 GB RAM
14/04/14 22:17:06 INFO Worker: Spark home: /data/test/spark-0.9.1-bin-hadoop1
14/04/14 22:17:06 INFO WorkerWebUI: Started Worker web UI at http://tc-52-223:8081
14/04/14 22:17:06 INFO Worker: Connecting to master spark://xx.xx.52.223:7077...
14/04/14 22:17:06 INFO Worker: Successfully registered with master spark://xx.xx.52.223:7077
Suivi 224(Travailleur)'s journal de travail:
Spark Command: /usr/local/jdk/bin/java -cp :/data/test/spark-0.9.1-bin-hadoop1/conf:/data/test/spark-0.9.1-bin-hadoop1/assembly/target/scala-2.10/spark-assembly_2.10-0.9.1-hadoop1.0.4.jar -Dspark.akka.logLifecycleEvents=true -Djava.library.path= -Xms512m -Xmx512m org.apache.spark.deploy.worker.Worker spark://10.11.52.223:7077 --webui-port 8081
========================================
log4j:WARN No appenders could be found for logger (akka.event.slf4j.Slf4jLogger).
log4j:WARN Please initialize the log4j system properly.
log4j:WARN See http://logging.apache.org/log4j/1.2/faq.html#noconfig for more info.
14/04/14 22:17:06 INFO Worker: Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties
14/04/14 22:17:06 INFO Worker: Starting Spark worker tc_52_224:21371 with 1 cores, 4.0 GB RAM
14/04/14 22:17:06 INFO Worker: Spark home: /data/test/spark-0.9.1-bin-hadoop1
14/04/14 22:17:06 INFO WorkerWebUI: Started Worker web UI at http://tc_52_224:8081
14/04/14 22:17:06 INFO Worker: Connecting to master spark://xx.xx.52.223:7077...
14/04/14 22:17:26 INFO Worker: Connecting to master spark://xx.xx.52.223:7077...
14/04/14 22:17:46 INFO Worker: Connecting to master spark://xx.xx.52.223:7077...
14/04/14 22:18:06 ERROR Worker: All masters are unresponsive! Giving up.
Suivi est mon spark-env.sh:
JAVA_HOME=/usr/local/jdk
export SPARK_MASTER_IP=tc-52-223
export SPARK_WORKER_CORES=1
export SPARK_WORKER_INSTANCES=1
export SPARK_MASTER_PORT=7077
export SPARK_WORKER_MEMORY=4g
export MASTER=spark://${SPARK_MASTER_IP}:${SPARK_MASTER_PORT}
export SPARK_LOCAL_IP=tc-52-223
J'ai googlé de nombreuses solutions, mais qu'ils ne peuvent pas travailler.
S'il vous plaît aider moi.
source d'informationauteur FatGhosta
Vous devez vous connecter pour publier un commentaire.
Je ne suis pas sûr si c'est le même problème que j'ai rencontré, mais vous pouvez essayer le réglage de la
SPARK_MASTER_IP
la même chose que ce que l'étincelle se lie à l'. Dans votre exemple, ressemble, il serait10.11.52.223
et pastc-52-223
.Il doit être le même que ce que vous voyez lorsque vous visitez le nœud principal de l'INTERFACE web sur le port 8080. Quelque chose comme:
Spark Master at spark://ec2-XX-XX-XXX-XXX.compute-1.amazonaws.com:7077
Si vous obtenez une "Connexion refusée" l'exception", Vous pouvez le résoudre en cochant
=> Master est en cours d'exécution sur l'hôte spécifique
Vous obtiendrez quelque chose de similaire à:
Si c'est le cas, alors, de votre travailleur de la machine de faire un
accueil akhldz.maître.io ( remplacer akhldz.maître.io avec votre maître de l'hôte.Si quelque chose va mal, puis ajouter une entrée de l'hôte dans votre fichier /etc/hosts)
telnet akhldz.master.io 7077
( Si ce n'est pas de la connexion, votre travailleur habitude de se connecter. )=> l'Ajout d'Accueil entrée dans /etc/hosts
Ouvrir /etc/hosts de votre travailleur de la machine et ajoutez l'entrée suivante (exemple)
PS :Dans le cas ci-dessus Pillis était d'avoir deux adresses ip ayant le même nom d'hôte
par exemple:
Espérer que l'aide.
Il y a beaucoup de réponses et des solutions possibles, et cette question est un peu vieux, mais dans l'intérêt de l'exhaustivité, il est connu Étincelle bug sur la résolution des noms d'hôtes en adresses IP. Je ne suis pas présentant ceci comme la réponse complète dans tous les cas, mais je suggère d'essayer avec une base de référence de toutes les adresses ip, et d'utiliser uniquement la seule config SPARK_MASTER_IP. Avec juste ces deux pratiques-je obtenir mon grappes de travail et de tous les autres configs, ou à l'aide de noms d'hôtes, semble juste à nettoyer les choses.
Dans votre spark-env.sh se débarrasser de SPARK_WORKER_IP et changement SPARK_MASTER_IP à une adresse IP, pas de nom d'hôte.
J'ai traité cela plus en détail dans cette réponse.
Pour plus d'exhaustivité, voici une partie de la réponse:
Je pense que les esclaves fichier sur le nœud maître, et le mot de passe de moins de ssh peut conduire à des erreurs similaires à ce que vous voyez.
Par la réponse que je réticulé, il y a un vieux bug mais il n'est pas clair comment ce bug a été résolu.
régler le port pour l'étincelle travailleur, par exemple.:
SPARK_WORKER_PORT=5078
... vérifier laspark-installation lien pour l'installation correctefondamentalement vos ports sont bloqués jusqu'à la communication de maître à travailleur est coupé. consultez ici les https://spark.apache.org/docs/latest/configuration.html#networking
Dans la "mise en Réseau" de la section, vous pouvez voir quelques-uns des ports par défaut aléatoire. Vous pouvez les configurer pour votre choix comme ci-dessous:
J'mon cas, j'ai pu surmonter le problème comme "l'ajout de l'entrée de nom d'hôte et l'adresse IP de localhost /etc/hosts", comme suit:
Pour un cluster, le maître a le /etc/hosts du contenu comme suit:
Puis je fais aussi la MÊME CHOSE sur slave1.yourhost.com machine.
Espère que cela aide..
J'ai eu face d'un même problème . vous pouvez le résoudre en procédure ci-dessous ,
d'abord, vous devez aller à
/etc/hosts
fichier et commentaire127.0.1.1
adresse .ensuite, vous devez aller vers le
spark/sbin
répertoire , alors vous devriez commencé étincelle session par ces commandes ,ou vous pouvez utiliser
./start-master.sh
et./start-slave.sh
pour la même chose . Maintenant, si vous voulez exécuterspark-shell or pyspark
ou de tout autre composant spark alors il sera automatiquement créer l'étincelle objet de contextesc
pour vous .