Hortonworks a HA Namenodes donne une erreur “l'Opération de la catégorie de LIRE n'est pas pris en charge dans l'état de veille”

Mon cluster hadoop HA active namenode (host1) soudainement passer à l'état de veille namenode(host2). Je ne pouvais pas trouvé d'erreur dans hadoop journaux (dans n'importe quel serveur) pour identifier la cause.

Après la commutation de la Namenodes d'erreur suivant est apparu dans hdfs journaux fréquemment et non de l'application peut lire les fichiers HDFS.

2014-07-17 01:58:53,381 AVERTIR namenode.FSNamesystem
(FSNamesystem.java:getCorruptFiles(6769)) - se corrompre le fichier de blocs
elle a renvoyé l'erreur: catégorie Opération de LECTURE n'est pas pris en charge dans l'état
veille

Une fois que je redémarre le nouveau nœud actif(host2), namenode est en revenant à nouveau nœud en attente(host1). Puis cluster fonctionne comme d'habitude, les utilisateurs peuvent récupérer les fichiers HDFS.

Je suis à l'aide d'hortonworks a 2.1.2.0 et HDFS version 2.4.0.2.1

Edit:21 Jult 2014
Journaux suivants ont été trouvés dans active namenode journaux lors de l'actif-veille namenode commutateur arriver

NT_SETTINGS-1675610.csv dst=null perm=null 2014-07-20
09:06:44,746 INFO FSNamesystem.audit
(FSNamesystem.java:logAuditMessage(7755)) - admis=true
ugi=tempête (auth:SIMPLE) ip=/10.0.1.50 cmd=getfileinfo
src=/user/tungstène/mise en scène/LEAPSET/PRODUITS/PRODUITS-138018
6.csv dst=null perm=null 2014-07-20 09:06:44,747 INFO FSNamesystem.d'audit (FSNamesystem.java:logAuditMessage(7755)) -
autorisé=true ugi=tempête (auth:SIMPLE) ip=/10.0.1.50
cmd=getfileinfo
src=/user/tungstène/mise en scène/LEAPSET/MERCHANT_SETTINGS/MERCHA
NT_SETTINGS-1695794.csv dst=null perm=null 2014-07-20
09:06:44,747 INFO FSNamesystem.audit
(FSNamesystem.java:logAuditMessage(7755)) - admis=true
ugi=tempête (auth:SIMPLE) ip=/10.0.1.50 cmd=getfileinfo
src=/user/tungstène/mise en scène/LEAPSET/PRODUITS/PRODUITS-139954
1.csv dst=null perm=null 2014-07-20 09:06:44,748 INFO namenode.FSNamesystem (FSNamesystem.java:stopActiveServices(1095)) -
L'arrêt des services a commencé pour l'état actif 2014-07-20 09:06:les 44 750
INFO namenode.FSEditLog (FSEditLog.java:endCurrentLogSegment(1153)) -
Fin du journal segment 842249 2014-07-20 09:06:44,752 INFO
namenode.FSEditLog (FSEditLog.java:printStatistics(673)) - Nombre de
transactions: 2 temps Total de transactions(ms): 0 Nombre de
les transactions groupées dans Synchronise: 0 Nombre de synchronisations: 1 SyncTimes(ms): 4
35 2014-07-20 09:06:44,774 INFO namenode.FSEditLog
(FSEditLog.java:printStatistics(673)) - Nombre de transactions: 2
Temps Total pour les transactions(ms): 0 Nombre de transactions groupées en
Synchronise: 0 Nombre de synchronisations: 2 SyncTimes(ms): 24 37 2014-07-20
09:06:44,805 INFO namenode.FSNamesystem (FSNamesystem.java:run(4362))
- NameNodeEditLogRoller a été interrompu, en sortant de 2014-07-20 09:06:44,824 INFO namenode.FileJournalManager
(FileJournalManager.java:finalizeLogSegment(130)) - Finalisation des modifications
fichier
/ebs/hadoop/hdfs/namenode/actuel/edits_inprogress_0000000000000842249
-> /ebs/hadoop/hdfs nom/de /node/actuel/edits_0000000000000842249-0000000000000842250 2014-07-20
09:06:44,874 INFO blockmanagement.CacheReplicationMonitor
(CacheReplicationMonitor.java:run(168)) - Fermeture
CacheReplicationMonitor 2014-07-20 09:06:44,876 INFO
namenode.FSNamesystem (FSNamesystem.java:startStandbyServices(1136)) -
Démarrage des services requis pour la mise en veille de l'etat 2014-07-20 09:06:44,927
INFO ha.EditLogTailer (EditLogTailer.java:(117)) - Va rouler
les journaux sur le nœud actif à hadoop-client-nous-ouest-1b/10.0.254.10:8020 chaque
120 secondes. 2014-07-20 09:06:44,929 INFO ha.StandbyCheckpointer
(StandbyCheckpointer.java:start(129)) - à Partir de veille de point de contrôle
fil de discussion... Checkpoint active NN à
http://hadoop-client-nous-ouest-1b:50070 Servir de points de contrôle à
http://hadoop-client-nous-ouest-1a:50070 2014-07-20 09:06:44,930 INFO
de la cib.Serveur (Server.java:run(2027)) - Serveur IPC gestionnaire 3 sur 8020,
appel org.apache.hadoop.hdfs.le protocole.ClientProtocol.getFileInfo de
10.0.1.50:57297 Appel#8431877 Réessayer de#0: org.apache.hadoop.de la cib.StandbyException: catégorie Opération de LECTURE n'est pas
pris en charge dans l'état de veille 2014-07-20 09:06:44,930 INFO de la cib.Serveur
(Le serveur.java:run(2027)) - Serveur IPC gestionnaire de 16 sur 8020, appel
org.apache.hadoop.hdfs.le protocole.ClientProtocol.getFileInfo de
10.0.1.50:57294 Appel#130105071 Réessayer de#0: org.apache.hadoop.de la cib.StandbyException: catégorie Opération de LECTURE n'est pas
pris en charge dans l'état de veille 2014-07-20 09:06:44,940 INFO de la cib.Serveur
(Le serveur.java:run(2027)) - Serveur IPC gestionnaire 14 sur 8020, appel
org.apache.hadoop.hdfs.le protocole.ClientProtocol.getFileInfo de
10.0.1.50:57294 Appel#130105072 Réessayer de#0: org.apache.hadoop.de la cib.StandbyException: catégorie Opération de LECTURE n'est pas
pris en charge dans l'état de veille

Édition:13 août 2014
Nous avons été en mesure de trouver la cause racine de namenode de commutation, namenode de recevoir beaucoup d'informations sur le fichier des demandes et puis namenode de commutation a été passé.

Mais ne peut toujours pas obtenir résoudre catégorie Opération de LECTURE n'est pas pris en charge dans l'état de veille erreur.

Edit:7 décembre 2014
Nous avons constaté que, comme la solution application doivent se connecter manuellement avec active actuelle namenode une fois auparavant actif namenode a échoué. Le trafic pour namenodes en HA mode ne sont pas automatiquement dirigé vers nœud actif.

Je vais voter pour fermer cette question hors-sujet parce que la façon dont il a été résolu est peu probable pour aider d'autres utilisateurs.

OriginalL'auteur nipuna | 2014-07-17