“GC Généraux limite dépassée” sur Hadoop .20 datanode

J'ai cherché mais pas trouver de nombreuses informations liées à Hadoop Datanode processus de mourir en raison de GC généraux limite dépassée, donc je pensais que je poste une question.

Nous sommes exécution d'un test où nous devons confirmer notre cluster Hadoop peuvent prendre en charge ~3millions fichiers stockés sur elle (actuellement 4 nœud de cluster). Nous sommes à l'aide d'une JVM 64 bits et nous avons alloué 8g pour le namenode. Cependant, comme mon programme de test écrit plus de fichiers DFS, les datanodes commencent à mourir avec cette erreur:
Exception in thread "DataNode: [/var/hadoop/data/hadoop/données]" java.lang.OutOfMemoryError: GC généraux limite dépassée

J'ai vu quelques posts au sujet de certaines options (parallèle GC?) Je suppose que ce qui peut être mis en hadoop-env.sh mais je ne suis pas trop sûr de la syntaxe et je suis un peu un newbie, donc je n'ai pas assez grok comment c'est fait.
Merci pour toute l'aide ici!

Juste une mise à jour ici pour les gens: @1,5 million de fichiers dfs, quand mon JVM 64 bits était à 1g (par défaut), les données des nœuds commencent à mourir avec cette erreur. Quand je l'ai fait monter à la 2g, il s'en alla jusqu'à ce que j'ai environ 3 millions de fichiers. Je me demandais si ce type de mémoire ballonnement est un problème connu ou non et, dans l'affirmative, quelles autres recommandations puis-je essayer de le réparer?
comme Tejas Patil mentionné, la taille de bloc par défaut est de 64 mo. Hadoop charge des métadonnées pour chaque fichier dans la mémoire à chaque fois qu'il s'exécute. Les fichiers plus vous avez, plus de mémoire qu'elle va prendre. Si ces fichiers sont beaucoup plus petits que la taille de bloc par défaut et vous avez la possibilité de le faire, essayez de combiner les fichiers en fichiers plus gros de magasin de HDFS. juste une pensée 🙂

InformationsquelleAutor hatrickpatrick | 2012-04-11

garbage-collection hadoop

8

Essayez d'augmenter la mémoire de datanode en utilisant ce: (hadoop redémarrage nécessaire pour faire ce travail)
```
export HADOOP_DATANODE_OPTS="-Xmx10g"
```
Ceci permettra de définir le segment de 10 go...vous pouvez augmenter selon votre besoin.

Vous pouvez également les coller au départ de $HADOOP_CONF_DIR/hadoop-env.sh fichier.
- Fondamentalement résolu, mais j'ai aussi appris que lorsque vous stockez un grand nombre de fichiers sur un petit cluster, le DataNode utilisation de monte rapidement, car le nombre de places est limité réplication peut se produire. Si l'on ajoute des nœuds, puis le nœud de données de la mémoire ne devrait pas monter aussi rapidement (ce que j'entends!).
- HDFS utilise 64 MO de blocs pour le stockage de fichiers...si les fichiers sont petits, alors beaucoup de mémoire sera perdu et même namenode devra garder une trace de celles-ci. Ayant peu mais des fichiers est mieux que d'avoir de nombreux petits fichiers.
InformationsquelleAutor Tejas Patil
0

Si vous utilisez une carte de réduire le travail à partir de la ligne de commande, vous pouvez augmenter le tas à l'aide du paramètre -D 'mapreduce.map.java.opts=-Xmx1024m' et/ou -D 'mapreduce.réduire.java.opts=-Xmx1024m'. Exemple:
```
hadoop --config /etc/hadoop/conf jar /usr/lib/hbase-solr/tools/hbase-indexer-mr-*-job.jar --conf /etc/hbase/conf/hbase-site.xml -D 'mapreduce.map.java.opts=-Xmx1024m' --hbase-indexer-file $HOME/morphline-hbase-mapper.xml --zk-host 127.0.0.1/solr --collection hbase-collection1 --go-live --log4j /home/cloudera/morphlines/log4j.properties
```
Noter que dans certains Cloudera de la documentation, ils utilisent toujours les anciens paramètres mapred.child.java.opts, mapred.map.child.java.opts et mapred.reduce.child.java.opts. Ces paramètres ne fonctionnent plus pour Hadoop 2 (voir Quelle est la relation entre " mapreduce.carte.de la mémoire.mo' et 'mapred.carte.enfant.java.opte pour Apache Hadoop YARN?).

InformationsquelleAutor stefan.m
0

Ce post résolu le problème pour moi.

Donc, la clé est de "Ajouter que la variable d'environnement" (1er temps vu ce linux syntaxe de la commande 🙂 )
```
HADOOP_CLIENT_OPTS="-Xmx10g" hadoop jar "your.jar" "source.dir" "target.dir"
```
InformationsquelleAutor Khalid Mammadov
-2

GC généraux limite indique que votre (petit) segment de mémoire est pleine.

C'est ce qui arrive souvent dans MapReduce opérations lorsque u processus d'un grand nombre de données. Essayez ceci:
```
< property >

  < name > mapred.child.java.opts < /name >

   < value > -Xmx1024m -XX:-UseGCOverheadLimit < /value >

< /property >
```
Aussi, essayez ces choses suivantes:

Utiliser les multiplexeurs, les réducteurs ne devriez pas faire des listes plus qu'un petit multiple du nombre de cartes

Dans le même temps, vous pouvez générer des tas de vidage de OOME et d'analyser avec YourKit, etc adn analyser
- C'est tout simplement faux.
- mapred.enfant.java.opte peuvent être utilisés de contrôle des tas de hadoop emplois engendré et non pas le datanode.
- bon, je n'ai pas vérifié, Mais, en fait, son problème est de deux types: (1) les Données des nœuds de limitation de la mémoire (2) entre les étapes de tri, etc. Donc, mon point est que nous cann pas aveuglément augmenter le nœud de données de la taille du segment t0 10 GO, 20 GO comme ça, si l'on peut s'accorder avec les paramètres (comme indiqué ci-dessus) et d'utiliser des multiplexeurs, je pense que la solution serait de bon.
InformationsquelleAutor shiva kumar s

Vous devez vous connecter pour publier un commentaire.