Différentes manières d'importer des fichiers dans HDFS

Je veux savoir quels sont les différents moyens par lesquels je peux apporter des données dans HDFS.

Je suis un newbie sur Hadoop et a été un java développeur web jusqu'à ce temps. Je veux savoir si j'ai une application web qui est la création de fichiers journaux, comment puis-je importer les fichiers journaux dans HDFS.

OriginalL'auteur Gaurav | 2015-09-26

10

Il ya beaucoup de façons sur la façon de procéder à l'acquisition des données dans HDFS, laissez-moi essayer de l'illustrer ici:
1. hdfs dfs -put - simple façon d'insérer des fichiers du système de fichiers local à HDFS
2. HDFS API Java
3. Sqoop - pour apporter des données vers/à partir de bases de données
4. Flume - le streaming de fichiers, logs
5. Kafka - distributed file d'attente, surtout pour la quasi-temps réel de traitement de flux
6. Nifi - incubation de projet à Apache pour déplacer des données dans HDFS sans faire beaucoup de changements
Meilleure solution pour apporter de l'application web des journaux de HDFS est à travers la Buse.

Merci @Ashrith..pouvez-vous s'il vous plaît dites-moi que, dans une société avec Bigdata services , comment font-ils pour importer des données dans HDFS ? Ils utilisent les mêmes méthodes que vous avez mentionné ici.
Quel est l'outil utilisé dépend du type de données que vous voulez importer dans HDFS. Cela étant dit , vous pouvez également avoir un pipeline d'importation de données qui utilise plus qu'un seul outil . par exemple: Canal+Kafka
Merci @clyde d'cruz..Si mon entreprise utilise CRM, ERP et d'un serveur pour le stockage de données que peut-être les méthodes d'importation de données à partir de ces systèmes dans hdfs
oui les outils mentionnés ci-dessus sont ceux utilisés par les entreprises et les sociétés de mise en œuvre de big data. Pour de tels systèmes CRM, ERP les données sont généralement collectées/exportés sur un autre système et vous pouvez soit utiliser la buse pour la diffusion de ces fichiers ou l'utilisation typique hdfs mettre les commandes. Généralement les gens utilisent Hadoop si vous avez un gros problème de données (des centaines de téraoctets) ou de l'entrepôt de données de décharge, si non d'entre eux sont vos préoccupations, alors n'allez pas dans la douleur de la mise en oeuvre de Hadoop.

OriginalL'auteur Ashrith
1

Nous avons trois différents types de données Structurée (schéma basé systèmes comme Oracle/MySQL etc.), Non structurées (des images, des blogs, etc.) et les données Semi-structurées(XML,...)

Données structurées peuvent être stockées dans la base de données SQL dans le tableau avec des lignes et des colonnes

Les données Semi-structurées est une information qui ne réside pas dans une base de données relationnelle, mais qui n'ont certaines propriétés organisationnelles qui le rendent plus facile à analyser. Avec certains, vous pouvez les stocker dans le rapport de base de données (par exemple, XML)

Données non structurées souvent inclure du texte et du contenu multimédia. Les exemples incluent des e-mails, documents de traitement de texte, des vidéos, des photos, des fichiers audio, présentations, pages web et de nombreux autres types de documents d'affaires.

Selon le type de vos données, vous devrez choisir les outils pour importer des données dans HDFS.

Votre entreprise peut utiliser CRM,ERP outils. Mais nous ne savent pas exactement comment les données sont organisées & structuré.

Si nous laissons simple HDFS des commandes comme mettre, copyFromLocal etc pour charger les données dans HDFS format compatible, ci-dessous sont les principaux outils pour charger les données dans HDFS

Apache Sqoop(TM) est un outil conçu pour assurer un transfert efficace des données en vrac entre Hadoop et structurées de banques de données telles que les bases de données relationnelles. Les données de MySQL, SQL Server & tables Oracle peut être chargé dans HDFS avec cet outil.

Apache Flume est un système distribué, fiable, et le service disponible pour l'efficacité de la collecte, l'agrégation et le déplacement de grandes quantités de données de journal. Il a un simple et flexible de l'architecture, basé sur le streaming de flux de données. Elle est robuste et de tolérance de panne avec réglage de la fiabilité des mécanismes et beaucoup de basculement et les mécanismes de récupération.

d'Autres outils inclure Chukwa,de l'Orage et de Kafka

Mais d'autres l'importance de la technologie, qui est en train de devenir très populaire, c'est l'Étincelle. C'est un Ami & Ennemi pour Hadoop.

Spark l'émergence d'une bonne alternative à Hadoop en temps réel le traitement des données, ce qui peut ou ne peut pas utiliser HDFS en tant que source de données.

OriginalL'auteur Ravindra babu

Vous devez vous connecter pour publier un commentaire.