Comment extraire les données Mainframe pour Hadoop
J'ai des fichiers dans l'ordinateur central. Je veux que ces données soient transférées vers Hadoop(HDFS)/la RUCHE.
Je peux utiliser Sqoop pour le Mainframe DB2 base de données et les importer dans la RUCHE, mais ce que sur les fichiers (comme COBOL
,VASM
etc.)
Est-il personnalisé canalisation de la source que je peux écrire ou de quelque autre outil à utiliser ici?
OriginalL'auteur azzaxp | 2013-02-28
Vous devez vous connecter pour publier un commentaire.
COBOL est un langage de programmation, pas un format de fichier. Si ce que vous avez besoin est d'exporter les fichiers produits par les programmes en COBOL, vous pouvez utiliser la même technique que si ces fichiers ont été produites par C, C++, Java, Perl, PL/I, Rexx, etc.
En général, vous disposez de trois différentes sources de données: fichiers plats, fichiers VSAM, et un SGBD tel que DB2 ou IMS.
DMBSs ont exportation des utilitaires pour copier les données dans des fichiers plats. Gardez à l'esprit que les données de DB2 sera probablement normalisé et donc, vous avez probablement besoin le contenu de tables liées, afin de donner un sens aux données.
VSAM fichiers peuvent être exportés vers des fichiers plats via le IDCAMS utilitaire.
Je suggère fortement que vous obtenez les fichiers dans un format de texte avant de les transférer vers une autre boîte avec une autre page de code. D'essayer de traiter avec un mélange de texte (qui doit avoir son code de la page traduite) et binaire (qui ne doit pas avoir sa page de code traduit, mais qui doit probablement être convertis à partir de big endian à little endian) est plus difficile que de faire de la conversion à l'avant.
La conversion peut être effectuée via le TRI de l'utilitaire sur l'ordinateur central. Mainframe SORTE utilitaires ont tendance à avoir une vaste fonctions de manipulation de données. Il existe d'autres mécanismes que vous pourriez utiliser (d'autres services publics, code personnalisé écrit dans la langue de votre choix, progiciels), mais c'est ce que nous avons tendance à faire dans ces circonstances.
Une fois que vous avez votre plat fichiers convertis tels que toutes les données de texte, vous pouvez les transférer sur votre Hadoop boîtes via FTP ou SFTP ou FTPS.
Ce n'est pas une couverture exhaustive du sujet, mais il vous permettra de commencer.
Ne IDCAMS fonctionnent bien si mon fichier VSAM a COM3 contenu ? Comment, par ailleurs, en temps réel ou en quasi temps réel de la réplication de cet outil est capable de ?
vous souhaitez utiliser votre TRI utilitaire pour convertir les paniers décimal (COMP-3) les données dans un format lisible. La réplication en temps réel pourrait être accompli via la planification de l'exécution d'un travail, à des intervalles appropriés, mais vous voudrez peut-être examiner d'autres solutions si l'intervalle est trop court et/ou à la VSAM fichier est volumineux. Parlez-en à votre personnel technique en tant que projet de Loi Woodger indiqué dans le votre question.
OriginalL'auteur cschneid
Syncsort a été le traitement de données mainframe pour 40 ans (environ 50% des mainframes déjà exécuter le logiciel), ils ont un produit spécifique appelé DMX-H qui peut la source de données de l'ordinateur central, gérer les conversions de types de données, importer le cobol copier des livres et de les charger directement dans HDFS.
Syncsort aussi récemment contribué à une nouvelle fonctionnalité d'amélioration de l'Apache Hadoop de base
Je vous suggère de les contacter au http://www.syncsort.com
Ils montraient ce dans une démo lors d'une récente Cloudera roadshow.
Vous avez des chiffres pour "50% des mainframes déjà exécuté [SyncSort]"?
OriginalL'auteur Mainframegeek
Mise à jour pour 2018:
Il y a un certain nombre de produits commerciaux qui aident à transférer des données de l'ordinateur central pour différentes plateformes. Voici une liste de ceux que j'ai couru dans un pour ceux qui sont intéressés. Toutes les données sur Z tel que décrit dans la question et vont faire de la transformation et de permettre le mouvement des données à d'autres plates-formes. Pas une correspondance exacte, mais l'industrie a changé et que le but de déplacer des données pour l'analyse à d'autres plates-formes est en croissance. Data Virtualization Manager offre la plus robuste de l'outillage pour transformer les données à partir de ce que j'ai vu.
SyncSort IronStream
IBM Commune Fournisseur de Données
Correlog
IBM Data Virtualization Manager
OriginalL'auteur Hogstrom
Pourquoi pas :
hadoop fs -put <what> <where>
?OriginalL'auteur www
Tirez pas, mais pousse: utiliser le Co:Z Launcher de queue d'aronde Technologies.
Par exemple (JCL extrait):
où /u/me/données.csv (l'unité centrale à base de données que vous voulez dans Hadoop) et /u/me/données.hcatalog (correspondant HCatalog fichier) sont z/OS UNIX chemins d'accès de fichier.
Pour un exemple plus détaillé, où les données se trouve être des enregistrements de journal, voir L'extraction de journaux pour Hadoop.
OriginalL'auteur Graham Hannington
Transmission de cobol fichiers de mise en page peut être fait par dessus discuté des options. Cependant réelle de les faire correspondre à la table de la Ruche est une tâche complexe que cobol de mise en page complexe formats en fonction de la clause, de longueur variable, etc.,
J'ai essayé de créer des serde à atteindre, même s'il est encore au stade initial. Mais voici le lien qui pourrait vous donner une idée de comment désérialiser en fonction de vos besoins.
https://github.com/rbheemana/Cobol-to-Hive
OriginalL'auteur Ram Manohar
Cobrix pourrait être en mesure de le résoudre pour vous. C'est un open-source COBOL source de données pour le Spark et peut analyser les fichiers que vous avez mentionné.
OriginalL'auteur Felipe Martins Melo