Des outils ETL... que font-ils exactement? Dans les dilettantes conditions, veuillez
J'ai récemment été exposé à des outils ETL comme Talend et Apatar et je me demandais ce qu'est exactement le but/objectif principal de ces outils est la traduction en termes usuels. Qui utilise principalement, et si vous les utilisez, comment ils sont (à partir de ma compréhension) mieux que d'écrire un certain type de scripts.
- "Utilise" eux? Qu'entendez-vous par "utilise"? Les gens de les écrire. Ensuite, ils se exécuter. "Utilise" pourrait signifier quoi que ce soit quand il ne sont pas tous des "utilisateurs finaux" impliqués.
- Permettez-moi de vous ma réponse à une question connexe.
- Depuis liés fil a été supprimé, voici une définition de l'ETL
Vous devez vous connecter pour publier un commentaire.
ETL est l'acronyme de "Extract/Transform/Load". Ces outils de données provenant d'une source et de le déplacer dans un autre. Vous pouvez mapper des schémas à partir de la source vers la destination de manière unique, de transformation et de nettoyage des données avant de se déplacer dans la destination, et de charger la destination de manière efficace. Vous pouvez planifier ETL emplois en tant que processus de traitement par lots.
Ces sources de données peuvent être des bases de données relationnelles, des feuilles de calcul, des fichiers XML, etc.
Qui "utilise" eux? Dépend de ce que tu veux dire par "usages". Ils sont juste le code et la plupart du temps, ils sont programmés dans le cadre des opérations régulières. Il n'y a pas de fin des fonctions utilisateur. Ils sont totalement pour les développeurs de créer et d'activités à exploiter.
Avantage sur les scripts? Aucun. Ils sont des scripts écrits dans une langue propres au domaine (DSL), entièrement axé sur "extraire" de la source, "transformer" et "load" pour charger la destination. La plupart de la partie la plus intéressante du script est le champ par les mappages de champs à chaque étape.
ETL est tout simplement obtenir les données, faire quelque chose pour elle, coller les données quelque part.
Extraction - obtenir des données à partir de quelque part (l'emplacement est appelé la Source). La Source peut être des fichiers, tables de base de données, une pipe, etc.
Transformation - faire quelque chose pour la source de données. E. g. votre source contient de la personne et la date de naissance, de sorte que vous pouvez "transformer" les données pour déterminer l'âge de la personne.
Charge de Prendre la transformée de données et le mettre quelque part, comme une base de données différente ou la même base de données. Cela s'appelle de la Cible. Presque n'importe quel type de magasin de données qui peuvent être une Source peut également être utilisé comme une Cible.
Quelques exemples:
Extraire des données à partir d'un entrepôt de données dans DB2. Transformer les données en utilisant un filtre à seulement envoyer les données qui correspondent à une certaine plage de dates. Charger les données filtrées dans un SQL Server data mart.
Extraire des données à partir de fichiers XML. Transformer les données afin que les données sont "aplatis" en lignes. Charger les données dans un fichier délimité par des virgules.
Extraire les données qui arrivent sur un tuyau ou une file d'attente, comme IBM MQ. Transformer les données en analysant les principaux champs dans le message en file d'attente. Charge de l'analyse des données dans un ordinateur central.
Quelques outils:
Big bucks, de classe Entreprise: Ab Initio, Informatica, IBM Datastage
Moins cher: Jitterbit, Talend
Quelque part au milieu: SSIS pour SQL Server
Qui les utilise?
Essentiellement les entreprises qui ont besoin de construire et de maintenir complexe d'entrepôts de données permettra d'investir dans un outil ETL. ETL outils sont souvent de conception visuelle des outils qui vous permettent de construire un ETL programme visuellement, plutôt que d'utiliser seulement programmatique techniques.
ETL est couramment utilisé dans les applications d'entreposage de données.
Par exemple, vous pourriez avoir un Oracle ou Sql Server système de traitement des commandes. Cela peut conserver toutes les données jusqu'à ce que la commande est expédiée, mais vous ne voulez pas ans de valeur des anciennes commandes bouchent le système.
En outre, vous pourriez avoir plusieurs systèmes de ce genre dans votre entreprise, tous développés indépendamment les uns des autres.
Donc, pour consolider les données de l'historique, vous pouvez créer un entrepôt de données où les données de l'ensemble de ces systèmes disparates en fin de compte, vous permettant un endroit agréable pour faire du reporting, la planification, l'exploration de données, etc.
Depuis toutes les sources de données sont différentes, et les types de données que vous souhaitez stocker à long terme peuvent différer que les données que vous avez dans les petites bases de données, vous avez défini un ETL système pour convertir et gérer le flux de données.