Comment faire pour extraire des données de Google Analytics et de construire un entrepôt de données (webhouse)?

J'ai cliquez sur le flux de données telles que l'adresse URL de renvoi, en haut des pages d'atterrissage, en haut des pages de sortie et les mesures telles que les pages vues, nombre de visites, messages tout dans Google Analytics. Il n'existe pas de base de données où toutes ces informations peuvent être stockées. Je suis dans l'obligation de construire un entrepôt de données à partir de zéro(qui je crois est connu comme le web maison) à partir de ces données.Donc j'ai besoin d'extraire des données de Google Analytics et de le charger dans un entrepôt sur une base quotidienne base automatique. Mes questions sont:-

1)Est-il possible? Chaque jour de données augmente (certains en termes de mesures ou des mesures telles que des visites et certains en termes de nouveaux sites de référence), comment le processus de chargement de l'entrepôt aller à ce sujet?

2)Quel outil ETL pourrait m'aider à réaliser ceci? Pentaho je crois qu'il a un moyen d'extraire des données à partir de Google Analytics, quelqu'un at-il utilisé? Comment ça se fait?
Des références, des liens seraient appréciées en plus de réponses.

Scitylana - www.scitylana.com pouvez vous obtenir une partie du chemin. Raw clicklevel GA données sont écrites dans .les fichiers txt, automatiquement tous les jours.

OriginalL'auteur nkaur301 | 2010-05-18

14

Comme toujours, de connaître la structure de la transaction sous-jacente des données--atomique composants utilisés pour construire un DW-c'est la première et plus importante étape.

Il existe essentiellement deux options, selon la façon dont vous récupérer les données. L'un de ces, déjà mentionné dans un avant de répondre à cette question, est d'accéder à votre GA données par l'intermédiaire de l'AG de l'API. C'est assez proche de la forme que les données apparaissent dans le Rapport de l'ÉG, plutôt que de données transactionnelles. L'avantage d'utiliser ce que votre source de données, c'est que votre "ETL" est très simple, il suffit de l'analyse des données à partir du XML contenant est à propos de tout ce qui est nécessaire.

La deuxième option implique l'accaparement des données beaucoup plus proche de la source.

Rien de bien compliqué, encore, quelques lignes de fond sont peut-être utile ici.
- La GA tableau de bord Web est créé par
  analyse/le filtrage de l'AG du journal des transactions
  (le conteneur
  qui détient le GA données
  correspond à un Profil dans un
  Compte).
- Chaque ligne de ce journal représente un
  seule transaction et est livré
  l'AG de serveur sous la forme d'un
  Requête HTTP de la part du client.
- Annexé à cette Demande (qui est
  nominalement pour un format GIF à pixel unique) est
  une seule chaîne de caractères qui contient tous
  les données renvoyées par qui
  _TrackPageview appel de fonction ainsi que les données de la client DOM, GA cookies
  ensemble pour ce client, et le
  contenu de la localisation du Navigateur
  bar (http://www....).
- Bien que cette Demande est à partir de la
  client, il est appelé par l'AG
  script (qui se trouve sur le client)
  immédiatement après l'exécution de la GA primaire
  la collecte de données de la fonction
  (_TrackPageview).
Donc de travailler directement avec les données de la transaction est probablement le moyen le plus naturel pour construire un Entrepôt de Données; un autre avantage est que vous éviter la charge supplémentaire d'un intermédiaire de l'API).

Les différentes lignes de la GA journal ne sont pas normalement disponible à GA utilisateurs. Pourtant, il est simple à obtenir. Ces deux étapes suffisent:
1. modifier la GA code de suivi sur chaque page de votre Site de sorte qu'il
  envoie une copie de chaque Demande GIF
  (une seule ligne dans la GA logfile) à votre
  propre serveur, en particulier,
  immeidately avant l'appel à
  _trackPageview(), ajoutez cette ligne:
```
pageTracker._setLocalRemoteServerMode();
```
2. Ensuite, il suffit de mettre une image gif à pixel unique
  image à la racine de vos documents et de les appeler
  "__utm.gif".
Alors maintenant, votre journal des activités du serveur contiendra ces transction lignes, de nouveau construit à partir d'une chaîne ajouté à une Requête HTTP pour la GA pixel de suivi ainsi que d'autres données dans la Demande (par exemple, la chaîne de l'Agent Utilisateur). Cet ancien de la chaîne est juste un enchaînement de paires clé-valeur, chaque clé commence par les lettres "utm" (sans doute pour "urching tracker"). Pas tous les utm paramètre apparaît dans chaque GIF Demande, plusieurs d'entre eux, par exemple, sont utilisés uniquement pour les transactions de commerce électronique, tout dépend de la transaction.

Ici un GIF Demande (ID de compte a été aseptisé, sinon il est intact):

http://www.google-analytics.com/__utm.gif?utmwv=1&utmn=1669045322&utmcs=UTF-8&utmsr=1280x800&utmsc=24-bit&utmul=en-us&utmje=1&utmfl=10.0%20r45&utmcn=1&utmdt=Position%20Listings%20%7C%20Linden%20Lab&utmhn=lindenlab.hrmdirect.com&utmr=http://lindenlab.com/employment&utmp=/employment/openings.php?sort=da&&utmac=UA-XXXXXX-X&utmcc=__utma%3D87045125.1669045322.1274256051.1274256051.1274256051.1%3B%2B__utmb%3D87045125%3B%2B__utmc%3D87045125%3B%2B__utmz%3D87045125.1274256051.1.1.utmccn%3D(referral)%7Cutmcsr%3Dlindenlab.com%7Cutmcct%3D%2Femployment%7Cutmcmd%3Dreferral%3B%2B

Comme vous pouvez le voir, cette chaîne est constituée par un ensemble de paires clé-valeur, séparées par un "&". Juste deux trivial suit: (i) la division de cette chaîne sur l'esperluette; et (ii) en remplaçant chaque gif paramètre (clé) avec une brève phrase, faire ce beaucoup plus facile à lire:

gatc_version 1

GIF_req_unique_id 1669045322

language_encoding UTF-8

screen_resolution         1280x800

screen_color_depth        24-bit

browser_language          en-us

java_enabled              1

flash_version             10.0%20r45

campaign_session_new      1

titre de la page                Position%20Listings%20%7C%20Linden% 20Lab

host_name lindenlab.hrmdirect.com

referral_url        http://lindenlab.com/employment

page_request              /employment/openings.php?sort=da

account_string            UA-XXXXXX-X

cookies __utma%3D87045125.1669045322.1274256051.1274256051.1274256051.1%3B%2B__utmb%3D87045125%3B%2B__utmc%3D87045125%3B%2B__utmz%3D87045125.1274256051.1.1.utmccn%3D(referral)%7Cutmcsr%3Dlindenlab.com%7Cutmcct%3D%2Femployment%7Cutmcmd%3Dreferral%3B%2B

Les cookies sont également simples à analyser (voir Google description concise ici): par exemple,
- __utma est l'unique visiteur cookie,
- __utmb, __utmc sont des cookies de session, et
- __utmz est l'aiguillage type.
La GA cookies stockent la majorité des données qui enregistrent chaque interaction par un utilisateur (par exemple, en cliquant sur un tagged lien de téléchargement, en cliquant sur un lien vers une autre page sur le Site, suivi d'une visite le jour suivant, etc.). Ainsi, par exemple, l' __utma cookie est composé d'un groupe de nombres entiers, chaque groupe séparé par un "."; le dernier groupe est le nombre de visite pour l'utilisateur (un "1" dans ce cas).

OriginalL'auteur doug
3

Vous pouvez utiliser le API d'Exportation de données à partir de Google ou d'un service tel que celui que nous avons construit spécifiquement pour votre besoin: http://www.analyticspros.com/products/analytics-data-warehouse.html.

Mieux,

Caleb Whitmore
http://www.analyticspros.com /www.analyticsformarketers.com

Salut Celeb, Merci pour votre réponse. J'étais venu dans ce à quelques minutes en arrière, mais n'était pas tout à fait sûr si j'ai bien compris en profondeur. Il est dit: "l'Analytique de Sauvegarde envoie les données de suivi dans un nuage de capture de données et de l'entrepôt et de l'environnement conçu spécialement pour le but de la sauvegarde et de l'archivage de Google Analytics premières données de suivi." Cela signifie donc qu'il serait de stocker toutes les données Google analytics dans une structure de l'entrepôt ou de l'environnement et alors que les données peuvent être utilisées par un outil de BI pour la production de rapports? Aussi peut extraction de données automatisée sur une base régulière? Merci encore.

OriginalL'auteur Caleb Whitmore
3

Comme Shiva dit, vous pouvez toujours tirer GA données par Google Api et de l'entrepôt vous-même. Toutefois, si vous êtes à la recherche pour un coût d'entreposage efficace outil de, essayer Analytics Toile @ http://www.analyticscanvas.com/

Vous pouvez aussi consulter Google galerie d'applications pour Google Analytics outils associés:
http://www.google.com/analytics/apps/

OriginalL'auteur Shayan Masood
2

Vous pouvez tirer le GA (Google Analytics) données à tout moment, via leur API et de construire votre propre entrepôt de données (DW). Avant de commencer, vous pouvez rester à l'utilisateur de l'entreprise et d'obtenir une compréhension claire des besoins de l'entreprise. Dans DW environnement, il est extrêmement important de disposer d'un ensemble clair d'objectifs et de compréhension de l'entreprise aux exigences de l'utilisateur en raison du fait que vous maintenir un historique des opérations qui vivent depuis longtemps et utilisé souvent.

En supposant que l'utilisateur définit les KPI (Indicateurs Clés de Performance), les mesures, les dimensions, la granularité nécessaire pour vous de vous engager, vous pouvez vérifier les différentes dimensions et les paramètres qui sont disponibles par le biais de GA API à l'code.google.com/apis/analytics/docs/. Ensuite c'est juste une question de faire le bon appel de l'API et d'obtenir ce dont vous avez besoin. DW activité implique le nettoyage des données, d'extraction, de transformation et de chargement (ETL) ou ELT avec résumant les faits dans différentes dimensions. Depuis de données est beaucoup plus propre que l'on pourrait rencontrer dans des systèmes disparates (de journaux web, fournisseurs externes, excel ou des fichiers, etc.), vous pouvez simplement charger les données à travers des outils ETL (Par exemple, Talend, Pentaho, SSIS, etc.) ou par le biais de l'application de votre choix (Perl, Java, Ruby, C#, etc).

Pour charge quotidienne, vous avez besoin de conception incrémentale du processus de chargement lors de la faible trafic en temps (tous les soirs des charges), en tirant seulement les données récentes, de rajouts tous les doublons, un nettoyage de toute non-conformité des données, la manipulation erraneous lignes, etc.

J'ai fourni un échantillon GA application de l'API à http://www.hiregion.com/2009/10/google-analytics-data-retriever-api-sem_25.html et il vous fournira des informations de base pour commencer.

Merci Shiva. J'ai essayé à l'aide de Talend pour extraire les données Google Analytics avec ses tGoogleAnalyticsInput composant. Toutefois, il me demande de spécifier des colonnes dans la section de Données dont je ne suis pas en mesure d'ajouter de toute façon. Si vous avez une idée à ce sujet, ce serait super si vous pouviez donner un aperçu de la façon d'aller sur les paramètres de ce composant. Apprécier tous de votre aide.

OriginalL'auteur Shiva
1

Il y a deux règles importantes à propos du chargement des données dans les entrepôts de
1. Chargement Initial
2. Incrémentielle des données de charge
Lors de la conception de l'aide de GA api, vous devez charger les initiales données historiques pour une certaine plage de dates. Il a ses propres complications que vous pourriez avoir des problèmes de segmentation, de la perte de données, etc. Vous devez gérer la pagination etc.

Une fois le chargement des données est terminée, à vous ensuite de l'exécuter en mode incrémental où vous venez d'apporter de nouvelles données. Les données sont ajoutées à la même entrepôt de Données les tables et ne pas causer des doubles dates se chevauchent.

Sur le dessus de cette AG modifications de leur API fréquemment de sorte que vous devez être sur le dessus de cela.

Vu ce qui précède, nous avons publié une entièrement emballé données entrepôt avec Google Analytics et Salesforce connecteurs de données. Vous pouvez vérifier les détails et obtenir des idées sur la façon dont vous souhaitez configurer votre propre datawarehouse http://www.infocaptor.com/google-analytics-datawarehouse

Le minimum que vous auriez besoin de la conception est une sorte de démon en tâche de fond qui s'exécute tous les jours ou à certaines fréquences. Vous aurez besoin de tables de travail pour évaluer le succès et l'échec des extraits de sorte qu'il puisse reprendre là où l'erreur s'est produite.

Certaines autres considérations
1. Qu'advient-il si vous exécutez l'extrait pour la même plage de données
2. Que faire si un emploi ne parvient pas à certaines dates

Il est important de définir les clés primaires pour votre DW tables cible.Dans MySQL, en utilisant instruction insert avec double clause assurez-vous qu'il n'existe pas de doublons créés en cas de rechargement de données.

Une autre chose à la conception de votre mise en scène de la couche. Vous extraire des données à partir de GA et de vidage dans une mise en scène. De cette façon, si il y a une erreur de chargement dans la Cible, vous pouvez simplement recharger à partir de la mise en scène. De cette façon, vous n'êtes pas surcharger votre GA API limites et économiser de la bande passante.

Vous pouvez voir notre complète de la conception à cet endroit
http://www.infocaptor.com/help/social_analytics___datawarehouse.htm

Tout le meilleur avec vos DW effort.

OriginalL'auteur Nilesh
0

Nous permet d'exporter les données de google analytics pour toute autre entrepôt de données (ou) SGBDR (ou) Hadoop à l'aide d' Pentaho outil d'Intégration de Données, pdi bouilloire. Pentaho gratuitement Pentaho Community Edition à utiliser.

Il suffit de suivre cette étape pour transformer les données de google analytics
http://wiki.pentaho.com/display/EAI/Google+Analytics

Cet outil est bon par convivial, de coût et de performance sage. Merci.

OriginalL'auteur ǨÅVËĔŊ RĀǞĴĄŅ

Vous devez vous connecter pour publier un commentaire.