Flux de travail pour l'analyse statistique et la rédaction de rapport

Quelqu'un a une sagesse sur les flux de travail pour l'analyse des données liées à la coutume de la rédaction du rapport? Le cas d'utilisation est essentiellement ceci:

  1. Client commande un rapport qui utilise l'analyse de données, par exemple une estimation de la population et cartes relatives pour un district de l'eau.

  2. L'analyste télécharge des données, munges les données et enregistre le résultat (par exemple, l'ajout d'une colonne pour la population par unité, ou subsetting les données sont basées sur les limites du district).

  3. L'analyste analyse les données créées dans (2), est proche de son but, mais voit qui a besoin de plus de données et va donc revenir à (1).

  4. Rincer répéter jusqu'à ce que les tableaux et les graphiques rencontrer d'AQ/CQ et de satisfaire le client.

  5. Rédiger le rapport intégrant des tableaux et des graphiques.

  6. L'année prochaine, le client heureux est de retour et veut une mise à jour. Cela devrait être aussi simple que la mise à jour des données en amont, par un nouveau téléchargement (par exemple, obtenir le permis de construire de l'année dernière), et appuyez sur "RECALCULER" bouton, à moins que les spécifications de changement.

Pour le moment, je viens de commencer un répertoire ad-hoc mieux que je peux. Je voudrais adopter une approche plus systématique, donc je suis en espérant que quelqu'un a compris cela... j'utilise un mélange de feuilles de calcul, SQL, ARCGIS, R, et des outils Unix.

Merci!

PS:

Ci-dessous est une base Makefile qui vérifie les dépendances sur les différents intermédiaires ensembles de données (w/.RData suffixe) et les scripts (.R suffixe). Faire utilise les horodatages pour vérifier les dépendances, donc si vous touch ss07por.csv, il va voir que ce fichier est plus récent que tous les fichiers cibles, qui dépendent d'elle, et exécuter le scripts afin de les mettre à jour en conséquence. C'est toujours un travail en cours, y compris une étape pour la mise en base de données SQL, et une étape pour une création de modèles de langue comme sweave. Veuillez noter que la marque s'appuie sur des onglets dans sa syntaxe, afin de lire le manuel avant de découpage et de collage. Profiter et donner de la rétroaction!

http://www.gnu.org/software/make/manual/html_node/index.html#Top

R=/home/wsprague/R-2.9.2/bin/R 

persondata.RData : ImportData.R ../../DATA/ss07por.csv Fonctions.R 
$R --esclave -f ImportData.R 

persondata.Munged.RData : MungeData.R persondata.RData Fonctions.R 
$R --esclave -f MungeData.R 

report.txt: TabulateAndGraph.R persondata.Munged.RData Fonctions.R 
$R --esclave -f TabulateAndGraph.R > report.txt 

  • Oh mon. ceux qui entrez ici, méfiez-vous: les réponses à cette question étaient excellentes, il y a cinq ans. Ils sont aujourd'hui complètement dépassée. Aujourd'hui, je vous conseille fortement contre suivant l'une des réponses ici. Il y a maintenant beaucoup mieux les outils disponibles. Pour commencer, je vais reportez-vous à un exemple de projet à l'aide de fichiers Makefile et Knitr.
  • R ordinateurs Portables, pilotes odbc, git et git lfs sont tous envoyé du ciel pour ce problème.
  • Je vous recommande fortement de mettre en place le projet selon les principes énoncés e.g ici(github.com/ropensci/rrrpkg). Le soi-disant "recherche compedium" est une aubaine quand on fait reproductible de la science des données
InformationsquelleAutor forkandwait | 2009-09-15