Des ensembles de données pour l'Exécution de l'Analyse Statistique sur
Quels ensembles de données existent sur l'internet que je peux exécuter une analyse statistique sur?
Vous devez vous connecter pour publier un commentaire.
Quels ensembles de données existent sur l'internet que je peux exécuter une analyse statistique sur?
Vous devez vous connecter pour publier un commentaire.
La
datasets
paquet est fourni avec la base de R. Exécutez cette commande pour afficher la liste complète:Au-delà, il y a beaucoup de paquets qui peuvent extraire des données, et bien d'autres qui contiennent des données importantes. De ces, vous pouvez commencer par regarder les HistData paquet, qui "fournit une collection de petits ensembles de données qui sont intéressant et important dans l'histoire de la statistique et de visualisation de données".
Pour les données financières, le
quantmod
le paquet fournit une interface commune pour extraire des données de séries chronologiques à partir de google, yahoo, FRED et les autres:FRED (la Réserve Fédérale de Saint-Louis) est vraiment une mine de gratuit les données économiques.
De nombreux packages R sont livrés avec des données spécifiques à leur but. Donc, si vous êtes intéressé par la génétique, les modèles multiniveaux, etc., les paquets concernés ont souvent l'exemple canonique pour cette analyse. Aussi, le livre paquets sont généralement livrées avec les données nécessaires pour reproduire tous les exemples.
Voici quelques exemples de forfaits:
tidyquant
paquet pour la collecte de données économiques et financières à l'aide de latq_get()
fonction.Un large choix sur le Web. Par exemple, voici un énorme répertoire de les sports de bases de données (tous de fournir les données de gratuit, au moins c'est mon expérience). Dans ce répertoire databaseBaseball.com qui contient, entre autres choses, une base de données complète pour chaque joueur qui a jamais joué au baseball professionnel depuis 1915.
StatLib est une autre excellente ressource--magnifiquement pratique. Cette unique page web listes de 4-5 ligne des résumés de plus d'une centaine de bases de données, qui sont tous disponibles dans la plate-forme de fichier en cliquant simplement sur la "Table" lien au début de chaque jeu de données résumé.
De la distribution de base de R est pré-emballé avec une grande et riche collection de datasts (122 dans la R 2.10). Pour obtenir une liste d'entre eux (ainsi que la description en une ligne):
De même, la plupart des paquets sont livrés avec plusieurs jeux de données (parfois beaucoup plus). Vous pouvez voir ceux de la même façon:
Ces ensembles de données sont ceux mentionnés dans les manuels des paquets et des vignettes pour un paquet donné, et utilisé pour illustrer les fonctionnalités de package.
Quelques packages R avec beaucoup de jeux de données (qui sont faciles à numériser afin que vous puissiez choisir ce qui est intéressant pour vous): AER, DAAG, et vcd.
Une autre chose que je trouve impressionnant, R son I/O. Supposons que vous voulez pour obtenir des données financières précises via le yahoo finance de l'API. Disons que la fermeture de l'ouvrir et de clôture de l'indice S&P 500 pour chaque mois à partir de 2001 à 2009, il suffit de faire ceci:
Dans cette ligne de code, R a extrait les données de tiques, en forme à un dataframe et lié à "tick_data" tous les . (Voici une pratique feuille de triche w/Yahoo Finance API symboles utilisés pour construire l'Url comme ci-dessus)
Avez-vous envisagé de Débordement De La Pile De Données Dumps?
Vous êtes déjà familier avec ce que les données représentent c'est à dire la logique d'entreprise qu'il suit
http://www.data.gov.uk/data
Récemment mis en place par Tim Berners-Lee
Évidemment royaume-UNI base de données, mais qui ne compte pas. Couvre tout, des voitures abandonnées à l'absentéisme à l'école agricole indices des prix de l'
Un bon de commencer à regarder pour les données économiques sont toujours les trois adresses suivantes:
Un bon résumé de données, des liens pour les économistes du développement peut être trouvé à:
Edit:
La Banque Mondiale a décidé la semaine dernière d'ouvrir beaucoup de non-gratuit jeux de données et les a publiés en ligne sur la version révisée de sa page d'accueil. La nouvelle présentation sur internet a l'air assez sympa aussi.
http://www.data.gov/ a probablement quelque chose que vous pouvez utiliser.
Dans leur catalogue des données brutes que vous pouvez définir vos critères pour les données et de trouver ce que vous cherchez http://www.data.gov/catalog/raw
Un faisceau de 268 de petits fichiers texte (les " exemples de
"The R Book"
) peut être trouvé dans La R du Livre compagnon de site web.Vous pourriez regarder sur ce post sur FlowingData
Un autre bon site est Les Données de l'ONU.
Collection de plus de 800 jeux de données au format ARFF compris par Weka et autres kits d'analyse des données, recueillies dans TunedIT.org Référentiel.
Voir les données de la concurrence mis en place par Hadley Wickham pour la Les données de l'Expo de l'ASA de Calcul Statistique et des Graphiques Statistiques section. Le concours est terminé, les données est toujours là.
UC Irvine Machine Learning Repository a actuellement 190 ensembles de données.
J'ai vu sur d'autres questions que vous êtes apparemment intéressé par la visualisation de données. Ont alors un coup d'oeil à de nombreux yeux projet (forme IBM) et l'échantillon des ensembles de données.
Similaire à data.gov mais centré sur l'europe sur d'eurostat est de
http://epp.eurostat.ec.europa.eu/portal/page/portal/statistics/search_database
et il y a un chinois statistiques du departement, aussi, comme mentionné par Les gnous
http://www.stats.gov.cn/english/statisticaldata/monthlydata/index.htm
Puis il y a des "données sociales services" qui offrent le téléchargement de jeux de données, tels que
pivotant, manyeyes, timetric, ckan, infochimps..
La FAO offre la aquastat base de données avec des données avec divers liés à l'eau indicateurs différenciés par pays.
De la Marine à l'Océanographie Portail propose, par exemple, Fraction de la Lune Éclairée.
Le blog de "courbe de normalité" a une liste d'intéressantes sources de données.
Une autre collection de jeux de données.
Voici un package R avec plusieurs agricoles ensembles de données à partir de livres et de papiers. Exemple analyses inclus: agridat