Téléchargement de données de grande taille pour Hadoop
J'ai un grand besoin de données (plus de 10 GO) pour exécuter Hadoop démo. Quelqu'un sait où je peux le télécharger. S'il vous plaît laissez-moi savoir.
- "N'importe qui"? Épurée?
Vous devez vous connecter pour publier un commentaire.
Je vous suggère de télécharger millions de chansons Dataset à partir du site web suivant:
http://labrosa.ee.columbia.edu/millionsong/
La meilleure chose avec des Millions de Chansons jeu de données que vous pouvez télécharger 1 GO (environ 10000 chansons), 10 GO, 50 GO ou environ 300GO dataset à votre cluster Hadoop et de faire ce test que vous voulez. J'aime l'utiliser et apprendre beaucoup de choses à l'aide de cet ensemble de données.
Pour commencer, vous pouvez télécharger dataset commencer avec une lettre de A-Z, qui sera portée à partir de 1 GO à 20 go.. vous pouvez également utiliser Infochimp site:
http://www.infochimps.com/collections/million-songs
Dans l'un de mes blog suivant, j'ai montré comment télécharger 1 GO jeu de données et exécuter des scripts Pig:
http://blogs.msdn.com/b/avkashchauhan/archive/2012/04/12/processing-million-songs-dataset-with-pig-scripts-on-apache-hadoop-on-windows-azure.aspx
Tom White mentionné sur un échantillon de données météorologiques ensemble dans son Livre(Hadoop: the definitive guide).
http://hadoopbook.com/code.html
De données est disponible pour plus de 100 ans.
J'ai utilisé
wget
dans linux pour extraire les données. Pour l'année 2007 de la taille des données est de 27 GO.Il est accueilli comme un
FTP
lien. Ainsi, vous pouvez télécharger avec n'importe quel utilitaire FTP.ftp://ftp.ncdc.noaa.gov/pub/data/noaa/
Pour plus de détails veuillez consulter mon blog:
http://myjourneythroughhadoop.blogspot.in/2013/07/how-to-download-weather-data-for-your.html
Il y a des jeux de données publics disponible sur Amazon:
http://aws.amazon.com/publicdatasets/
Je suggère d'envisager de faire tourner la démo de cluster n' - et donc d'économiser du temps de téléchargement.
Il est également bon d'ensemble de la crowled web de la Commune d'Analyse, qui est également disponible sur amazon s3. http://commoncrawl.org/
Un article qui pourrait être d'intérêt pour vous, "L'utilisation d'Hadoop pour analyser l'intégralité de Wikipédia fichiers de vidage à l'aide de WikiHadoop".
Si vous êtes après page Wikipedia voir les statistiques, puis cette pourrait aider. Vous pouvez télécharger propriété pagecount fichiers à partir de 2007 jusqu'à la date actuelle. Juste pour donner une idée de la taille des fichiers, de 1,9 GO pour une seule journée (ici, j'ai choisi 2012-05-01) répartis dans 24 fichiers.
Actuellement, 31 pays ont des sites mettant à disposition des données publiques dans des formats divers, http://www.data.gov/opendatasites. En outre, la Banque Mondiale met à disposition des données à http://data.worldbank.org/data-catalog
Ce sujet "Internet Recensement de 2012", les données recueillies par une numérisation distribuée sur l'ensemble de l'Internet:
Annonce: http://seclists.org/fulldisclosure/2013/Mar/166
De données: http://internetcensus2012.bitbucket.org/
L'ensemble des données est 7TB, (évidemment) uniquement disponible en torrent.
Si vous êtes intéressé par pays indicateurs, la meilleure source que j'ai trouvé était worldbank.org. Les données peuvent être exportées au format CSV, ce qui rend très facile de travailler avec dans Hadoop. Si vous êtes en utilisant .NET, j'ai écrit un article sur le blog http://ryanlovessoftware.blogspot.ro/2014/02/creating-hadoop-framework-for-analysing.html où vous pouvez voir comment les données des regards, et si vous téléchargez le code de gidhub https://github.com/ryan-popa/Hadoop-Analysis, vous disposez déjà de la chaîne de l'analyse des méthodes.
Il pourrait être plus rapide pour générer les données qu'il est de la télécharger et de le mettre en place. Ceci a l'avantage de vous donner le contrôle du domaine du problème et de laisser votre démo signifie quelque chose pour les gens qui sont à regarder.