Est-il un .NET équivalent à Apache Hadoop?
Donc, j'ai été à la recherche à Hadoop avec un vif intérêt, et pour être honnête, je suis fasciné, les choses ne sont pas beaucoup plus frais.
Mon seul petit problème c'est que je suis un développeur C# et en Java.
Ce n'est pas que je ne comprends pas le Java autant que je suis à la recherche pour le Hadoop.net ou NHadoop ou la .NET projet qui embrasse la Google MapReduce approche. Personne ne sait d'une?
Vous devez vous connecter pour publier un commentaire.
Avez-vous regardé à l'aide de Hadoop est en streaming?
- Je l'utiliser en python tout le temps :-).
Je commence à voir que la hétérogène approche est souvent le meilleur et il semble que d'autres personnes font de même.
Si vous regardez des projets comme le protocole des tampons ou facebook de l'épargne vous voyez qu'il est parfois préférable d'utiliser une application écrite dans une autre langue et de construire la colle dans la langue de votre préférence.
Voir http://research.microsoft.com/en-us/projects/dryadlinq/default.aspx ou http://msdn.microsoft.com/en-us/library/dd179423.aspx
Récemment, MySpace de la sortie de leur .NET framework MapReduce, Qizmt, de l'Open Source, c'est donc aussi un potentiel concurrent dans cet espace.
J'ai répondu à votre question dans ma question ici
- À-dire, ici, à la source:
Microsoft abandonné son alternative (Dryade) en faveur de Hadoop.
L'année prochaine, ils vont sortir de MS SQL Server 2012 avec Hadoop intégration. Azure et Windows server support est en cours d'élaboration alors que nous parlons.
Elle sera disponible dans la première moitié de 2012.
Hadoop est le n ° 1 BigData plate-forme et est pris en charge par l'opensource et le propriétaire de la source (Java, .Net, Python, ...), même Oracle est l'adopter.
Si vous étiez le développement de quelque chose, vous devriez vous attendre si vous êtes sur le .Net plate-forme.
Plus d'informations sur ce qui est possible sera disponible ici
Je dirais que DryadLinq est la chose la plus proche que nous .NET folk ont pour Hadoop. Mais cela dépend de ce que vous souhaitez utiliser hadoop pour. Si vous êtes à la recherche pour l'optimisation de l'auto maintien de fichiers distribués (DFS) système DryadLINQ n'est pas ce que vous cherchez. Il a un analogue de la DFS, mais vous devez créer manuellement les partitions et de les distribuer à chaque partition.
Cela étant dit, si son exécution distribué aspect de Hadoop que vous êtes à la recherche pour que DryadLINQ est vraiment magnifique (et non, je ne suis pas affilié avec MS). Tant que vous avez un Microsoft HPC de l'installation du cluster que se passe avec DryadLINQ est vraiment facile.
Le code que vous écrivez est vraiment tout simple code LINQ, sauf qu'au lieu de l'exécution de la LINQ sur
IEnumerable<T>
vous devez l'exécuter surPartitionedTable<T>
(l'auto-construire distribués structure de données).Ce qui a été vraiment cool à propos de DryadLINQ est le tour rapide de temps (d'essayer, de tester, d'ajuster, de le répéter) lors de l'élaboration d'algorithmes. Il vous suffit d'écrire du code LINQ pour faire vos calculs et DryadLINQ va prendre soin de l'ensemble de l'exécution distribué partie. C'est le plus naturel de l'analogique, j'ai rencontré qui permet d'écrire du code pour le traitement distribué tout comme l'écriture de code pour un seul processus de traitement.
Vous pouvez regarder dans quelque chose comme RavenDb il fournit un très bon support pour MapReduce pour une assez grande taille de données. comme il est construit en .Net donc un bon LINQ client de l'API est disponible.
http://ravendb.net/
Pour vous aider à démarrer, vous pouvez lire mon blog entery.
Il peut être préférable d'utiliser Apache Hadoop et le streaming car Apache Hadoop est activement développé et maintenu par les grands géants de l'Industrie comme Yahoo et Facebook. Donc il peut faire ce que vous attendez qu'il fasse.
Si vous avez besoin d'une solution .NET, veuillez vérifier Myspace de mise en œuvre de @ MySpace Qizmt - MySpace Open Source de Mapreduce
Microsoft est dans le processus de déploiement des HDInsight, ce qui est présenté comme leur "100% Apache compatible distribution Hadoop."
Il est disponible à la fois sur Windows Server et Windows Azure service.
Microsoft Research a projet de Daytona
http://research.microsoft.com/en-us/projects/daytona/
Vous pouvez le télécharger. Il y a un nombre de mots de l'échantillon en C#.
Vous pouvez maintenant utiliser Hadoop directement à partir de .NET de Microsoft a communiqué un SDK pour le faire.
https://hadoopsdk.codeplex.com/
Bien sûr, cela signifie l'utilisation de la base java Hadoop réseau. Mais qu'importe si le serveur est en cours d'exécution en java? Je suis sûr que quelqu'un peut essayer de port, mais je ne pense pas que ce serait une bonne idée que les sociétés sont déjà la sauvegarde de la version de java et je ne pense pas que l' .NET port obtiendrez la même attention.
Avoir un regard sur:
http://www.windowsazure.com/en-us/services/hdinsight/
C'est une mise en oeuvre de Hadoop pour Azure et vous pouvez les utiliser .NET pour y accéder.
En interne, Microsoft ont été à l'aide de Cosmos. Cela a été rendu disponible à l'extérieur de Microsoft thru Azure. Il est nommé Azure Data Lake Analytics et Azure Data Lake Magasin. Azure Data Lake analytics est le genre de Fil comme un service et d'Azur de Données Lake Magasin WebHDFS en tant que service. La première version de la plateforme Azure de Données de Lac Analytics seuls les hôtes U-SQL est un langage basé sur les instructions Transact-SQL + C#.
Il est très mignon MapReduce pour la mise en œuvre .NET: http://mapsharp.codeplex.com/
dryade/linq est productized et sera publié prochainement:
http://blogs.technet.com/b/windowshpc/archive/2011/07/07/announcing-linq-to-hpc-beta-2.aspx
utiliser en conjonction avec Microsoft HPC pour un puissant, cluster, en fonction de la solution pour quering données non structurées
Comme d'autres l'ont mentionné, DryadLINQ est un cadre de programmation qui permet aux développeurs d'écrire des requêtes LINQ et de les exécuter sur un cluster, de manière similaire à MapReduce. Le DryadLINQ projet a récemment été publié sous la licence Apache sur GitHub, et la version inclut le support pour l'exécution sur le FILS de clusters (y compris Azure HDInsight clusters).