Un point de départ pour apprendre à implémenter MapReduce / Hadoop en Python?

J'ai récemment commencé à faire de l'analyse de données et j'ai appris pas mal au cours de la dernière année (pour le moment, à peu près exclusivement à l'aide de Python). Je sens que la prochaine étape est de commencer à former moi-même dans MapReduce/Hadoop. Je n'ai pas formelle informatique de formation, cependant, et si souvent, ce n'est pas tout à fait comprendre le jargon utilisé quand les gens écrivent sur Hadoop, d'où ma question ici.

Que je suis l'espoir d'un haut niveau d'ensemble de Hadoop (sauf si il y a autre chose que je devrais utiliser?) et peut-être une recommandation pour une sorte de tutoriel/livre de texte.

Si, par exemple, je veux paralléliser un réseau de neurones que j'ai écrit en Python, où dois-je commencer? Est-il relativement méthode standard pour la mise en oeuvre de Hadoop avec un algorithme ou est-ce que chaque solution de problème très spécifique?

Apache page wiki décrit Hadoop comme "un cadre pour l'exécution d'applications sur de grandes cluster construit le matériel de base". Mais ce n'est que dire? J'ai entendu le terme de "Cluster Hadoop" et je sais que Hadoop est basé sur Java. Donc, est-ce à dire pour l'exemple ci-dessus j'aurais besoin d'apprendre le Java, configurer un cluster Hadoop sur, disons, un peu d'amazon serveurs, Jython-identifier mon algorithme avant de finalement la faire fonctionner sur le cluster à l'aide d'Hadoop?

Merci beaucoup pour toute aide!

source d'informationauteur iRoygbiv