À grande échelle de l'apprentissage machine Python ou Java?

Je suis actuellement en train de se lancer dans un projet qui va impliquer l'analyse et le traitement d'énormes quantités de données (des centaines de concerts), et aussi l'exploitation minière pour l'extraction de données structurées, la reconnaissance des entités nommées, la déduplication, la classification, etc.

Je suis familier avec ML outils de Java et en Python monde: Lingpipe, Mahout, NLTK, etc. Cependant, quand il s'agit de choisir une plate-forme à grande échelle de problème, je manque de suffisamment d'expérience pour décider entre Java ou Python.

Je sais que cela sonne comme une vague question, mais je suis à la recherche pour des conseils généraux sur le choix de Java ou Python. La JVM offre de meilleures performances(?) cours de Python, mais sont des bibliothèques comme Lingpipe etc. correspondre avec le Python écosystème? Si je suis allé ce Python, comment serait-il facile d'être mise à l'échelle et de les gérer à travers plusieurs machines etc.

Qui dois-je aller et pourquoi?

  • Python 🙂
  • Les algorithmes utilisés sont aussi important (ou plus) que la langue, dans les grandes ML tâches; par exemple, le vecteur propre base de techniques peut être impossible lorsque l'on traite avec beaucoup de données. Ainsi, alors qu'il est utile de réfléchir à chaque langue les outils disponibles pour une large gamme de problèmes, le ML algorithmes utilisés peuvent dominer les performances.
  • Votre question est très intéressante, mais aussi très, très large, je ne sais même pas ce que je pourrais mettre dans une réponse. Un mot de conseil serait d'utiliser Mahout (projet de Hadoop) qui s'attaque directement à votre préoccupation. Essayez de faire de votre question beaucoup plus explicite et détaillée, ou il sera probablement fermé, même si il a du potentiel.
InformationsquelleAutor jeffreyveon | 2012-03-15