Package de statistiques Python: différence entre statsmodel et scipy.stats
J'ai besoin de quelques conseils sur la sélection de logiciel de statistiques pour Python, j'ai fait quelques recherches, mais vous ne savez pas si j'ai tout bien, en particulier sur les différences entre statsmodels et scipy.les stats.
Une chose que je sais, c'est ceux avec scikits espace de noms spécifiques "branches" de scipy, et que ce qui scikits.statsmodels est maintenant appelé statsmodels. D'autre part, il est aussi scipy.les stats. Quelles sont les différences entre les deux, et que l'on est la logiciel de statistiques pour Python?
Grâce.
--EDIT--
J'ai changé le titre car certaines réponses ne sont pas vraiment liées à la question, et je suppose que c'est parce que le titre n'est pas assez clair.
source d'informationauteur herrfz
Vous devez vous connecter pour publier un commentaire.
Statsmodels a scipy.stats comme une dépendance. Scipy.stats a toutes les distributions de probabilité et de certains tests statistiques. Il ressemble plus à un code de bibliothèque dans la veine de numpy et scipy. Statsmodels d'autre part, les modèles statistiques avec une formule cadre similaire à R et il travaille avec des pandas DataFrames. Il y a aussi des tests statistiques, de traçage et de beaucoup de fonctions d'assistance dans statsmodels. En fait cela dépend de ce que vous avez besoin, mais vous certainement ne pas avoir à en choisir un. Ils ont des objectifs différents et des points forts.
J'essaie d'utiliser les pandas/statsmodels/scipy pour mon travail au jour le jour, mais parfois, ces paquets sont un peu court (LOESS, quelqu'un?). Le problème avec le RPy module (dernière j'ai vérifié, au moins) qu'il veut une version spécifique de R qui n'est pas courant---ma R installation est de 2.16 (je pense) et RPy voulais 2.14. Donc, soit vous devez avoir en parallèle les deux installations de R, ou vous avez de déclasser. (Si vous n'avez pas R installé, alors vous pouvez simplement installer la version correcte de la R et de l'utilisation RPy.)
Donc quand j'ai besoin de quelque chose qui n'est pas dans les pandas/statsmodels/scipy j'écris R scripts, et de les exécuter avec la
subprocess
module. Cela me permet d'interagir avec R aussi peu que possible (ce qui ne me plait pas vraiment de la programmation), mais je peux encore tirer parti de toutes les choses que R a que les paquets Python ne le font pas.La leçon, c'est qu'il n'est pas toujours un solution à tout problème---vous devez assembler tout un tas de pièces qui sont tous utiles pour vous (et peut-être écrire une partie de votre propre), de sorte que vous comprendre, à résoudre les problèmes. (R aficionados ne seront pas d'accord, bien sûr!)
Je pense que LE paquet de statistiques est numpy/scipy. Il fonctionne également très bien si vous voulez tracer vos données à l'aide de matplotlib.
Cependant, autant que je sache, matplotlib ne fonctionne pas avec Python 3.x encore.