Quelles sont les différences entre les Pandas et NumPy+SciPy en Python?
Ils semblent tous deux extrêmement similaires, et je suis curieux de savoir quel paquet serait plus bénéfique pour l'analyse de données.
Vous devez vous connecter pour publier un commentaire.
En effet, les pandas fournit un niveau élevé de manipulation de données d'outils construits sur le dessus de NumPy. NumPy par lui-même est assez faible au niveau de l'outil, et sera très similaire à l'aide de MATLAB. les pandas d'autre part, riche de séries chronologiques de la fonctionnalité, de l'alignement des données, NA, amical statistiques, groupby, de fusion et de méthodes de jointure, et beaucoup d'autres commodités. Il est devenu très populaire au cours des dernières années dans les applications financières. Je vais avoir un chapitre consacré à l'analyse de données à l'aide de pandas dans mon livre à venir.
NA-friendly statistics
, mentionné dans votre réponse.Numpy est requis par les pandas (et par la quasi-totalité des outils numériques pour Python). Scipy n'est pas strictement nécessaire pour les pandas, mais est répertorié comme une "option de dépendance". Je ne dirais pas que les pandas est une alternative à Numpy et/ou Scipy. Plutôt, c'est un outil supplémentaire qui fournit une plus grande rationalisation de la façon de travailler avec les chiffres et les tableaux de données en Python. Vous pouvez utiliser les pandas de structures de données, mais dessiner librement sur Numpy et Scipy fonctions pour les manipuler.
Pandas offre une excellente façon de manipuler les tables, comme vous pouvez faire binning facile (binning un dataframe dans les pandas en Python) et calculer les statistiques. Autre chose qui est grand dans les pandas est le Panneau de classe que vous pouvez vous joindre à la série de couches ayant des propriétés différentes et les combiner à l'aide de groupby fonction.