Tracer les deux histogrammes en même temps avec matplotlib

J'ai créé un histogramme de la parcelle à l'aide de données provenant d'un fichier et pas de problème. Maintenant, je voulais superposer des données à partir de
d'un autre fichier dans le même histogramme, si je fais quelque chose comme

n,bins,patchs = ax.hist(mydata1,100)
n,bins,patchs = ax.hist(mydata2,100)

mais le problème est que pour chaque intervalle, seule la barre avec la valeur la plus élevée s'affiche, et l'autre est caché. Je me demande comment ai-je pu tracer les deux histogrammes dans le même temps, avec des couleurs différentes.

InformationsquelleAutor Open the way | 2011-07-29

343

Ici vous avez un exemple de travail:
```
import random
import numpy
from matplotlib import pyplot

x = [random.gauss(3,1) for _ in range(400)]
y = [random.gauss(4,2) for _ in range(400)]

bins = numpy.linspace(-10, 10, 100)

pyplot.hist(x, bins, alpha=0.5, label='x')
pyplot.hist(y, bins, alpha=0.5, label='y')
pyplot.legend(loc='upper right')
pyplot.show()
```
- Ne serait-il pas une bonne idée de mettre en pyplot.hold(True) avant de traçage, juste au cas où?
- Vous ne savez pas si hold(True) est définie dans mon matplotlib config ou pyplot se comporte comme cela par défaut, mais pour moi, le code fonctionne comme il est. Le code est extrait à partir d'une plus grande application qui n'est pas de donner un quelconque problème jusqu'à présent. De toute façon, bonne question je l'ai déjà fait à moi-même lors de l'écriture du code
- comment pourrais-je spécifier x bleu et y être rouge?
- utilisez le raccourci couleur mot clé lors de l'appel de hist
- Quand j'ai reproduit le tracé edgecolor des barres est None par défaut. Si vous voulez le même design que le montre le graphique, vous pouvez définir le edgecolor paramètre à la fois, par exemple pour k (noir). La procédure est similaire pour la légende.
- Il serait intereting pour avoir 2 axes différents (l'un sur la gauche pour le bleu, un droit pour le green) afin de mieux voir les 2 ensemble de données.
InformationsquelleAutor joaquin
123

Les réponses acceptées donne le code pour un histogramme avec chevauchement des barres, mais dans le cas où vous souhaitez que chaque bar à côté-à-côte (comme je l'ai fait), essayez de la variation ci-dessous:
```
import numpy as np
import matplotlib.pyplot as plt
plt.style.use('seaborn-deep')

x = np.random.normal(1, 2, 5000)
y = np.random.normal(-1, 3, 2000)
bins = np.linspace(-10, 10, 30)

plt.hist([x, y], bins, label=['x', 'y'])
plt.legend(loc='upper right')
plt.show()
```
Référence: http://matplotlib.org/examples/statistics/histogram_demo_multihist.html

MODIFIER [2018/03/16]: mise à Jour pour permettre le traçage des tableaux de tailles différentes, comme suggéré par @stochastic_zeitgeist
- Comment puis-je faire des histogrammes sur la même parcelle à partir de deux tableaux de données avec des tailles différentes?
- Je crains que cela n'est pas possible à l'heure actuelle sans un certain niveau inférieur matplotlib bricolage (c'est à dire pas faisable tout droit sorti de la boîte avec un haut niveau de fonction comme plt.hist). Une solution simple serait d'utiliser @joaquin de répondre à la place. Un autre (potentiellement meilleure) solution de contournement serait de remplir les différentes tailles de tableau avec np.nan donc, vous pourriez faire data, mais même si matplotlib échoue. Il y a une attente de la demande d'extraction d'aborder la: github.com/matplotlib/matplotlib/pull/7133
- Je l'ai résolu en utilisant plt.hist([x, y], color=['g','r'], alpha=0.8, bins=50)
- comment utiliser plt.hist pour produire un fichier pdf pour chaque histogramme? J'ai chargé mes données à l'aide pandas.read_csv et le fichier a 36 colonnes et 100 lignes. Je voudrais donc 100 fichiers pdf.
- C'est tout à fait hors sujet. Merci de Google ou de poser une nouvelle question. Cela semble être lié: stackoverflow.com/questions/11328958/...
- Avez-vous songé à écrire une réponse en fonction de votre commentaire? Pour moi, c'est le seul conseil utile ici.
- Je suis d'accord avec @pasbi. J'ai utilisé votre avis avec les pandas dataframe parce que j'avais besoin de différents poids en raison de nans. avec x=np.array(df.a) et y=np.array(df.b.dropna()) essentiellement, il a fini par être plt.hist([x, y], weights=[np.ones_like(x)/len(x), np.ones_like(y)/len(y)])
- Fait, ici
- Dans le cas où votre tailles d'échantillon sont radicalement différentes, vous pouvez tracer à l'aide de jumelles axes pour mieux comparer les distributions. Voir ci-dessous.
- Il serait intereting pour avoir 2 axes différents (l'un sur la gauche pour le bleu, un droit pour le green) afin de mieux voir les 2 ensemble de données.
- Veuillez vous reporter à André réponse.
InformationsquelleAutor Gustavo Bezerra

Dans le cas où vous avez des échantillons de tailles différentes, il peut être difficile de comparer les distributions avec un seul axe des ordonnées. Par exemple:

import numpy as np
import matplotlib.pyplot as plt

#makes the data
y1 = np.random.normal(-2, 2, 1000)
y2 = np.random.normal(2, 2, 5000)
colors = ['b','g']

#plots the histogram
fig, ax1 = plt.subplots()
ax1.hist([y1,y2],color=colors)
ax1.set_xlim(-10,10)
ax1.set_ylabel("Count")
plt.tight_layout()
plt.show()

Tracer les deux histogrammes en même temps avec matplotlib

Dans ce cas, vous pouvez tracer vos deux ensembles de données sur des axes différents. Pour ce faire, vous pouvez obtenir vos données d'histogramme à l'aide de matplotlib, clair de l'axe, et puis re-tracer sur deux axes (déplacement de la corbeille des bords de sorte qu'ils ne se chevauchent pas):

#sets up the axis and gets histogram data
fig, ax1 = plt.subplots()
ax2 = ax1.twinx()
ax1.hist([y1, y2], color=colors)
n, bins, patches = ax1.hist([y1,y2])
ax1.cla() #clear the axis

#plots the histogram data
width = (bins[1] - bins[0]) * 0.4
bins_shifted = bins + width
ax1.bar(bins[:-1], n[0], width, align='edge', color=colors[0])
ax2.bar(bins_shifted[:-1], n[1], width, align='edge', color=colors[1])

#finishes the plot
ax1.set_ylabel("Count", color=colors[0])
ax2.set_ylabel("Count", color=colors[1])
ax1.tick_params('y', colors=colors[0])
ax2.tick_params('y', colors=colors[1])
plt.tight_layout()
plt.show()

Tracer les deux histogrammes en même temps avec matplotlib

C'est une belle réponse brève, sauf que vous devez également ajouter comment faire pour centrer les barres sur chaque tick label

InformationsquelleAutor Andrew

Voici une méthode simple pour tracer les deux histogrammes, avec leurs bars côte-à-côte, sur la même parcelle lorsque les données ont différentes tailles:

def plotHistogram(p, o):
    """
    p and o are iterables with the values you want to 
    plot the histogram of
    """
    plt.hist([p, o], color=['g','r'], alpha=0.8, bins=50)
    plt.show()

InformationsquelleAutor stochastic_zeitgeist

6

Comme l'achèvement de Gustavo Bezerra de réponse:

Si vous voulez chaque histogramme normalisé (normed pour mpl<=2.1 et density pour mpl>=3.1) vous ne pouvez pas simplement utiliser normed/density=True, vous devez définir le poids de chaque valeur à la place:
```
import numpy as np
import matplotlib.pyplot as plt

x = np.random.normal(1, 2, 5000)
y = np.random.normal(-1, 3, 2000)
x_w = np.empty(x.shape)
x_w.fill(1/x.shape[0])
y_w = np.empty(y.shape)
y_w.fill(1/y.shape[0])
bins = np.linspace(-10, 10, 30)

plt.hist([x, y], bins, weights=[x_w, y_w], label=['x', 'y'])
plt.legend(loc='upper right')
plt.show()
```
A titre de comparaison, l'exact même x et y vecteurs d'un défaut de poids et density=True:
- fantastique - la première fois que je vois cela dit .. merci!
- vous êtes les bienvenus!
InformationsquelleAutor jojo
3

Il semble que vous pourriez voulez juste un graphique à barres:
- http://matplotlib.sourceforge.net/examples/pylab_examples/bar_stacked.html
- http://matplotlib.sourceforge.net/examples/pylab_examples/barchart_demo.html
Alternativement, vous pouvez utiliser des sous-intrigues.
- la différence est que, avec hist vous obtenez une fréquence de tracé. peut-être devriez vous montrer comment le faire. la fréquence avec les pandas + barre parcelle = hist()
InformationsquelleAutor carl

Vous devez utiliser bins des valeurs retournées par hist:

import numpy as np
import matplotlib.pyplot as plt

foo = np.random.normal(loc=1, size=100) # a normal distribution
bar = np.random.normal(loc=-1, size=10000) # a normal distribution

_, bins, _ = plt.hist(foo, bins=50, range=[-6, 6], normed=True)
_ = plt.hist(bar, bins=bins, alpha=0.5, normed=True)

Tracer les deux histogrammes en même temps avec matplotlib

InformationsquelleAutor Adrien Renaud

2

Juste au cas où vous avez des pandas (import pandas as pd) ou sont ok avec elle à l'aide:
```
test = pd.DataFrame([[random.gauss(3,1) for _ in range(400)], 
                     [random.gauss(4,2) for _ in range(400)]])
plt.hist(test.values.T)
plt.show()
```
- Je crois que l'aide pandas ne fonctionnera pas si les histogrammes de l'être ont comparé des échantillons de tailles différentes. C'est aussi souvent le contexte dans lequel la forme d'histogrammes normalisés sont utilisés.
InformationsquelleAutor serv-inc
0

Cette question a été répondu avant, mais je voulais ajouter une autre rapide/simple solution de contournement qui peuvent aider les autres visiteurs à cette question.
```
import seasborn as sns 
sns.kdeplot(mydata1)
sns.kdeplot(mydata2)
```
Quelques exemples utiles sont ici pour kde vs histogramme de comparaison.

InformationsquelleAutor Solomon Vimal
0

Inspiré par Salomon de réponse, mais s'en tenir à la question, qui est lié à l'histogramme, une solution propre est:
```
sns.distplot(bar)
sns.distplot(foo)
plt.show()
```
Assurez-vous de tracer le plus haut d'abord, sinon vous devez définir le plt.ylim(0,0.45) de sorte que le plus grand de l'histogramme n'est pas coupé.

InformationsquelleAutor Sarah

Vous devez vous connecter pour publier un commentaire.