Comprendre la diagonale dans le diagramme matriciel de dispersion de Pandas
Je suis tracer un nuage de points avec Pandas
. Je peux comprendre l'intrigue, sauf les courbes en diagonale parcelles. Quelqu'un peut m'expliquer ce qu'ils signifient?
Image:
Code:
import pylab
import numpy as np
from pandas.tools.plotting import scatter_matrix
import pandas as pd
def make_scatter_plot(X, name):
"""
Make scatterplot.
Parameters:
-----------
X:a design matrix where each column is a feature and each row is an observation.
name: the name of the plot.
"""
pylab.clf()
df = pd.DataFrame(X)
axs = scatter_matrix(df, alpha=0.2, diagonal='kde')
for ax in axs[:,0]: # the left boundary
ax.grid('off', axis='both')
ax.set_yticks([0, .5])
for ax in axs[-1,:]: # the lower boundary
ax.grid('off', axis='both')
ax.set_xticks([0, .5])
pylab.savefig(name + ".png")
source d'informationauteur Jack Twain
Vous devez vous connecter pour publier un commentaire.
Comme vous pouvez le dire, l'éparpillement de la matrice est de traçage chacune des colonnes spécifiées, l'un contre l'autre colonne.
Toutefois, dans ce format, quand vous avez obtenu pour une diagonale, vous verrez un terrain d'une colonne contre lui-même. Car ce serait toujours une ligne droite, les Pandas décide qu'il peut vous donner les informations les plus utiles, et les parcelles de la densité de l'intrigue que de la colonne de données.
Voir http://pandas.pydata.org/pandas-docs/stable/visualization.html#density-plot.
Si vous préférez avoir un histogramme, vous pouvez changer votre code de traçage:
Tracé de méthodes qui permettent à une poignée de tracer les styles autres que le défaut de la Ligne de parcelle. Ces méthodes peuvent être fournis comme le genre argument mot-clé de l'intrigue(). Elles comprennent:
https://pandas.pydata.org/pandas-docs/stable/visualization.html