L'obtention de Densité de Probabilité des Données
J'ai besoin d'analyser des données sur internet pour des séances d'une Ligne DSL. Je voulais avoir un coup d'oeil à la façon dont les durées de séances sont distribués. J'ai pensé à une façon simple de le faire serait de commencer par une densité de probabilité de la parcelle de la durée de toutes les sessions.
J'ai chargé les données dans R et a utilisé le density()
fonction. Donc, c'était quelque chose comme ce
plot(density(data$duration), type = "l", col = "blue", main = "Density Plot of Duration",
xlab = "duration(h)", ylab = "probability density")
Je suis nouveau sur R et ce type d'analyse. C'est ce que j'ai trouvé de en passant par google. J'ai eu un complot, mais j'ai été laissé avec quelques questions. Est-ce la bonne fonction pour faire ce que je suis en train de faire, ou est-il autre chose?
Dans l'intrigue, j'ai trouvé que l'axe des Y de l'échelle est de 0...1.5. Je ne comprends pas comment il peut être de 1,5, ne devrait-elle pas être de 0...1?
Aussi, je voudrais obtenir une courbe plus lisse. Depuis, l'ensemble de données est vraiment les grandes lignes sont vraiment en dents de scie. Il serait plus agréable de les avoir lissé quand je suis présente. Comment pourrais-je aller sur le faire?
oui je me rends compte maintenant que je n'ai pas l'interpréter correctement. plutôt simpliste, je suppose que depuis sa une distribution de probabilités, il serait inférieur à 1 :).
lorsque la surface Totale sous la courbe est de 1, comment peut-PDF-être plus grand que 1? Si le fichier PDF est d'aller au-delà de 1, est est probable que la distribution n'est pas normale et qu'elle doit être normalisées?
parce que par exemple, un rectangle avec une hauteur de 10 et une largeur de 0,01 a une superficie de 0,1 tandis que la valeur de Y (d'où le PDF) serait de 10. Pour la zone que vous avez besoin pour prendre les deux axes X et Y en compte, non seulement de l'axe des Y.
OriginalL'auteur sfactor | 2010-11-18
Vous devez vous connecter pour publier un commentaire.
Que nico a dit, vous devriez vérifier
hist
, mais vous pouvez également combiner les deux. Vous pouvez ensuite appeler la densité avec lalines
à la place.Exemple:
Devrait vous donner quelque chose comme:
Noter que la densité du noyau estimation suppose un noyau Gaussien en tant que par défaut. Mais la bande passante est souvent le facteur le plus important. Si vous appelez
density
directement des rapports par défaut estimation de la bande passante:Ici, il est 0.7752. Vérifier vos données et de jouer avec elle comme nico l'a suggéré. Vous voudrez peut-être regarder à
?bw.nrd
.OriginalL'auteur eyjo
Vous devez jouer avec la bande passante (
bw
) paramètre à modifier le lissage de la courbe. Généralement R fait un bon travail et donne automatiquement une belle et lisser la courbe, mais peut-être que ce n'est pas le cas pour votre jeu de données spécifique.Comme pour l'appel à l'aide, oui, c'est correct,
type="l"
n'est pas nécessaire, c'est la valeur par défaut utilisée pour le tracé de la densité des objets. L'aire sous la courbe (c'est à dire l'intégrale de-Inf à +Inf de votre fonction de densité) sera = 1.Maintenant, est d'une densité courbe la meilleure chose à utiliser dans votre cas? Peut-être, peut-être pas... ça dépend vraiment de ce type d'analyse que vous voulez faire. Probablement à l'aide de
hist
sera suffisante, et peut-être encore plus instructif que vous pouvez sélectionner des bacs spécifiques de la durée (voir?hist
pour plus d'info).Comme je l'ai dit, c'est l'aire sous la courbe (qui est somme(dx*y)) = 1. La valeur réelle de l'axe y varie en fonction de la bande passante. Les plus petites valeurs de bande passante va générer de plus, les valeurs de y. Essayez de tracer
density(rnorm(1000), 0.2)
etdensity(rnorm(1000), 2)
pour voir la différence.L'hist semble asymétrique à droite par rapport à la densité. est-ce dû à l'hypothèse d'un noyau normal avec une loi de poisson distrbuted variable?
Je ne suis pas sûr à 100% de R calcule des estimations de densité. Il pourrait aussi être un problème de la binning de l'histogramme, je suppose, mais je laisse la réponse à quelqu'un de plus compétent que moi.
OriginalL'auteur nico
J'allais ajouter un commentaire à la réponse précédente, mais elle est trop grande.
L'apparente inclinaison est due à la façon dont les valeurs sont placées dans un conteneur dans un histogramme. C'est souvent une erreur à l'utilisation d'histogrammes pour les données discrètes. Voir ci-dessous ...
c'est en supposant que vous utilisez entier des pauses, mais vous n'êtes pas limité par
OriginalL'auteur Ben Bolker