L'obtention de Densité de Probabilité des Données

J'ai besoin d'analyser des données sur internet pour des séances d'une Ligne DSL. Je voulais avoir un coup d'oeil à la façon dont les durées de séances sont distribués. J'ai pensé à une façon simple de le faire serait de commencer par une densité de probabilité de la parcelle de la durée de toutes les sessions.

J'ai chargé les données dans R et a utilisé le density() fonction. Donc, c'était quelque chose comme ce

plot(density(data$duration), type = "l", col = "blue", main = "Density Plot of Duration",
     xlab = "duration(h)", ylab = "probability density")

Je suis nouveau sur R et ce type d'analyse. C'est ce que j'ai trouvé de en passant par google. J'ai eu un complot, mais j'ai été laissé avec quelques questions. Est-ce la bonne fonction pour faire ce que je suis en train de faire, ou est-il autre chose?

Dans l'intrigue, j'ai trouvé que l'axe des Y de l'échelle est de 0...1.5. Je ne comprends pas comment il peut être de 1,5, ne devrait-elle pas être de 0...1?

Aussi, je voudrais obtenir une courbe plus lisse. Depuis, l'ensemble de données est vraiment les grandes lignes sont vraiment en dents de scie. Il serait plus agréable de les avoir lissé quand je suis présente. Comment pourrais-je aller sur le faire?

Vous misinterprete densité. La densité de X peut être considérée comme une valeur proportionnel à la la chance de dessin de la population, un nombre qui est couché dans la proximité immédiate de X. Maintenant, par définition, l'intégrale de la fonction de densité est égale à 1. Cela ne signifie pas que la valeur maximale de la fonction de densité de 1, il peut facilement être plus grand. En fait, pour une distribution F avec df= (1,1) , la valeur maximale de la densité (à 0) est de même de l'infini.
oui je me rends compte maintenant que je n'ai pas l'interpréter correctement. plutôt simpliste, je suppose que depuis sa une distribution de probabilités, il serait inférieur à 1 :).
lorsque la surface Totale sous la courbe est de 1, comment peut-PDF-être plus grand que 1? Si le fichier PDF est d'aller au-delà de 1, est est probable que la distribution n'est pas normale et qu'elle doit être normalisées?
parce que par exemple, un rectangle avec une hauteur de 10 et une largeur de 0,01 a une superficie de 0,1 tandis que la valeur de Y (d'où le PDF) serait de 10. Pour la zone que vous avez besoin pour prendre les deux axes X et Y en compte, non seulement de l'axe des Y.

OriginalL'auteur sfactor | 2010-11-18

Que nico a dit, vous devriez vérifier hist, mais vous pouvez également combiner les deux. Vous pouvez ensuite appeler la densité avec la lines à la place.
Exemple:

duration <- rpois(500, 10) # For duration data I assume Poisson distributed
hist(duration,
   probability = TRUE, # In stead of frequency
   breaks = "FD",      # For more breaks than the default
   col = "darkslategray4", border = "seashell3")
lines(density(duration - 0.5),   # Add the kernel density estimate (-.5 fix for the bins)
   col = "firebrick2", lwd = 3)

Devrait vous donner quelque chose comme:
L'obtention de Densité de Probabilité des Données

Noter que la densité du noyau estimation suppose un noyau Gaussien en tant que par défaut. Mais la bande passante est souvent le facteur le plus important. Si vous appelez density directement des rapports par défaut estimation de la bande passante:

> density(duration)

Call:
        density.default(x = duration)

Data: duration (500 obs.);      Bandwidth 'bw' = 0.7752

       x                 y            
 Min.   : 0.6745   Min.   :1.160e-05  
 1st Qu.: 7.0872   1st Qu.:1.038e-03  
 Median :13.5000   Median :1.932e-02  
 Mean   :13.5000   Mean   :3.895e-02  
 3rd Qu.:19.9128   3rd Qu.:7.521e-02  
 Max.   :26.3255   Max.   :1.164e-01

Ici, il est 0.7752. Vérifier vos données et de jouer avec elle comme nico l'a suggéré. Vous voudrez peut-être regarder à ?bw.nrd.

très bon~~~~~~~~~~~~~~~~~~

OriginalL'auteur eyjo

2

Vous devez jouer avec la bande passante (bw) paramètre à modifier le lissage de la courbe. Généralement R fait un bon travail et donne automatiquement une belle et lisser la courbe, mais peut-être que ce n'est pas le cas pour votre jeu de données spécifique.

Comme pour l'appel à l'aide, oui, c'est correct, type="l" n'est pas nécessaire, c'est la valeur par défaut utilisée pour le tracé de la densité des objets. L'aire sous la courbe (c'est à dire l'intégrale de-Inf à +Inf de votre fonction de densité) sera = 1.

Maintenant, est d'une densité courbe la meilleure chose à utiliser dans votre cas? Peut-être, peut-être pas... ça dépend vraiment de ce type d'analyse que vous voulez faire. Probablement à l'aide de hist sera suffisante, et peut-être encore plus instructif que vous pouvez sélectionner des bacs spécifiques de la durée (voir ?hist pour plus d'info).

merci je vais regarder mais je ne comprends toujours pas pourquoi la Densité de l'Axe serait plus grand que 1.
Comme je l'ai dit, c'est l'aire sous la courbe (qui est somme(dx*y)) = 1. La valeur réelle de l'axe y varie en fonction de la bande passante. Les plus petites valeurs de bande passante va générer de plus, les valeurs de y. Essayez de tracer density(rnorm(1000), 0.2) et density(rnorm(1000), 2) pour voir la différence.
L'hist semble asymétrique à droite par rapport à la densité. est-ce dû à l'hypothèse d'un noyau normal avec une loi de poisson distrbuted variable?
Je ne suis pas sûr à 100% de R calcule des estimations de densité. Il pourrait aussi être un problème de la binning de l'histogramme, je suppose, mais je laisse la réponse à quelqu'un de plus compétent que moi.

OriginalL'auteur nico

J'allais ajouter un commentaire à la réponse précédente, mais elle est trop grande.
L'apparente inclinaison est due à la façon dont les valeurs sont placées dans un conteneur dans un histogramme. C'est souvent une erreur à l'utilisation d'histogrammes pour les données discrètes. Voir ci-dessous ...

set.seed(1001)
tmpf <- function() {
  duration <- rpois(500, 10) # For duration data I assume Poisson distributed
  hist(duration,
       probability = TRUE, # In stead of frequency
       breaks = "FD",      # For more breaks than the default
       col = "darkslategray4", border = "seashell3",
       main="",ann=FALSE,axes=FALSE,xlim=c(0,25),ylim=c(0,0.15))
  box()
  lines(density(duration),   # Add the kernel density estimate
        col = "firebrick2", lwd = 3)
  par(new=TRUE)
  plot(table(factor(duration,levels=0:25))/length(duration),
       xlim=c(0,25),ylim=c(0,0.15),col=4,ann=FALSE,axes=FALSE)
}

par(mfrow=c(3,3),mar=rep(0,4))
replicate(9,tmpf())

Oui, c'est vrai, les poubelles seront toujours de part et d'autre de l'entier (droite = VRAI et droit = FALSE). J'ai surtout juste l'utiliser pour avant de visualisation de données, peu de danger. Mais il pourrait facilement être fixé avec un simple -0.5 de la densité ...
c'est en supposant que vous utilisez entier des pauses, mais vous n'êtes pas limité par

OriginalL'auteur Ben Bolker

Vous devez vous connecter pour publier un commentaire.