L'élimination des valeurs aberrantes par l'écart type dans SQL Server
Je suis d'essayer d'éliminer les valeurs aberrantes dans SQL Server 2008 par l'écart-type. Je voudrais seulement les enregistrements qui contiennent une valeur dans une colonne spécifique à l'intérieur de +/- 1 écart-type de la colonne moyenne.
Comment puis-je y arriver?
OriginalL'auteur David Pfeffer | 2010-06-19
Vous devez vous connecter pour publier un commentaire.
Si vous êtes en supposant une distribution en cloche des événements, alors seulement 68% des valeurs au sein de 1 écart-type l'écart à la moyenne (95% sont couverts par 2 écarts-types).
Je voudrais charger une variable avec l'écart-type de votre gamme (obtenues à l'aide des ecartype /ecartypep de la fonction sql), puis sélectionnez les valeurs dans le nombre d'écarts-types.
Je suis d'accord et je suis d'accord avec vos commentaires ci-dessous (+1), et c'est pourquoi j'ai été prudent de mentionner une "courbe en cloche de la distribution des événements" - une distribution normale. Si la distribution est asymétrique alors évidemment, cela change les choses.
Mais la distribution normale est toujours une idéalisation, parce que vous ne pouvez jamais savoir quand un cygne noir aberrantes est à venir le long d'à côté.
il y a assez de moutons noirs sur sans des cygnes noirs se joindre à eux!
Dites-le à Taleb: fooledbyrandomness.com
OriginalL'auteur amelvin
Il y a une fonction d'agrégation appelé la fonction ECARTYPE dans SQL qui va vous donner l'écart-type. C'est la partie la plus difficile - puis il suffit de connaître la distance entre la moyenne et de +/- un ECARTYPE valeur.
De cette manière, vous pouvez aller sur le faire -
OriginalL'auteur Mike M.
Je serais prudent et réfléchissez à ce que vous êtes en train de faire. Jeter les valeurs aberrantes peut dire que vous êtes jeter de l'information qui ne peut pas s'en pré-conçue de vue sur le monde qui pourrait être tout à fait tort. Ces valeurs aberrantes peut-être "cygnes noirs" qui sont rares, mais pas aussi rares que vous le croyez, et tout à fait significatif.
Vous donner aucun contexte ni explication de ce que vous faites. Il est facile de citer une fonction ou une technique qui leur permettront de répondre aux besoins de votre cas particulier, mais j'ai pensé qu'il était approprié de poster la prudence jusqu'à ce que des renseignements supplémentaires sont fournis.
Voyant que la réponse a été donnée il y a deux ans, et que vous avez offert absolument rien sur cette question et peu sur autre chose, je voudrais vous demander si errer de la SORTE et en laissant trollish commentaires est une utilisation constructive de votre temps.
OriginalL'auteur duffymo