Régression pas à pas à l'aide de p-valeurs de la baisse des variables non significatives avec p-valeurs
Je veux effectuer un progressive de Régression linéaire à l'aide de p-valeurs comme un critère de sélection, par exemple: à chaque étape, déposer les variables qui ont le plus haut c'est à dire le plus insignifiant des valeurs de p, de s'arrêter lorsque toutes les valeurs sont significatives sont définis par un certain seuil alpha.
Je suis totalement conscient que je devrais utiliser l'AIC (par exemple, commande étape ou stepAIC) ou d'autres critères au lieu de cela, mais mon patron n'a pas connaissance de la statistique et d'insister sur l'utilisation de p-valeurs.
Si nécessaire, je pourrais programmer mon propre routine, mais je me demande si il y a déjà une version mise en application de cette.
- J'espère que votre patron ne veut pas lire stackoverflow. 😉
- Exactement pourquoi de régression? Le nombre de variables que vous avez?
- Vous pourriez envisager de poser cette question ici: stats.stackexchange.com
- J'ai aussi mon patron ne pas lire ceci 😉 j'ai 9 variables et ont à essayer un peu, afin de déposer les variables "à la main" et le montage d'un nouveau modèle à moi, c'est un peu beaucoup, donc je me demande si il existe un moyen automatisé comme avec "l'étape", qu'avec les p-valeurs.
- Parce que quelqu'un a utilisé la régression pas à pas avec les p-valeurs du passé (avec STATA, je suppose, mais nous n'avons pas STATA plus), et elle insiste sur en utilisant la même approche. C'est la façon dont les patrons sont ... 😉
- Peut-être plus facile pour vous enseigner patron de bonnes stats que de se R pour faire de mauvaises stats.
- Il suffit de choisir trois variables au hasard, vous allez probablement faire aussi bien régression par étapes.
- Est-ce que votre patron aussi dire à son médecin ce médicament à prescrire et son mécanicien comment réparer sa voiture?
Vous devez vous connecter pour publier un commentaire.
Montrer à votre patron suivantes :
Qui donne :
Maintenant, sur la base des valeurs de p vous exclure lequel? x2 est la plus significative et la plupart des non-significatif dans le même temps.
Edit : Pour clarifier les choses : Ce exaxmple n'est pas le meilleur, comme indiqué dans les commentaires. La procédure dans Stata et SPSS est autant que je sache, pas basé sur les p-valeurs du test T sur les coefficients, mais sur le F-test, après le retrait de l'une des variables.
J'ai une fonction qui fait exactement cela. C'est une sélection sur la "p-value", mais pas du T-test sur les coefficients ou sur l'analyse de la variance des résultats. Ainsi, n'hésitez pas à l'utiliser si il semble utile de vous.
Pourquoi ne pas essayer d'utiliser le
step()
fonction de la spécification de votre méthode d'essai?Par exemple, pour assurer l'élimination, vous tapez uniquement une commande:
et pour la sélection progressive, tout simplement:
Cela peut afficher à la fois de l'AIC, les valeurs ainsi que les F et les valeurs de P.
Ici est un exemple. Commencez par le plus compliqué modèle: cela comprend les interactions entre les trois variables explicatives.
L'interaction est pas très significative. C'est de cette façon que vous l'enlever, pour commencer le processus de simplification de modèles:
Selon les résultats, vous pouvez continuer à simplifier votre modèle:
Alternativement, vous pouvez utiliser le modèle automatique de la simplification de la fonction
step
, à voircomment elle le fait bien:
Paquet rms: le modèle de Régression de Stratégies a
fastbw()
qui fait exactement ce dont vous avez besoin. Il y a même un paramètre de flip de l'AIC à la p-valeur en fonction d'élimination.Si vous essayez juste d'obtenir le meilleur modèle prédictif, alors peut-être il n'a pas trop d'importance, mais pour autre chose, ne vous embêtez pas avec ce genre de sélection de modèle. C'est à tort.
Utiliser un rétrécissement des méthodes telles que la régression ridge (en
lm.ridge()
dans le paquet de MASSE par exemple), ou le lasso ou la elasticnet (une combinaison de crête et lasso contraintes). De ce nombre, seulement le lasso et elastic net va faire une certaine forme de sélection de modèle, c'est à dire forcer les coefficients de certaines covariables à zéro.Voir la Régularisation et le Rétrécissement de la section de la L'Apprentissage De La Machine tâche de vue sur CRAN.
Comme mentionné par Gavin Simpson la fonction
fastbw
derms
package peut être utilisé pour sélectionner les variables à l'aide de la p-valeur. Soufflet est un exemple d'utilisation de l'exemple donné par George Dontas. Utilisez l'optionrule='p'
pour sélectionner la p-valeur des critères.