Modèle linéaire (lm) à la variable dépendante étant un facteur de/variable catégorique
Je veux faire de la régression linéaire avec la lm
fonction (Ou d'une autre, si cela fonctionne). Ma variable dépendante est un facteur appelé AccountStatus
:
1:0 jours de retards, 2:de 30 à 60 jours d'arriérés, de 3:de 60 à 90 jours en souffrance et 4:90+ jours en retard. (4)
Comme indepent variable, j'ai plusieurs variables numériques: Prêt de valeur de la dette au revenu et des taux d'intérêt.
Est-il possible de faire une régression linéaire de ces variables? J'ai cherché sur internet et trouvé quelque chose à propos de mannequin, mais ceux-ci étaient tous pour la variable indépendante.
Cela ne fonctionne pas:
fit <- lm(factor(AccountStatus) ~ OriginalLoanToValue, data=mydata)
summary(fit)
OriginalL'auteur Tim_Utrecht | 2014-03-05
Vous devez vous connecter pour publier un commentaire.
De régression linéaire ne permet pas de prendre les variables catégorielles pour la partie dépendant, il doit être continu. Considérant que votre AccountStatus variable a que quatre niveaux, il est impossible de traiter en continu. Avant de commencer toute analyse statistique, il faut être conscient de la mesure les niveaux de de l'une des variables.
Ce que vous pouvez faire est d'utiliser la régression logistique multinomiale, voir ici par exemple. Alternativement, vous pouvez recoder le AccountStatus comme dichotomique et l'utilisation simple de régression logistique.
Désolé de vous décevoir, mais c'est juste un inhérente à la restriction de la régression multiple, rien à voir avec la R vraiment. Si vous voulez en savoir plus sur la technique statistique qui est approprié pour différentes combinaisons de niveaux de mesure des variables dépendantes et indépendantes, je peux tout cœur conseiller ce livre.
ou de régression ordinale (
MASS::polr()
,ordinal
paquet entre autres)Bonjour; je crois que le lm fonction traite les variables catégorielles maintenant, en faisant un coefficient et une variable binaire pour chaque catégorie. Cependant, je suis inquiet au sujet de votre phrase: "Désolé de vous décevoir, mais c'est juste un inhérente à la restriction de la régression multiple, rien à voir avec la R vraiment". Est-ce à dire que lm()'gestion des variables catégorielles est juste ad hoc et ne fonctionne pas très bien pour les prévisions en général?
OriginalL'auteur Maxim.K
Si vous pouvez donner une valeur numérique à l'variables, alors vous pourriez avoir une solution. Vous devez renommer les valeurs des nombres, puis de convertir la variable dans un numérique. Voici comment:
Ce revalorise les valeurs potentielles, tout en transformant les variables numériques. Les résultats que j'obtiens sont compatibles avec les valeurs d'origine contenues dans le jeu de données lorsque les variables sont comme des facteurs variables. Vous pouvez utiliser cette solution pour changer le nom des variables à ce que vous souhaitez, tout en les transformant pour les variables numériques.
Enfin, cela en vaut la peine, car il vous permet de tracer des histogrammes ou des régressions, quelque chose qui est impossible à faire avec un facteur de variables.
Espérons que cette aide!
OriginalL'auteur saladin1991