Lecture des données délimitées par des tabulations dans R
Je suis en train de lire un gros fichier délimité par des tabulations à R.
J'ai d'abord essayé ceci:
data <- read.table("data.csv", sep="\t")
Mais il est la lecture de certaines des variables numériques en tant que facteurs
J'ai donc essayé de lire dans la base de données sur ce type je veux que chaque variable comme ceci:
data <- read.table("data.csv", sep="\t", colClasses=c("character","numeric","numeric","character","boolean","numeric"))
Mais quand j'essaie ce qu'il me donne une erreur:
Erreur dans l'analyse(fichier, ce qui, nmax, sept., déc, devis, sauter, nlines, na.des chaînes, des :
scan() attend un réel', a " "4"'
Je pense qu'il pourrait être qu'il y a des guillemets autour de certaines valeurs numériques dans le fichier raw original, mais je ne suis pas sûr.
source d'informationauteur Ford
Vous devez vous connecter pour publier un commentaire.
Sans voir vos données, vous avez un peu de choses: vous n'avez pas tous les onglets pour séparer les données; il y a embeded onglets simples observations; ou un litnay des autres.
La façon dont vous pouvez régler cette question est de mettre en
options(stringsAsFactors=FALSE)
puis utilisez votre première ligne.Découvrez
str(data)
et essayer de comprendre les lignes qui sont les coupables. La raison pour laquelle certains de ces valeurs numériques sont à lire comme des facteurs est parce qu'il y a quelque chose dans cette colonne que R est l'interprétation d'un personnage et donc, il contraint l'ensemble de la colonne de caractère. Il faut généralement un certain creuser, mais le problème est presque sûrement avec votre fichier d'entrée.C'est une commune de données munging problème, bonne chance!