Comment sauter des lignes invalides lors de la lecture des données d'image à partir du fichier dans le R?

J'ai un gros fichier qui contient beaucoup de données, et j'aimerais lire dans dataframe, mais a trouvé des lignes invalides. Ces lignes invalides cause de la lire.table à casser. J'ai essayer la méthode suivante pour sauter des lignes non valides, mais il semble que le rendement est très mauvais.

counts<-count.fields(textConnection(lines),sep="counts<-count.fields(textConnection(lines),sep="\001")
raw_data<-read.table(textConnection(lines[counts == 34]), sep="\001")
1")
raw_data<-read.table(textConnection(lines[counts == 34]), sep="counts<-count.fields(textConnection(lines),sep="\001")
raw_data<-read.table(textConnection(lines[counts == 34]), sep="\001")
1")

Est-il un meilleur moyen pour y parvenir? Grâce

Ce qui est mauvais dans votre définition?
Une raison quelconque vous n'êtes pas à l'aide de read.table directement? Il a beaucoup d'arguments pour sélectionner et d'ignorer divers "mauvais" personnages. Il y a aussi un argument pour "combler" les lignes incomplètes, si tel est le problème que vous rencontrez.

OriginalL'auteur zjffdu | 2012-05-15

dataframe r

18

à l'aide de @PaulHiemstra de l'échantillon de données:
```
read.table("test.csv", sep = ";", fill=TRUE)
```
ensuite, vous prenez soin de le NAs comme vous le souhaitez.

J'ai ajouté votre réponse comme une option supplémentaire pour les points de référence
Paresseux moi, c'était ma réponse dans mon premier commentaire, mais vous l'avez écrit dans beaucoup plus de détails
pour votre commentaire karma.
Il serait même préférable de le combiner avec na.string="", de cette façon, toutes les cellules vides à être reconnu comme NA.

OriginalL'auteur Paolo

Ce que vous pourriez faire est de faire une itération sur les lignes dans le fichier, et ajouter uniquement les lignes qui ont la bonne longueur.

J'ai défini le test suivant fichier csv:

1;2;3;4
1;2;3;4
1;2;3
1;2;3;4

À l'aide de read.table échoue:

> read.table("test.csv", sep = ";")
Error in scan(file, what, nmax, sep, dec, quote, skip, nlines, na.strings,  :                                                                       
  line 3 did not have 4 elements

Maintenant une approche itérative:

require(plyr)
no_lines = 4
correct_length = 4
file_con = file("test.csv", "r")
result = ldply(1:no_lines, function(line) {
   dum = strsplit(readLines(file_con, n = 1), split = ";")[[1]]
   if(length(dum) == correct_length) {
     return(dum)
   } else {
     cat(sprintf("Skipped line %s\n", line))
     return(NULL)
   }
  })
close(file_con)

> result
  V1 V2 V3 V4
1  1  2  3  4
2  1  2  3  4
3  1  2  3  4

Bien sûr c'est un exemple trivial que le fichier est vraiment petit. Laissez-nous créer un plus difficile exemple à agir en tant que référence.

# First file with invalid rows
norow = 10e5    # number of rows
no_lines = round(runif(norow, min = 3, max = 4))
no_lines[1] = correct_length
file_content = ldply(no_lines, function(line) paste(1:line, collapse = ";"))
writeLines(paste(file_content[[1]], sep = "\n"), "big_test.csv")

# Same length with valid rows
file_content = ldply(rep(4, norow), function(line) paste(1:line, collapse = ";"))
writeLines(paste(file_content[[1]], sep = "\n"), "big_normal.csv")

Maintenant pour l'indice de référence

# Iterative approach
system.time({file_con <- file("big_test.csv", "r")
    result_test <- ldply(1:norow, function(line) {
       dum = strsplit(readLines(file_con, n = 1), split = ";")[[1]]
       if(length(dum) == correct_length) {
         return(dum)
       } else {
         # Commenting this speeds up by 30%
         #cat(sprintf("Skipped line %s\n", line))
         return(NULL)
       }
      })
    close(file_con)})
   user  system elapsed 
 20.559   0.047  20.775

# Normal read.table
system.time(result_normal <- read.table("big_normal.csv", sep = ";"))
   user  system elapsed 
  1.060   0.015   1.079 

# read.table with fill = TRUE
system.time({result_fill <- read.table("big_test.csv", sep = ";", fill=TRUE)
             na_rows <- complete.cases(result_fill)
             result_fill <- result_fill[-na_rows,]})
   user  system elapsed 
  1.161   0.033   1.203 

# Specifying which type the columns are (e.g. character or numeric)
# using the colClasses argument.
system.time({result_fill <- read.table("big_test.csv", sep = ";", fill=TRUE, 
                                       colClasses = rep("numeric", 4))
             na_rows <- complete.cases(result_fill)
             result_fill <- result_fill[-na_rows,]})
   user  system elapsed 
  0.933   0.064   1.001

Donc l'approche itérative est un peu plus lent, mais 20 secondes pour 1 million de lignes peut être acceptable (bien que cela dépend de votre définition de l'acceptable). Surtout quand vous avez seulement pour cette fois, et de l'enregistrer à l'aide save pour une récupération ultérieure. La solution proposée par @Paolo est presque aussi rapide que la normale appel à read.table. Les lignes qui contiennent le mauvais nombre de colonnes (donc NA's) sont éliminés à l'aide de complete.cases. La spécification des classes les colonnes sont améliore encore les performances, et je pense que cet effet va être plus importante lorsque le nombre de colonnes et de lignes devient plus grande.

Donc, en conclusion, la meilleure option est d'utiliser read.table avec fill = TRUE, tout en précisant les catégories de colonnes. L'approche itérative à l'aide de ldply est seulement une bonne option si vous voulez plus de flexibilité dans le choix de la façon de lire les lignes, par exemple, ne lisent que la ligne si une certaine valeur est supérieure à un seuil. Mais, probablement, ce qui pourrait être fait plus rapidement par la lecture de toutes les données dans R, et que la création d'un sous-ensemble. Uniquement lorsque les données est plus grand que votre RAM, je ne pouvais imaginer l'approche itérative avoir ses mérites.

OriginalL'auteur Paul Hiemstra

Vous devez vous connecter pour publier un commentaire.