Suppression de lignes dupliquées dans une colonne en fonction des conditions d'une autre colonne

Voici un exemple de mon jeu de données;

Date      Time(GMT)Depth Temp  Salinity Density Phosphate
24/06/2002  1000    1           33.855          0.01
24/06/2002  1000    45          33.827          0.01
01/07/2002  1000    10  13.26   33.104  24.873  0.06
01/07/2002  1000    30  12.01   33.787  25.646  0.13
08/07/2002  1000    5   13.34   33.609  25.248  0.01
08/07/2002  1000    40  12.01   34.258  26.011  1.33
15/07/2002  1000    30  12.04   34.507  26.199  0.01
22/07/2002  1000    5   13.93   33.792  25.269  0.01
22/07/2002  1000    30  11.9    34.438  26.172  0.08
29/07/2002  1000    5   13.23   34.09   25.642  0.01

Je veux supprimer les doublons de lignes, de sorte que je n'ai qu'une ligne par jour, je veux le faire en se fondant sur la Profondeur, je tiens à garder la ligne avec la plus grande (la plus profonde) de profondeur. Des idées?

source d'informationauteur helen.h

Permet de dire que vous avez données dans le df

df = df[order(df[,'Date'],-df[,'Depth']),]
df = df[!duplicated(df$Date),]

3

Ce qui peut ne pas être l'approche plus rapide si votre bloc de données est grande, mais assez strightforward. Cela pourrait changer l'ordre de vos données image et vous pourriez avoir besoin pour réorganiser, par exemple par date par la suite. Au lieu de les supprimer, nous avons divisé les données par date, dans chaque bloc de sélection d'une ligne avec la date maximale et enfin rejoindre le résultat dans un bloc de données
```
data = split(data, data$Date)
data = lapply(data, function(x) x[which.max(x$Depth), , drop=FALSE])
data = do.call("rbind", data)
```
3

L'introduction d'un data.table solution qui sera la plus rapide façon de résoudre ce problème (en supposant que data est votre jeu de données)
```
library(data.table)
unique(setDT(data)[order(Date, -Depth)], by = "Date")
```
Juste une autre façon:
```
setDT(data)[data[, .I[which.max(Depth)], by=Date]$V1]
```

# First find the maxvalues
maxvals = aggregate(df$Depth~df$Date, FUN=max)
#Now use apply to find the matching rows and separate them out
out = df[apply(maxvals,1,FUN=function(x) which(paste(df$Date,df$Depth) == paste(x[1],x[2]))),]

Cela fonctionne pour vous?

Vous devez vous connecter pour publier un commentaire.