Faire un tableau montrant les 10 plus grandes valeurs d'une variable dans R?

Je veux faire un tableau simple qui met en valeur les 10 plus grandes valeurs pour une variable donnée dans mon jeu de données, ainsi que 4 autres variables pour chaque observation, donc, fondamentalement, un petit sous-ensemble de mes données. Il ressemblerait à quelque chose comme ceci:

Score  District  Age  Group  Gender
17     B         23    Red   1
12     A         61    Red   0
11.7   A         18    Blue  0
10     B         18    Red   0
.
.
etc.

où les données sont commandés sur le Score de var. Toutes les données sont contenues dans le même dataframe.

Est-il regroupés par Var4? Quel est le résultat attendu
salut @akrun, la sortie attendue est à peu près ce que j'ai écrit dans la boîte, juste avec 10 lignes au lieu de 4. Var1 pourrait être quelque chose comme le résultat d'un test, et var2-var5 serait de données démographiques, par exemple, var2=district, var3=âge, var4=classe, var5=sexe
Il vaut mieux montrer que aussi parce que la description peut être source de confusion. Désolé, je n'ai pas compris ce que tu voulais.
Mise à jour des noms de variables
Voulez-vous les 10 plus grandes lignes en fonction de la Score, regroupés par "Groupe"

OriginalL'auteur nikUoM | 2015-08-11

r r-table subset tabular

6

Cela devrait le faire...

data <- data[with(data,order(-Score)),]

data <- data[1:10,]

Génial, cela a fonctionné! Merci beaucoup. Il semble que les crochets dans la R font à peu près la même que la commande de remplacement dans Stata.
Peut-être que vous pourriez juste l'envelopper dans head(data[order(-data$Score),], 10)

OriginalL'auteur Gaurav
7

Vous pouvez faire cela en utilisant arrange de dplyr. Cela devrait aussi fonctionner si il y a le regroupement de variables. Juste ajouter group_by avant la arrange. On filtre les 10 premières observations à l'aide de slice.
```
 library(dplyr)
 df1 %>%
    arrange(desc(Score)) %>%
    slice(1:10) 
```
Ou une autre option est ?top_n (commenté par @docendodiscimus) à partir de dplyr qui est un wrapper qui utilise filter et min_rank pour sélectionner le top n (c-10) les inscriptions pour le "Score".
```
 top_n(df1, 10, Score)    
```
Ou nous utilisons filter par la création d'une condition logique avec row_number qui est équivalent à rank(ties.method='first') (contribué par @Steven Beaupre)
```
 filter(df1, row_number(desc(Score)) <= 10)
```
Ou de données.option de la table (par @David Arenburg). Nous convertissons les données.image' à 'des données.table' (setDT(df1)), order (à la baisse) la "Partition" de la variable, et de sélectionner les 10 premières observations. .SD signifie Subset of DataTable.
```
 library(data.table)
 setDT(df1)[order(-Score), .SD[1:10]]
```
Ou top_n(df1, 10, Score)
top_n utilise min_rank et rank(ties.method = "min"). Si vous voulez avoir des résultats avec ties.method = "first" que vous pouvez faire: filter(df1, row_number(desc(Score)) <= 10)
Je me demande si vous pourriez également ajouter setDT(df1)[order(-Score), .SD[1:10]] ou head(setDT(df1)[order(-Score)], 10)

OriginalL'auteur akrun

Vous pouvez obtenir les plus hautes valeurs d'un vecteur à l'aide du code ci-dessous:

my_vec <- c(1:100)
tail(sort(my_vec),10)

Donc, si vous souhaitez utiliser cette méthode comme une trame de données de filtre que vous pouvez faire:

data(mtcars)
mtcars[mtcars$mpg %in% tail(sort(mtcars$mpg),4),]

qui donnerait:

> mtcars[mtcars$mpg %in% tail(sort(mtcars$mpg),4),]
                mpg cyl disp  hp drat    wt  qsec vs am gear carb
Fiat 128       32.4   4 78.7  66 4.08 2.200 19.47  1  1    4    1
Honda Civic    30.4   4 75.7  52 4.93 1.615 18.52  1  1    4    2
Toyota Corolla 33.9   4 71.1  65 4.22 1.835 19.90  1  1    4    1
Lotus Europa   30.4   4 95.1 113 3.77 1.513 16.90  1  1    5    2

OriginalL'auteur Konrad

À l'aide de sqldf:

library(sqldf)
sqldf("SELECT * FROM mtcars 
      ORDER BY mpg DESC 
      LIMIT 10", row.names = TRUE)

De sortie:

               mpg cyl  disp  hp drat    wt  qsec vs am gear carb
Toyota Corolla 33.9   4  71.1  65 4.22 1.835 19.90  1  1    4    1
Fiat 128       32.4   4  78.7  66 4.08 2.200 19.47  1  1    4    1
Honda Civic    30.4   4  75.7  52 4.93 1.615 18.52  1  1    4    2
Lotus Europa   30.4   4  95.1 113 3.77 1.513 16.90  1  1    5    2
Fiat X1-9      27.3   4  79.0  66 4.08 1.935 18.90  1  1    4    1
Porsche 914-2  26.0   4 120.3  91 4.43 2.140 16.70  0  1    5    2
Merc 240D      24.4   4 146.7  62 3.69 3.190 20.00  1  0    4    2
Datsun 710     22.8   4 108.0  93 3.85 2.320 18.61  1  1    4    1
Merc 230       22.8   4 140.8  95 3.92 3.150 22.90  1  0    4    2
Toyota Corona  21.5   4 120.1  97 3.70 2.465 20.01  1  0    3    1

OriginalL'auteur mpalanco

Vous devez vous connecter pour publier un commentaire.