Compter le nombre d'éléments avec les valeurs de x dans un vecteur

J'ai un vecteur de nombres:

numbers <- c(4,23,4,23,5,43,54,56,657,67,67,435,
         453,435,324,34,456,56,567,65,34,435)

Comment puis-je avoir R compter le nombre de fois qu'une valeur x apparaît dans le vecteur?

InformationsquelleAutor RQuestions | 2009-12-17

count r r-faq vector

474

Vous pouvez simplement utiliser table():
```
> a <- table(numbers)
> a
numbers
  4   5  23  34  43  54  56  65  67 324 435 453 456 567 657 
  2   1   2   2   1   1   2   1   2   1   3   1   1   1   1 
```
Ensuite, vous pouvez sous-ensemble c':
```
> a[names(a)==435]
435 
  3
```
Ou de le convertir en données.image si vous êtes plus à l'aise avec le travail que:
```
> as.data.frame(table(numbers))
   numbers Freq
1        4    2
2        5    1
3       23    2
4       34    2
...
```
- N'oubliez pas de potentiel de point flottant questions, en particulier avec table, ce qui contraint les numéros de chaînes.
- C'est un très bon point. Ce sont tous les nombres entiers, de sorte qu'il n'est pas un vrai problème dans cet exemple, non?
- pas exactement. Les éléments de la table sont de classe de classe de nombre entier(tableau(nombre)[1]), mais 435 est un nombre à virgule flottante. Pour en faire un entier, vous pouvez utiliser 435L.
- Je suis confus au sujet de pourquoi 435 est un flotteur dans cet exemple. Pouvez-vous préciser un peu? merci.
- C'est parce que tous les numéros, sauf si les entiers sont explicitement demandées, sont des flotteurs par défaut.
- Pourquoi ne pas a["435"] insetead de a[names(a)==435]?
- si vous aviez aussi le nombre de pièces pour un NAs["NA"] ne fonctionne pas.
- Utilisateur @hadley nommé: somme(nombre == x) Beaucoup plus précises et plus rapides à comprendre
- Est l'option de la table plus vite qu'un simple sapply comme l'une des réponses suivantes?
InformationsquelleAutor Shane
248

La façon la plus directe est sum(numbers == x).

numbers == x crée une logique vecteur qui est VRAI à chaque emplacement que x se produit, et quand suming, la logique vecteur est contrainte numérique qui convertit VRAI 1 et FALSE 0.

Toutefois, notez que pour les nombres à virgule flottante, il est préférable d'utiliser quelque chose comme: sum(abs(numbers - x) < 1e-6).
- bon point sur la virgule flottante question. Qui mord mes fesses plus que de manière générale, j'aime bien l'admettre.
- alors qu'il n'répondre directement à la question, je suppose que les gens ont aimé le plus général, la solution que donne la réponse pour tous les x dans les données, plutôt que sur une valeur connue de x. Pour être juste, c'est ce que la question initiale était d'environ. Comme je l'ai dit dans ma réponse ci-dessous, "je trouve que c'est rare que j'ai envie de connaître la fréquence d'une valeur et non pas toutes les valeurs..."
InformationsquelleAutor hadley
56

Je serais probablement faire quelque chose comme ceci
```
length(which(numbers==x))
```
Mais vraiment, la meilleure voie est
```
table(numbers)
```
- table(numbers) va faire beaucoup plus de travail que la solution la plus simple, sum(numbers==x), car il va déterminer le nombre de toutes les autres nombres de la liste.
- le problème avec la table, c'est qu'il est plus difficile de l'inclure à l'intérieur plus complexe de calcul, par exemple à l'aide de appliquer() sur dataframes
InformationsquelleAutor Jesse
38

Il est également count(numbers) de plyr paquet. Beaucoup plus pratique que de table à mon avis.

InformationsquelleAutor geotheory
33

Ma solution préférée utilise rle, qui permet de renvoyer une valeur (l'étiquette, x dans votre exemple) et une longueur, qui représente le nombre de fois que la valeur est apparu dans la séquence.

En combinant rle avec sort, vous avez une extrêmement rapide de la façon de compter le nombre de fois où toute valeur est apparu. Cela peut être utile avec des problèmes plus complexes.

Exemple:
```
> numbers <- c(4,23,4,23,5,43,54,56,657,67,67,435,453,435,324,34,456,56,567,65,34,435)
> a <- rle(sort(numbers))
> a
  Run Length Encoding
    lengths: int [1:15] 2 1 2 2 1 1 2 1 2 1 ...
    values : num [1:15] 4 5 23 34 43 54 56 65 67 324 ...
```
Si la valeur que vous souhaitez ne pas apparaître, ou vous avez besoin de stocker cette valeur pour plus tard, faire a un data.frame.
```
> b <- data.frame(number=a$values, n=a$lengths)
> b
    values n
 1       4 2
 2       5 1
 3      23 2
 4      34 2
 5      43 1
 6      54 1
 7      56 2
 8      65 1
 9      67 2
 10    324 1
 11    435 3
 12    453 1
 13    456 1
 14    567 1
 15    657 1
```
Je trouve que c'est rare que j'ai envie de connaître la fréquence d'une valeur et non pas toutes les valeurs, et rle semble être la façon la plus rapide de compter et de les conserver tous.
- Est l'avantage de cette, vs table, qu'elle donne un résultat plus facilement utilisable format? merci
- Je dirais il y a deux avantages. La première est certainement qu'il est plus facilement utilisé le format de la table de sortie. La deuxième est que, parfois, je veux compter le nombre d'éléments "en ligne" plutôt que dans l'ensemble du jeu de données. Par exemple, c(rep('A', 3), rep('G', 4), 'A', rep('G', 2), rep('C', 10)) serait de retour values = c('A','G','A','G','C') et lengths=c(3, 4, 1, 2, 10) ce qui est parfois utile.
- à l'aide de microbenchmark, il semble que table est plus rapide when the vector is long (j'ai essayé 100000) mais un peu plus quand il court (j'ai essayé 1000)
- Cela va être vraiment lent si vous avez beaucoup de chiffres.
InformationsquelleAutor JBecker
19

Il n'y est une fonction standard dans la R pour que

tabulate(numbers)
- L'inconvénient de tabulate est que vous ne pouvez pas traiter avec le zéro et les nombres négatifs.
- Mais vous pouvez faire face avec zéro cas d'un nombre donné par l'ensemble des autres solutions ne permettent pas de gérer
- Incroyablement rapide! Et comme omar dit, il donne de comptage à zéro pour les non-apparaissant valeurs, très utile lorsque nous voulons construire une distribution de fréquences. Nulle ou négative, les nombres entiers peuvent être traitées par l'ajout d'une constante avant d'utiliser tabulate. Remarque: sort semble être nécessaire pour son utilisation correcte en général: tabulate(sort(numbers)).
InformationsquelleAutor Sergej Andrejev

numbers <- c(4,23,4,23,5,43,54,56,657,67,67,435 453,435,324,34,456,56,567,65,34,435)

> length(grep(435, numbers))
[1] 3


> length(which(435 == numbers))
[1] 3


> require(plyr)
> df = count(numbers)
> df[df$x == 435, ] 
     x freq
11 435    3


> sum(435 == numbers)
[1] 3


> sum(grepl(435, numbers))
[1] 3


> sum(435 == numbers)
[1] 3


> tabulate(numbers)[435]
[1] 3


> table(numbers)['435']
435 
  3 


> length(subset(numbers, numbers=='435')) 
[1] 3

InformationsquelleAutor ishandutta2007

9

voici un rapide et sale:
```
x <- 23
length(subset(numbers, numbers==x))
```
InformationsquelleAutor JD Long

Si vous voulez compter le nombre d'apparitions par la suite, vous pouvez faire usage de la sapply fonction:

index<-sapply(1:length(numbers),function(x)sum(numbers[1:x]==numbers[x]))
cbind(numbers, index)

De sortie:

        numbers index
 [1,]       4     1
 [2,]      23     1
 [3,]       4     2
 [4,]      23     2
 [5,]       5     1
 [6,]      43     1
 [7,]      54     1
 [8,]      56     1
 [9,]     657     1
[10,]      67     1
[11,]      67     2
[12,]     435     1
[13,]     453     1
[14,]     435     2
[15,]     324     1
[16,]      34     1
[17,]     456     1
[18,]      56     2
[19,]     567     1
[20,]      65     1
[21,]      34     2
[22,]     435     3

Est-ce par tout moyen, plus rapide que la table??

InformationsquelleAutor Berny

7

Vous pouvez modifier le nombre de ce que vous voulez dans la ligne suivante
```
length(which(numbers == 4))
```
InformationsquelleAutor uttkarsh dharmadhikari
3

L'aide de la table, mais sans comparaison avec names:
```
numbers <- c(4,23,4,23,5,43,54,56,657,67,67,435)
x <- 67
numbertable <- table(numbers)
numbertable[as.character(x)]
#67 
# 2 
```
table est utile lorsque vous utilisez le compte de différents éléments à plusieurs reprises. Si vous avez besoin de seulement un compte, utilisez sum(numbers == x)

InformationsquelleAutor pomber

D'une façon de plus je trouve pratique est:

numbers <- c(4,23,4,23,5,43,54,56,657,67,67,435,453,435,324,34,456,56,567,65,34,435)
(s<-summary (as.factor(numbers)))

Cela transforme le jeu de données pour le facteur, et puis le résumé() nous donne les totaux de contrôle (nombre de valeurs uniques).

De sortie est:

4   5  23  34  43  54  56  65  67 324 435 453 456 567 657 
2   1   2   2   1   1   2   1   2   1   3   1   1   1   1

Cela peut être stocké comme dataframe si l'on préfère.

comme.les données.cadre(cbind(Nombre = nom(s),Freq = s), stringsAsFactors=F, ligne.noms = 1:length(s))

ici ligne.noms a été utilisé pour renommer les noms de lignes.
sans l'aide de la ligne.les noms, les noms de colonne dans s sont utilisés comme noms de ligne dans de nouveaux dataframe

De sortie est:

     Number Freq
1       4    2
2       5    1
3      23    2
4      34    2
5      43    1
6      54    1
7      56    2
8      65    1
9      67    2
10    324    1
11    435    3
12    453    1
13    456    1
14    567    1
15    657    1

InformationsquelleAutor Akash

Il existe différentes façons de mesurer un des éléments spécifiques

library(plyr)
numbers =c(4,23,4,23,5,43,54,56,657,67,67,435,453,435,7,65,34,435)

print(length(which(numbers==435)))

#Sum counts number of TRUE's in a vector 
print(sum(numbers==435))
print(sum(c(TRUE, FALSE, TRUE)))

#count is present in plyr library 
#o/p of count is a DataFrame, freq is 1 of the columns of data frame
print(count(numbers[numbers==435]))
print(count(numbers[numbers==435])[['freq']])

InformationsquelleAutor Therii

0

Cela peut être fait avec outer pour obtenir un metrix des égalités suivie par rowSums, avec un sens évident.

Afin d'avoir le compte et numbers dans le même ensemble de données, un ensemble de données.le cadre est créé la première fois. Cette étape n'est pas nécessaire si vous voulez séparer d'entrée et de sortie.
```
df <- data.frame(No = numbers)
df$count <- rowSums(outer(df$No, df$No, FUN = `==`))
```
InformationsquelleAutor GWD

Vous devez vous connecter pour publier un commentaire.