Un moyen rapide pour trouver le plus grand de N éléments dans un tableau numpy

Je sais que je peux le faire comme suit:

import numpy as np
N=10
a=np.arange(1,100,1)
np.argsort()[-N:]

Cependant, il est très lent car il fait un plein de tri.

Je me demande si numpy fournir certaines méthodes de le faire vite.

Double Possible de Comment obtenir des indices de N valeurs maximales dans un tableau numpy?

InformationsquelleAutor Hailiang Zhang | 2012-04-26

40

La goulot d'étranglement module a un jeûne partiel méthode de tri qui fonctionne directement avec les tableaux Numpy: goulot d'étranglement.partition().

Noter que bottleneck.partition() retourne les valeurs réelles triés, si vous voulez que l'index de la triés valeurs (ce qui numpy.argsort() retourne), vous devez utiliser goulot d'étranglement.argpartition().

J'ai comparé:
- z = -bottleneck.partition(-a, 10)[:10]
- z = a.argsort()[-10:]
- z = heapq.nlargest(10, a)
où a aléatoire de 1 000 000-élément de tableau.

Les horaires ont été comme suit:
- bottleneck.partition(): 25.6 ms par boucle
- np.argsort(): 198 ms par boucle
- heapq.nlargest(): 358 ms par boucle
- Graham: Merci pour l'edit, mais nanargmax() fait quelque chose d'assez différent de ce que l'OP est de demander. Je vais revenir à la modifier. Corrigez-moi si je me manque quelque chose.
- Probablement goulot d'étranglement est plus rapide, mais comme il n'est pas fourni dans EPD7.1, on ne peut pas utiliser.
- Moi aussi, j'aimerais voir bottleneck ajouté à l'EPD.
- Désolé, je l'ai lu comme nargmax, pas nanargmax.
- Pour l'enregistrement, bottleneck.partsort() et np.argsort() sont deux des choses légèrement différentes. Elles retournent une valeur et un index respectivement. Si vous souhaitez un goulot d'étranglement pour le retour de l'index, utilisez bottleneck.argpartsort
- Le timing de heapq.nlargest n'est pas tout à fait juste. Il serait préférable d'exécuter heapq.nlargest(10, a.tolist())
InformationsquelleAutor NPE
56

numpy 1.8 implémente partition et argpartition qui effectuent partielle de tri ( en O(n) fois, par opposition à une sorte qui est O(n) * log(n)).
```
import numpy as np

test = np.array([9,1,3,4,8,7,2,5,6,0])

temp = np.argpartition(-test, 4)
result_args = temp[:4]

temp = np.partition(-test, 4)
result = -temp[:4]
```
Résultat:
```
>>> result_args
array([0, 4, 8, 5]) # indices of highest vals
>>> result
array([9, 8, 6, 7]) # highest vals
```
Calendrier:
```
In [16]: a = np.arange(10000)

In [17]: np.random.shuffle(a)

In [18]: %timeit np.argsort(a)
1000 loops, best of 3: 1.02 ms per loop

In [19]: %timeit np.argpartition(a, 100)
10000 loops, best of 3: 139 us per loop

In [20]: %timeit np.argpartition(a, 1000)
10000 loops, best of 3: 141 us per loop
```
- Notez que ceci peut être utile à d'autres personnes: L'exemple n'est pas le meilleur choix, puisque le résultat n'est pas garanti d'être dans l'ordre
- Je n'ai jamais dis le résultat est garanti d'être dans l'ordre, c'est ce que partielle, le tri est. Et dans l'exemple que j'ai donner: [9, 8, 6, 7] il est clair que n plus de vals ne sont pas dans l'ordre.
- yup, avec le recul, il est évident, parce que vous ne pouvez pas de tri en O(n). J'ai passé 20 minutes à chercher un bug, et pensé que cela pourrait être utile pour d'autres personnes à la lecture de ce
- Essayez de définir "kth" comme une séquence, comme indiqué dans la doc de numpy.argpartition -- "Si fourni avec une séquence de k-th il partition tous dans leur position assortie à la fois." Et, l'exemple à la suite de la doc -- >>> x = np.tableau([3, 4, 2, 1]) >>> x[np.argpartition(x, 3)] tableau([2, 1, 3, 4]) >>> x[np.argpartition(x, (1, 3))] tableau([1, 2, 3, 4]) docs.scipy.org/doc/numpy/reference/generated/...
- Nous pouvons également obtenir une explication de pourquoi le tableau est inversé au cours de la argpartition? Ne devrait-elle pas être fondamentalement la même, mais avec la sélection sur temp[:5] au lieu de temp[4:] alors? Ou alors j'ai loupé un détail crucial ici?
- Par 'inversé', faites-vous référence à -test? np.partition trier dans l'ordre croissant par défaut. Pour trier dans l'ordre décroissant, nous pouvons nous tourner tous les nombres négatifs (array([-9, -1, -3, -4, -8, -7, -2, -5, -6, 0])) et de tri dans ce tableau à la place.
InformationsquelleAutor Akavall

Chaque signe négatif dans le projet de goulot d'étranglement solution

-bottleneck.partsort(-a, 10)[:10]

fait une copie des données. Nous pouvons supprimer les copies en faisant

bottleneck.partsort(a, a.size-10)[-10:]

Également le projet de numpy solution

a.argsort()[-10:]

rendements des indices et non des valeurs. La solution est d'utiliser des indices pour trouver les valeurs:

a[a.argsort()[-10:]]

La vitesse relative des deux goulot d'étranglement des solutions dépend de l'ordre des éléments dans la table initiale, parce que les deux approches de partitionner les données en différents points.

En d'autres termes, le calendrier avec un ensemble aléatoire peut prendre soit la méthode look plus rapide.

La moyenne de la synchronisation à travers 100 random matrices, chacune avec 1 000 000 d'éléments, donne

-bn.partsort(-a, 10)[:10]: 1.76 ms per loop
bn.partsort(a, a.size-10)[-10:]: 0.92 ms per loop
a[a.argsort()[-10:]]: 15.34 ms per loop

cas où le moment où le code est comme suit:

import time
import numpy as np
import bottleneck as bn

def bottleneck_1(a):
    return -bn.partsort(-a, 10)[:10]

def bottleneck_2(a):
    return bn.partsort(a, a.size-10)[-10:]

def numpy(a):
    return a[a.argsort()[-10:]]

def do_nothing(a):
    return a

def benchmark(func, size=1000000, ntimes=100):
    t1 = time.time()
    for n in range(ntimes):
        a = np.random.rand(size)
        func(a)
    t2 = time.time()
    ms_per_loop = 1000000 * (t2 - t1) / size
    return ms_per_loop

t1 = benchmark(bottleneck_1)
t2 = benchmark(bottleneck_2)
t3 = benchmark(numpy)
t4 = benchmark(do_nothing)

print "-bn.partsort(-a, 10)[:10]: %0.2f ms per loop" % (t1 - t4)
print "bn.partsort(a, a.size-10)[-10:]: %0.2f ms per loop" % (t2 - t4)
print "a[a.argsort()[-10:]]: %0.2f ms per loop" % (t3 - t4)

InformationsquelleAutor kwgoodman

J'ai eu ce problème et, depuis que cette question est de 5 ans, j'ai dû refaire tous les indices de référence et de modifier la syntaxe de goulot d'étranglement (il n'y a pas de partsort plus, c'est partition maintenant).

J'ai utilisé les mêmes arguments que kwgoodman, sauf le nombre d'éléments récupérés, dont j'ai augmenté à 50 (pour mieux l'adapter à ma situation particulière).

J'ai obtenu ces résultats:

bottleneck 1: 01.12 ms per loop
bottleneck 2: 00.95 ms per loop
pandas      : 01.65 ms per loop
heapq       : 08.61 ms per loop
numpy       : 12.37 ms per loop
numpy 2     : 00.95 ms per loop

Donc, bottleneck_2 et numpy_2 (adas de la solution) étaient attachés.
Mais, à l'aide de np.percentile (numpy_2) vous avez ces topN éléments déjà triés, ce qui n'est pas le cas pour les autres solutions. D'autre part, si vous êtes également intéressé à l'index de ces éléments, centile n'est pas utile.

J'ai ajouté les pandas trop, qui utilise goulot d'étranglement en dessous, si disponible (http://pandas.pydata.org/pandas-docs/stable/install.html#recommended-dependencies). Si vous avez déjà une pandas Série ou DataFrame pour commencer, vous êtes en de bonnes mains, il suffit d'utiliser nlargest et vous avez terminé.

Le code utilisé pour l'indice de référence est comme suit (python 3, s'il vous plaît):

import time
import numpy as np
import bottleneck as bn
import pandas as pd
import heapq
def bottleneck_1(a, n):
return -bn.partition(-a, n)[:n]
def bottleneck_2(a, n):
return bn.partition(a, a.size-n)[-n:]
def numpy(a, n):
return a[a.argsort()[-n:]]
def numpy_2(a, n):
M = a.shape[0]
perc = (np.arange(M-n,M)+1.0)/M*100
return np.percentile(a,perc)
def pandas(a, n):
return pd.Series(a).nlargest(n)
def hpq(a, n):
return heapq.nlargest(n, a)
def do_nothing(a, n):
return a[:n]
def benchmark(func, size=1000000, ntimes=100, topn=50):
t1 = time.time()
for n in range(ntimes):
a = np.random.rand(size)
func(a, topn)
t2 = time.time()
ms_per_loop = 1000000 * (t2 - t1) / size
return ms_per_loop
t1 = benchmark(bottleneck_1)
t2 = benchmark(bottleneck_2)
t3 = benchmark(pandas)
t4 = benchmark(hpq)
t5 = benchmark(numpy)
t6 = benchmark(numpy_2)
t0 = benchmark(do_nothing)
print("bottleneck 1: {:05.2f} ms per loop".format(t1 - t0))
print("bottleneck 2: {:05.2f} ms per loop".format(t2 - t0))
print("pandas      : {:05.2f} ms per loop".format(t3 - t0))
print("heapq       : {:05.2f} ms per loop".format(t4 - t0))
print("numpy       : {:05.2f} ms per loop".format(t5 - t0))
print("numpy 2     : {:05.2f} ms per loop".format(t6 - t0))

merci pour le code! J'ai aussi testé np.argpartition et a constaté que c'est 10x plus lent que les np.argmax, quand argpartition est définie pour trouver le top 1 de l'élément.

InformationsquelleAutor Tacio Medeiros

7

Peut-être heapq.nlargest
```
import numpy as np
import heapq
x = np.array([1,-5,4,6,-3,3])
z = heapq.nlargest(3,x)
```
Résultat:
```
>>> z
[6, 4, 3]
```
Si vous voulez trouver les indices de la n plus grands éléments à l'aide de bottleneck vous pouvez utiliser
bottleneck.argpartsort
```
>>> x = np.array([1,-5,4,6,-3,3])
>>> z = bottleneck.argpartsort(-x, 3)[:3]
>>> z
array([3, 2, 5]
```
- Mais tas q est en fait plus lentement (également mentionnée par la prochaine réponse).
InformationsquelleAutor Akavall
2

Vous pouvez également utiliser numpy du percentile de la fonction. Dans mon cas, il était légèrement plus rapide goulot d'étranglement.partsort():
```
import timeit
import bottleneck as bn
N,M,K = 10,1000000,100
start = timeit.default_timer()
for k in range(K):
a=np.random.uniform(size=M)
tmp=-bn.partsort(-a, N)[:N]
stop = timeit.default_timer()
print (stop - start)/K
start = timeit.default_timer()
perc = (np.arange(M-N,M)+1.0)/M*100
for k in range(K):
a=np.random.uniform(size=M)
tmp=np.percentile(a,perc)
stop = timeit.default_timer()
print (stop - start)/K
```
Temps moyen par boucle:
- goulot d'étranglement.partsort(): 59 ms
- np.centile(): 54 ms
- Notez que percentile peut interpoler des valeurs par défaut. Si vous voulez exactement les mêmes valeurs que dans le tableau d'entrée vous pouvez ajouter l'argument interpolation='nearest' à l'appel à np.percentile. Voir documentation pour plus de détails.
InformationsquelleAutor Aetienne Sardon
1

Si le stockage de la matrice comme une liste de numéros n'est pas problématique, vous pouvez utiliser
```
import heapq
heapq.nlargest(N, a)
```
pour obtenir le N plus importants membres.

InformationsquelleAutor Mike Graham

Vous devez vous connecter pour publier un commentaire.