La façon la plus rapide pour calculer l'entropie en Python

Dans mon projet j'ai besoin de calculer l'entropie de 0-1 vecteurs de nombreuses fois. Voici mon code:

def entropy(labels):
    """ Computes entropy of 0-1 vector. """
    n_labels = len(labels)

    if n_labels <= 1:
        return 0

    counts = np.bincount(labels)
    probs = counts[np.nonzero(counts)] / n_labels
    n_classes = len(probs)

    if n_classes <= 1:
        return 0
    return - np.sum(probs * np.log(probs)) / np.log(n_classes)

Est-il un moyen plus rapide?

Qu'est ce qu'une longueur typique de labels?
La longueur n'est pas fixe..
Il serait utile pour l'analyse comparative de connaître les valeurs typiques de labels. Si labels est trop court, un pur python de la mise en œuvre pourrait être plus rapide que l'utilisation de NumPy.

InformationsquelleAutor blueSurfer | 2013-03-16

@Sanjeet Gupta réponse est bonne, mais pourrait être condensé. Cette question est précisément de demander à propos de la "plus Rapide" chemin, mais je ne vois que des fois sur une réponse donc je vais poster une comparaison de l'utilisation de scipy et numpy à l'affiche originale du entropy2 réponse avec de légères modifications.

Quatre approches différentes: scipy/numpy, numpy/math, pandas/numpy, numpy

import numpy as np
from scipy.stats import entropy
from math import log, e
import pandas as pd

import timeit

def entropy1(labels, base=None):
  value,counts = np.unique(labels, return_counts=True)
  return entropy(counts, base=base)

def entropy2(labels, base=None):
  """ Computes entropy of label distribution. """

  n_labels = len(labels)

  if n_labels <= 1:
    return 0

  value,counts = np.unique(labels, return_counts=True)
  probs = counts / n_labels
  n_classes = np.count_nonzero(probs)

  if n_classes <= 1:
    return 0

  ent = 0.

  # Compute entropy
  base = e if base is None else base
  for i in probs:
    ent -= i * log(i, base)

  return ent

def entropy3(labels, base=None):
  vc = pd.Series(labels).value_counts(normalize=True, sort=False)
  base = e if base is None else base
  return -(vc * np.log(vc)/np.log(base)).sum()

def entropy4(labels, base=None):
  value,counts = np.unique(labels, return_counts=True)
  norm_counts = counts / counts.sum()
  base = e if base is None else base
  return -(norm_counts * np.log(norm_counts)/np.log(base)).sum()

Timeit opérations:

repeat_number = 1000000

a = timeit.repeat(stmt='''entropy1(labels)''',
                  setup='''labels=[1,3,5,2,3,5,3,2,1,3,4,5];from __main__ import entropy1''',
                  repeat=3, number=repeat_number)

b = timeit.repeat(stmt='''entropy2(labels)''',
                  setup='''labels=[1,3,5,2,3,5,3,2,1,3,4,5];from __main__ import entropy2''',
                  repeat=3, number=repeat_number)

c = timeit.repeat(stmt='''entropy3(labels)''',
                  setup='''labels=[1,3,5,2,3,5,3,2,1,3,4,5];from __main__ import entropy3''',
                  repeat=3, number=repeat_number)

d = timeit.repeat(stmt='''entropy4(labels)''',
                  setup='''labels=[1,3,5,2,3,5,3,2,1,3,4,5];from __main__ import entropy4''',
                  repeat=3, number=repeat_number)

Timeit résultats:

# for loop to print out results of timeit
for approach,timeit_results in zip(['scipy/numpy', 'numpy/math', 'pandas/numpy', 'numpy'], [a,b,c,d]):
  print('Method: {}, Avg.: {:.6f}'.format(approach, np.array(timeit_results).mean()))

Method: scipy/numpy, Avg.: 63.315312
Method: numpy/math, Avg.: 49.256894
Method: pandas/numpy, Avg.: 884.644023
Method: numpy, Avg.: 60.026938

Gagnant: numpy/math (entropy2)

Il est également intéressant de noter que le entropy2 la fonction ci-dessus peut traiter numérique ET des données de texte. ex: entropy2(list('abcdefabacdebcab')). L'affiche originale de la réponse est à partir de 2013 et a un cas d'utilisation pour binning ints mais il ne fonctionne pas pour le texte.

Vous êtes à l'aide d'un petit tableau que vos tests sont fondamentalement inutile. Vous êtes vraiment juste mesure appel de surcharge pour les différentes interfaces.
Il y a un lien "Ajoutez une autre réponse" sur cette page. N'hésitez pas à apporter votre meilleure réponse.
En utilisant ce code je viens de recevoir le calendrier de ma réponse ("Une réponse qui ne repose pas sur numpy, soit...") - et c'est Method: eta, Avg.: 10.461799. Comme quelqu'un l'a suggéré, je me demande si vous avez fait les tests de temps système de l'appel ici.
le numpy + scipy est le plus propre pour moi.

InformationsquelleAutor Jarad

24

Avec les données comme un pd.Series et scipy.stats, le calcul de l'entropie d'une quantité donnée est assez simple:
```
import pandas as pd
import scipy.stats

def ent(data):
    """Calculates entropy of the passed `pd.Series`
    """
    p_data = data.value_counts()           # counts occurrence of each value
    entropy = scipy.stats.entropy(p_data)  # get entropy from counts
    return entropy
```
Remarque: scipy.stats permettra de normaliser les données fournies, donc ce n'est pas nécessaire de le faire de manière explicite, c'est à dire le passage d'un tableau de numération fonctionne très bien.

InformationsquelleAutor Sanjeet Gupta

À la suite de la suggestion de unutbu je crée un pur python de mise en œuvre.

def entropy2(labels):
 """ Computes entropy of label distribution. """
    n_labels = len(labels)

    if n_labels <= 1:
        return 0

    counts = np.bincount(labels)
    probs = counts / n_labels
    n_classes = np.count_nonzero(probs)

    if n_classes <= 1:
        return 0

    ent = 0.

    # Compute standard entropy.
    for i in probs:
        ent -= i * log(i, base=n_classes)

    return ent

Le point qui me manquait était que les étiquettes est un grand tableau, cependant probs est de 3 ou 4 éléments de long. À l'aide de pure python mon application est maintenant deux fois plus vite.

Doit de "base" indiquer le nombre de classes? Je pensais qu'il le logarithme naturel était la norme (et ce que vous avez utilisé dans votre question initiale.)

InformationsquelleAutor blueSurfer

Une réponse qui ne repose pas sur numpy, soit:

import math
from collections import Counter

def eta(data, unit='natural'):
    base = {
        'shannon' : 2.,
        'natural' : math.exp(1),
        'hartley' : 10.
    }

    if len(data) <= 1:
        return 0

    counts = Counter()

    for d in data:
        counts[d] += 1

    ent = 0

    probs = [float(c) / len(data) for c in counts.values()]
    for p in probs:
        if p > 0.:
            ent -= p * math.log(p, base[unit])

    return ent

Ce acceptons n'importe quel type de données vous pouvez jeter à elle:

>>> eta(['mary', 'had', 'a', 'little', 'lamb'])
1.6094379124341005

>>> eta([c for c in "mary had a little lamb"])
2.311097886212714

La réponse fournie par @Jarad suggéré timings ainsi. À cette fin:

repeat_number = 1000000
e = timeit.repeat(
    stmt='''eta(labels)''', 
    setup='''labels=[1,3,5,2,3,5,3,2,1,3,4,5];from __main__ import eta''', 
    repeat=3, 
    number=repeat_number)

Timeit résultats: (je crois que c'est ~4x plus rapide que la meilleure numpy approche)

print('Method: {}, Avg.: {:.6f}'.format("eta", np.array(e).mean()))

Method: eta, Avg.: 10.461799

pourquoi avez-vous besoin de probs = [p pour p dans probs si p > 0.]?
Depuis que je suis en train de faire ce test cinq lignes plus tard, je soupçonne que je n'ai pas besoin du tout 🙂 Édité.

InformationsquelleAutor joemadeus

7

Ma fonction préférée pour l'entropie est la suivante:
```
def entropy(labels):
    prob_dict = {x:labels.count(x)/len(labels) for x in labels}
    probs = np.array(list(prob_dict.values()))

    return - probs.dot(np.log2(probs))
```
Je suis toujours à la recherche d'une jolie manière à éviter le dict -> valeurs -> liste -> np.tableau de conversion. Commentaires à nouveau si je l'ai trouvé.
- nice, l'utilisation des collections.Compteur serait mieux.
- En python2, labels.count(x)/len(labels) devrait être labels.count(x)/float(len(labels))
InformationsquelleAutor Ottotos
5

Voici ma démarche:
```
labels = [0, 0, 1, 1]

from collections import Counter
from scipy import stats

stats.entropy(list(Counter(labels).values()), base=2)
```
- Cela semble fonctionner pour mon image tranches, mais j'ai réellement besoin de la probabilité de valeurs de pixel dans la tranche de 0 à 255.
InformationsquelleAutor Tan Duong

Uniformément répartie de données (haute entropie):

s=range(0,256)

Entropie de Shannon de calcul étape par étape:

import collections

# calculate probability for each byte as number of occurrences /array length
probabilities = [n_x/len(s) for x,n_x in collections.Counter(s).items()]
# [0.00390625, 0.00390625, 0.00390625, ...]

# calculate per-character entropy fractions
e_x = [-p_x*math.log(p_x,2) for p_x in probabilities]
# [0.03125, 0.03125, 0.03125, ...]

# sum fractions to obtain Shannon entropy
entropy = sum(e_x)
>>> entropy 
8.0

One-liner (en supposant que import collections):

def H(s): return sum([-p_x*math.log(p_x,2) for p_x in [n_x/len(s) for x,n_x in collections.Counter(s).items()]])

Une fonction appropriée:

import collections

def H(s):
    probabilities = [n_x/len(s) for x,n_x in collections.Counter(s).items()]
    e_x = [-p_x*math.log(p_x,2) for p_x in probabilities]    
    return sum(e_x)

Des cas de Test - texte en anglais prises de CyberChef estimateur de l'entropie:

>>> H(range(0,256))
8.0
>>> H(range(0,64))
6.0
>>> H(range(0,128))
7.0
>>> H([0,1])
1.0
>>> H('Standard English text usually falls somewhere between 3.5 and 5')
4.228788210509104

De ce fait, il est très clair concernant la capacité à calculer l'entropie sur une certaine plage de valeurs. J'ai besoin d'appliquer cette méthode à la 8-connecté zone autour d'un pixel et de leurs valeurs de niveaux de gris. Vous vous demandez si je pouvais le faire avec une méthode intégrée ainsi.

InformationsquelleAutor kravietz

3

prendre un coup d'oeil ici aussi, il est un classique de l'Entropie de Shannon, devrait être un peu plus rapide, puis un par JohnEntropy http://pythonfiddle.com/shannon-entropy-calculation/

InformationsquelleAutor chupvl
1
```
from collections import Counter
from scipy import stats

labels = [0.9, 0.09, 0.1]
stats.entropy(list(Counter(labels).keys()), base=2)
```
- Même si cela peut répondre à la question, seul le code réponses sont généralement considérés comme lo-qualité. Fournir une description supplémentaire et du contexte sur pourquoi améliorer la qualité de cette réponse. Merci.
InformationsquelleAutor Krishna Chaitanya Gopaluni

La réponse ci-dessus est bonne, mais si vous avez besoin d'une version qui peut fonctionner selon différents axes, voici un travail de mise en œuvre.

def entropy(A, axis=None):
    """Computes the Shannon entropy of the elements of A. Assumes A is 
    an array-like of nonnegative ints whose max value is approximately 
    the number of unique values present.

    >>> a = [0, 1]
    >>> entropy(a)
    1.0
    >>> A = np.c_[a, a]
    >>> entropy(A)
    1.0
    >>> A                   # doctest: +NORMALIZE_WHITESPACE
    array([[0, 0], [1, 1]])
    >>> entropy(A, axis=0)  # doctest: +NORMALIZE_WHITESPACE
    array([ 1., 1.])
    >>> entropy(A, axis=1)  # doctest: +NORMALIZE_WHITESPACE
    array([[ 0.], [ 0.]])
    >>> entropy([0, 0, 0])
    0.0
    >>> entropy([])
    0.0
    >>> entropy([5])
    0.0
    """
    if A is None or len(A) < 2:
        return 0.

    A = np.asarray(A)

    if axis is None:
        A = A.flatten()
        counts = np.bincount(A) # needs small, non-negative ints
        counts = counts[counts > 0]
        if len(counts) == 1:
            return 0. # avoid returning -0.0 to prevent weird doctests
        probs = counts / float(A.size)
        return -np.sum(probs * np.log2(probs))
    elif axis == 0:
        entropies = map(lambda col: entropy(col), A.T)
        return np.array(entropies)
    elif axis == 1:
        entropies = map(lambda row: entropy(row), A)
        return np.array(entropies).reshape((-1, 1))
    else:
        raise ValueError("unsupported axis: {}".format(axis))

InformationsquelleAutor d.b

Vous devez vous connecter pour publier un commentaire.