Ce n'FSelector de l'information.le gain de la mesure?

Je suis en train d'essayer de comprendre comment utiliser correctement le package R FSelector, et, en particulier, de ses informations.gain de fonction. Selon la documentation:

information gain = H(class) + H(attribute) - H(class,attribute)

Que faire de ces quantités veux dire? Et comment réagissent-ils à la définition standard du Gain d'Informations. Autant que je sache, le Gain d'Informations en raison d'une attribute = H(S) - sum p(S_i)H(S_i) où H(.) est l'entropie; S est la non partitionné ensemble; S_i sont les sous-ensembles de S induite par l'attribut; et p(S_i) = |S_i|/|S|.

Je voudrais aussi savoir si il y a d'autres paquets qui utilisent le concept de Gain d'Informations.

Merci pour votre aide.

Cette réponse sur le CV peut être de votre intérêt: stats.stackexchange.com/questions/161429/...

OriginalL'auteur user3434580 | 2014-03-18

9

L'idée derrière FSelector et de ses fonctions est de choisir la meilleure combinaison d'attributs trouvé dans un ensemble de données. Peut-être, certains attributs sont unnecesary (peut-être), qui dépend de l'ensemble de données que vous travaillez avec.

de l'information.le gain est une fonction qui choisir la meilleure combinaison d'attributs en fonction de son "Gain d'Informations". Cette fonction est basée sur l'entropie (Vous pouvez lire beaucoup de docs à ce sujet).

Voici un exemple d'utilisation de la célèbre IRIS dataset (Voir l'exemple complet à http://rgm3.lab.nig.ac.jp/RGM/R_rdfile?f=FSelector/man/information.gain.Rd&d=R_CC):
```
library(FSelector)
data(iris)

weights <- information.gain(Species~., iris)
print(weights)

subset <- cutoff.k(weights, 2)

f <- as.simple.formula(subset, "Species")
print(f)
```
- Ce à dire que les attributs les plus importants sont Pétale.La largeur et la Pétale.Longueur

Il y a beaucoup de bibliothèques à l'aide des fonctions similaires! (RWeka, CORElearn, FSelector...)

Je vous remercie. Est-il possible d'avoir un bon attribut qui a un faible gain d'informations?
Bien sûr, vous pouvez utiliser tous les attributs que vous voulez, mais pour certains processus, il vous suffit d'utiliser les plus représentatifs. Par exemple, dans la reconnaissance du visage, vous pouvez utiliser uniquement un sous-ensemble de l'image attributs; aussi, pour la compression des données. Peut-être vous pouvez consulter les statistiques et les mathématiques qui se cachent derrière tout cela. Un bon point de départ est la Décomposition en valeurs Singulières (SVD) ou l'Analyse en composantes Principales. En bref, vous avez tendance à utiliser les attributs avec le plus grand gain d'informations ratio et de laisser ceux qui ont un faible gain d'informations.
PCA & SVD choisir des variables selon leur variance, indépendamment de leur effet sur le résultat. Le gain d'informations, au contraire, les rangs des variables en fonction de leur capacité à diminuer le "impureté". Ainsi, l'APC et de la SVD ne sont pas pertinents ici (au moins à la valeur nominale).

OriginalL'auteur andresram1

Vous devez vous connecter pour publier un commentaire.