Ponctuellement d'information mutuelle sur le texte
Je me demandais comment on pourrait calculer l'ponctuellement d'information mutuelle pour la classification de textes. Pour être plus exact, j'ai envie de classer les tweets dans les catégories. J'ai un jeu de données de tweets (qui sont annotés), et j'ai un dictionnaire par catégorie de mots qui appartiennent à cette catégorie. Compte tenu de cette information, comment est-il possible de calculer l'indice PMI pour chaque catégorie par tweet, pour classer un tweet dans une de ces catégories.
Vous devez vous connecter pour publier un commentaire.
PMI est une mesure d'association entre un élément (dans votre cas, un mot) et une classe (catégorie), et non entre un document (tweet) et une catégorie. La formule est disponible sur Wikipédia:
Dans cette formule,
X
est la variable aléatoire que les modèles de la survenance d'un mot, etY
modèles de l'apparition d'une classe. Pour un mot donnéx
et une classe donnéey
, vous pouvez utiliser PMI de décider si une fonction est informatif ou pas, et vous pouvez faire la sélection des fonctionnalités sur cette base. Avoir moins de fonctionnalités souvent améliore les performances de votre algorithme de classification des vitesses et il considérablement. Le classement de l'étape, cependant, est séparé - PMI seulement vous aide à sélectionner les meilleures fonctionnalités pour alimenter votre algorithme d'apprentissage.Edit:
Une chose que je n'ai pas mentionné dans le post original est que le PMI est sensible à la fréquence des mots. Réécrivons la formule
Quand
x
ety
sont parfaitement corrélées,P(x|y) = P(y|x) = 1
, doncpmi(x,y) = 1/P(x)
. De moins en moins fréquentesx
-es (mots) auront plus de PMI score que de fréquentsx
-es, même si les deux sont en parfaite corrélation avecy
.P(x)
est la probabilité de la parolex
(en minuscules) qui est le rapport entre le nombre de documents qui contiennent le mot et le nombre total de documents.P(y)
est la probabilité de la classe (catégorie)y
, qui est calculé de manière similaire.P(x,y)
si le ratio entre le nombre de documents qui sont deux de l'étiquettey
et contiennent le motx
et le nombre total de documents.-log(P(x, y))
.