Ponctuellement d'information mutuelle sur le texte

Je me demandais comment on pourrait calculer l'ponctuellement d'information mutuelle pour la classification de textes. Pour être plus exact, j'ai envie de classer les tweets dans les catégories. J'ai un jeu de données de tweets (qui sont annotés), et j'ai un dictionnaire par catégorie de mots qui appartiennent à cette catégorie. Compte tenu de cette information, comment est-il possible de calculer l'indice PMI pour chaque catégorie par tweet, pour classer un tweet dans une de ces catégories.

InformationsquelleAutor Olivier_s_j | 2012-11-21