Naive Bayes vs SVM pour la classification des données de texte

Je suis en train de travailler sur un problème qui consiste à classifier une grande base de données de textes. Les textes sont très courts (pensez à 3-8 mots) et il y a 10-12 catégories dans lesquelles je tiens à les trier. Pour les fonctionnalités, je suis tout simplement en utilisant le tf–idf de la fréquence de chaque mot. Ainsi, le nombre de fonctionnalités est à peu près égal au nombre de mots qui apparaissent en général dans les textes (je suis la suppression des mots vides et quelques autres).

En essayant de trouver un modèle à utiliser, j'ai eu les deux idées suivantes:

Naive Bayes (probablement le sklearn Naive Bayes multinomial mise en œuvre)
Machine à vecteurs de Support (avec la descente de gradient stochastique est utilisée dans la formation, aussi un sklearn mise en œuvre)

J'ai construit deux modèles, et je suis actuellement en comparant les résultats.

Quels sont théoriques et des inconvénients de chaque modèle? Pourquoi l'un de ces être le mieux pour ce type de problème? Je suis nouveau à l'apprentissage machine, donc ce que j'aimerais comprendre, c'est pourquoi on pourrait faire mieux.

Merci beaucoup!

Votre question est assez large et aussi hors-sujet ! Vous devez répondre à l'autre de manière site web ! (Je n'ai pas de bas voté)
Vous êtes mieux d'essayer les deux et de comparer. Personne ne peut répondre à votre jeu de données.

OriginalL'auteur Ryan | 2016-02-12

20

La plus grande différence entre les modèles, vous êtes la construction d'un "caractéristiques" de point de vue est que Naive Bayes traite comme des indépendants, alors que les SVM examine les interactions entre eux à un certain degré, aussi longtemps que vous êtes en utilisant un non-linéaire du noyau (Gaussien, rbf, poly etc.). Donc si vous avez des interactions, et, compte tenu de votre problème, vous probablement, un SVM sera mieux à la capture de ces, et donc mieux à la tâche de classification que vous voulez.

Le consensus ML pour les chercheurs et les praticiens, c'est que dans presque tous les cas, le SVM est mieux que la Naïve Bayes.

À partir d'un point de vue théorique, il est un peu difficile de comparer les deux méthodes. L'un est probabiliste dans la nature, tandis que la seconde est géométrique. Cependant, il est assez facile de venir avec une fonction où l'on a des dépendances entre les variables qui ne sont pas capturés par Naive Bayes (y(a,b) = ab), donc nous savons que ce n'est pas un universel approximator. Les SVMs avec le bon choix de Noyau sont (comme le sont les 2/3 de la couche réseaux de neurones), donc de ce point de vue, la théorie correspond à la pratique.

Mais à la fin il revient à la performance sur votre problème - en gros, vous voulez choisir la méthode la plus simple qui donne d'assez bon résultats pour votre problème et ont une assez bonne performance. Détection de Spam a été notoirement solvable par juste Naïve Bayes, par exemple. La reconnaissance des visages dans les images par une méthode similaire renforcée avec de stimuler etc.

SVM est pas toujours mieux. Consultez ce document: nlp.stanford.edu/pubs/sidaw12_simple_sentiment.pdf par Manning.
Comment pensez-vous que la régression logistique comparer avec naive bayes et les SVMs?

OriginalL'auteur Horia Coman
3
- Machine à Vecteurs de Support (SVM) est mieux au contenu intégral.
- Naive Bayes Multinomial (BMN) est préférable à des extraits.
BMN est plus forte pour les extraits que pour les documents plus longs. While (Ng et la Jordanie,
2002) ont montré que le NB est mieux que SVM/logistique
régression (LR) avec quelques cas de formation, BMN est également mieux avec de courts documents. SVM généralement beats NB quand il a plus de 30 à 50 cas de formation, nous montrons que la BMN est encore mieux sur les extraits de même relativement importante avec des ensembles d'apprentissage (9k cas).

Inshort, NBSVM semble être un bon et très solide base de référence pour les sophistiqué de classification des données de texte.

Code Source: https://github.com/prakhar-agarwal/Naive-Bayes-SVM

Référence: http://nlp.stanford.edu/pubs/sidaw12_simple_sentiment.pdf

Citer: Wang, le Sida, et Christopher D. Manning. "Les lignes de base et bigrams:
Simple, de bon sentiment et de la rubrique de classement." La procédure de l'
50e Réunion Annuelle de l'Association for Computational Linguistics:
Des Articles Courts-Volume 2. L'Association for Computational Linguistics,
2012.

Merci pour votre réponse! J'ai la tâche de classer texte médical documents généralement ~ format A4. Quel est le meilleur classifieur à cette fin - BMN ou SVM?
Je dirais aucun des deux. Utilisation NBSVM, pour tirer le meilleur des deux approches. J'ai ajouté un lien vers mon référentiel de code.
Merci! Droit maintenant, je suis à la recherche pour Java mise en œuvre de NBSVM. J'utilise Datumbox cadre de la BMN, il a aussi des SVM, mais je n'arrive pas à trouver le NBSVM l'instant, il y

OriginalL'auteur Prakhar Agarwal

Vous devez vous connecter pour publier un commentaire.