Naive Bayes vs SVM pour la classification des données de texte

Je suis en train de travailler sur un problème qui consiste à classifier une grande base de données de textes. Les textes sont très courts (pensez à 3-8 mots) et il y a 10-12 catégories dans lesquelles je tiens à les trier. Pour les fonctionnalités, je suis tout simplement en utilisant le tf–idf de la fréquence de chaque mot. Ainsi, le nombre de fonctionnalités est à peu près égal au nombre de mots qui apparaissent en général dans les textes (je suis la suppression des mots vides et quelques autres).

En essayant de trouver un modèle à utiliser, j'ai eu les deux idées suivantes:

  • Naive Bayes (probablement le sklearn Naive Bayes multinomial mise en œuvre)
  • Machine à vecteurs de Support (avec la descente de gradient stochastique est utilisée dans la formation, aussi un sklearn mise en œuvre)

J'ai construit deux modèles, et je suis actuellement en comparant les résultats.

Quels sont théoriques et des inconvénients de chaque modèle? Pourquoi l'un de ces être le mieux pour ce type de problème? Je suis nouveau à l'apprentissage machine, donc ce que j'aimerais comprendre, c'est pourquoi on pourrait faire mieux.

Merci beaucoup!

Votre question est assez large et aussi hors-sujet ! Vous devez répondre à l'autre de manière site web ! (Je n'ai pas de bas voté)
Vous êtes mieux d'essayer les deux et de comparer. Personne ne peut répondre à votre jeu de données.

OriginalL'auteur Ryan | 2016-02-12