SVM et Réseau de Neurones

Quelle est la différence entre les SVM et Réseau de Neurones?
Est-il vrai que les svm linéaire est même NN, et pour les non-linéaires séparables problèmes, NN utilise l'ajout de couches cachées et SVM utilise changement de dimensions de l'espace?

qu'est-SVM stand for?
Machine à Vecteurs de Support (en.wikipedia.org/wiki/Support_vector_machine)

InformationsquelleAutor CoyBit | 2012-01-22

43

Il y a deux aspects à cette question. La première partie est "qu'est-ce que la forme de la fonction appris par ces méthodes?" Pour les NN et SVM c'est généralement le même. Par exemple, une seule couche cachée du réseau de neurones utilise exactement la même forme de modèle comme un SVM. Qui est:

Donné un vecteur d'entrée x, la sortie est:
de sortie(x) = sum_over_all_i weight_i * nonlinear_function_i(x)

Généralement les fonctions non linéaires aura également certains paramètres. Si ces méthodes ont besoin d'apprendre beaucoup de fonctions non linéaires doivent être utilisés, de même que leurs paramètres sont, et ce que la valeur de toutes les weight_i poids devrait être.

Par conséquent, la différence entre un SVM et NN est dans la façon dont ils décident de ce que ces paramètres doivent être définis. Généralement, quand quelqu'un dit qu'ils sont à l'aide d'un réseau neuronal ils dire qu'ils essaient de trouver les paramètres qui minimisent l'erreur quadratique moyenne de prédiction à l'égard d'un ensemble d'exemples d'apprentissage. Ils seront également presque toujours à l'aide de la la descente de gradient stochastique algorithme d'optimisation pour ce faire. SVM, d'autre part essayer de minimiser à la fois l'erreur d'entraînement et une certaine mesure de "l'hypothèse de la complexité". Ils vont donc trouver un ensemble de paramètres qui prennent en compte les données mais aussi, c'est "simple" dans un certain sens. Vous pouvez penser à elle comme le rasoir d'Occam pour l'apprentissage de la machine. La plus courante algorithme d'optimisation utilisé avec des SVMs est sequential minimal optimization.

Une autre grande différence entre les deux méthodes est que la descente de gradient stochastique n'est pas la garantie de trouver l'ensemble optimal des paramètres lors de la utilisées de la façon dont NN implémentations de l'employer. Cependant, tout décent SVM mise en œuvre va trouver l'ensemble optimal des paramètres. Les gens aiment à dire que les réseaux de neurones coincées dans des minima locaux, tandis que les SVMs ne le font pas.

InformationsquelleAutor Davis King
23

NNs sont heuristique, tandis que les SVMs sont théoriquement fondée. Un SVM est garanti pour converger vers la meilleure solution dans la PAC (probablement approximativement correct) sens. Par exemple, pour deux linéairement séparable classes SVM pour attirer les séparant hyperplane directement à mi-chemin entre les points les plus proches des deux classes (celles-ci deviennent de vecteurs de soutien). Un réseau de neurones serait de dessiner une ligne qui sépare les échantillons, ce qui est correct pour l'ensemble de la formation, mais ne pas avoir la meilleure généralisation des propriétés.

Donc pas, même pour linéairement séparable problèmes NNs et les SVMs sont pas les mêmes.

Dans le cas linéaire non-séparables classes, les SVMs et NNs non-linéaire de projection dans des dimensions de l'espace. Dans le cas de NNs ce résultat est obtenu par l'introduction de nouvelles neurones dans la couche cachée(s). Pour les SVMs, un fonction noyau est utilisé pour le même effet. Soigné de la propriété de la fonction du noyau, c'est que la complexité de calcul n'a pas d'augmenter avec le nombre de dimensions, tandis que pour les NNs il est évident qu'elle augmente avec le nombre de neurones.
- La complexité augmente pas seulement dans la phase d'apprentissage, ou l'affirmation est valable pour la prédiction de la scène de l'un ou l'autre?
- La déclaration en est de même pour la prédiction de la scène. Vous êtes essentiellement faire le produit scalaire entre la séparation hyperplane normale du vecteur et le vecteur vous voulez classer dans le haut dimensions de l'espace. Mais, au lieu de le faire explicitement, vous comptez sur la fonction du noyau, comme dans la phase d'apprentissage.
- Et que dire de NNs? Est-il augmenter avec le nombre de neurones (dans la prédiction de la scène, bien sûr)?
- Oui, bien sûr. Vous avez à se propager le vecteur vous voulez classer par tous les neurones et sur toutes les connexions entre eux.
- Basée sur l'explication que vous avez donné, il me semble SVM est généralement mieux pour les problèmes linéaires. Parce que vous dites que SVM va converger vers une PAC (grâce à la façon dont il fonctionne), tout en NN ne peut pas immédiatement donner le meilleur de séparation hyperplane et peut à cet effet plus d'itérations en utilisant les. Donc, SVM peuvent avoir besoin de moins de temps et d'autotuning ( si je suis correct cela signifie SVM du temps de formation pour les problèmes linéaires est plus faible). Droit? n'hésitez pas à corriger moi si je m mal.
- trilolil: je ne suis pas sûr si je comprends votre argument. Généralement, les SVMs ne se soucient pas (beaucoup) si votre problème est linéairement séparable ou non. Avec un kernel approprié, vous pouvez toujours transformer en une linéairement séparables l'un. Un doux marge SVM fonctionne même pour les non-séparables de ceux.
InformationsquelleAutor Igor F.
11

De l'exécution d'un simple out-of-the-box comparaison entre les machines à vecteurs de support et réseaux de neurones (SANS paramètre de sélection) sur plusieurs populaires de régression et de classification des ensembles de données démontre les différences pratiques: SVM devient très lent prédicteur si de nombreux vecteurs de soutien sont en cours de création, tout réseau de neurones de prédiction de la vitesse est beaucoup plus élevé et le modèle de taille beaucoup plus petite. D'autre part, le temps de formation est beaucoup plus courte pour les SVMs. Concernant la précision/perte - en dépit de ladite théorique inconvénients des réseaux de neurones - les deux méthodes sont à égalité - notamment pour les problèmes de régression, les réseaux de neurones souvent surpasser les machines à vecteurs de support. En fonction de votre problème spécifique, cela peut vous aider à choisir le bon modèle.
- Pourriez-vous élaborer un peu plus sur l'autre partie de la question concernant la non-linéaires seperable problèmes?
- En général, les deux - SVM et NN - peut résoudre des problèmes non-linéaires. Le "degré de non-linéarité" est contrôlé via #caché-nœuds (ou couches) dans NN et n ° de soutien-vecteurs dans SVM. La SVM s'ajuste automatiquement au cours de la formation tout pour NN le développeur doit définir le #caché-unités/topologie (bien qu'il existe plusieurs plus ou moins utiles heuristiques pour déterminer automatiquement la topologie optimale, la meilleure façon est d'effectuer la sélection des paramètres par cross-validation)
- Le temps de formation n'est pas nécessairement plus lent pour un NN: pensez à utiliser un très grand jeu de données avec n > 10^6 points de données, à l'aide d'un cluster pour former une sorte de système sur une période de quelques semaines. Un NN peuvent être formés avec le lot de descente de gradient, qui est O(n). SVM formation des algorithmes en O(n^2) ce qui est inacceptable pour un grand jeu de données.
- Wayback machine: web.archive.org/web/20120304030602/http://indiji.com/...
InformationsquelleAutor Fluchtpunkt
1

SVM et NN a même bâtiment, bloc comme perceptron mais SVM utilise également un noyau astuce pour augmenter la dimension de dire 2 à la 3d par la traduction tels que Y = (x1,2,..^2, y1,2...^2) qui peuvent séparer linéairement inséparable des plaines à l'aide de la ligne droite. voulez une démo comme ça et de me demander 🙂

InformationsquelleAutor Pradi KL
0

Pratiquement, la plupart de vos hypothèses sont souvent tout à fait vrai. Je vais préciser: linéaires séparables classes SVM Linéaire fonctionne très bien et et il est plus rapide de train. Pour les non linéaire des classes est le noyau de la tour, qui est de l'envoi de vos données à une dimension supérieure de l'espace. Cette astuce a cependant deux inconvénients par rapport à NN. Premier - votre avez à la recherche pour le droit des paramètres , parce que le classificateur ne fonctionnera que si dans la dimension supérieure, les deux jeux seront linéairement séparable. Maintenant - paramètres de test est souvent réalisé par la grille de recherche qui est CPU-temps. L'autre problème est que cette technique n'est pas aussi général que NN (par exemple, pour la PNL, si les résultats ont souvent mauvaise classificateur).

InformationsquelleAutor user1854182
-1

En fait, ils sont exactement équivalentes les unes aux autres. La seule différence réside dans leur mise en œuvre standard avec les sélections de la fonction d'activation et de régularisation, etc, qui, évidemment, diffèrent les uns des autres. Aussi, j'ai encore pas vu une formulation duale pour les réseaux de neurones, mais les SVMs sont en mouvement vers le primal de toute façon.
- "ils sont exactement équivalents les uns aux autres" Pourriez-vous poster une référence pour qui?
InformationsquelleAutor Leonard Johard

Vous devez vous connecter pour publier un commentaire.