Comment comparer deux données audio?

Je vais enregistrer ma propre voix et de les enregistrer sous forme de fichiers wav dans mon ordinateur. Plus tard, je vais parler et l'ordinateur doit correspondre à ma commande vocale avec préexistants/pré-enregistrés les fichiers wav..

Question: Comment vérifier deux données audio sont égaux ou il y a 80%match entre deux audio?

if(audio1 == audio2)
   DO Task A
else if( audio1 is a bit similar to audio 2)
   DO TASK B
else if( audio1 (80% match) audio 2)
   DO TASK C
end if

Quelle est la meilleure façon de comparer deux données audio?

Dépend de vos données audio. Est-il la voix? Est-il de la musique? Est-il des sons purs? Quelle est la longueur est un exemple typique?
oui la voix..
Pense que ça va être mes propres commandes vocales pour mon ordinateur.. "Faire", "Faire" pour moi..

OriginalL'auteur Somnath | 2012-05-25

3

Malheureusement, vous n'obtiendrez pas n'importe où, très rapidement, juste en essayant de comparer les formes d'onde audio directement. Il y a une énorme quantité de recherches sur la parole et la reconnaissance du locuteur et vous aurez juste être ré-inventer la roue si vous n'avez pas à vous familiariser avec les bases. Je pense que vous avez plusieurs choix s'offrent à vous en fonction de ce que vous voulez vraiment faire
- Commencer à lire à propos Hmm, DTW (comme mentionné par learnvst), et Mel-frequency Cepstral Coefficients de savoir par où commencer.
- D'utiliser une API speech comme le Microsoft qui prend soin de le faible niveau de traitement du signal, que vous pouvez créer dans votre application
- Utiliser quelque chose encore de plus haut niveau comme le La Reconnaissance Vocale De Windows Macros qui vous donnent la possibilité de contrôler les aspects de votre PC via la parole (par exemple, "Jouer Purple Haze')
Cela dépend si vous voulez vous renseigner sur les faibles niveaux de traitement de la parole (ce qui implique une quantité importante de mathématiques), ou si vous voulez juste quelque chose qui fonctionne avec peu de codage.

OriginalL'auteur the_mandrill
2

Vous pouvez trouver quelques idées de Maison De La Reconnaissance Vocale . C'est pour .NET compact framework, mais peut facilement être adapté à la plaine de vanilla .NET. La solution est basée sur la transformée de Fourier Rapide.

OriginalL'auteur David Brabant
1

Par de semblables, voulez-vous dire purement numérique? Dans ce cas, une corrélation croisée type d'analyse peut suffire. Sinon, si vous dire la même dans les conditions d'un homme auditeurs de la perception auditive de l'échantillon sonore alors vous avez besoin de lire sur l'acoustique des empreintes.

EDIT:

Je devine à partir de votre mise à jour que vous voulez faire un simple formulaire de reconnaissance de la parole, correct? Si c'est le cas, alors votre meilleure option pour obtenir l'optimum de match pour un signal dans un délai très limité corpus est un Dynamique du Temps Warping (DTW) base de logiciel de reconnaissance. Modèle De Markov Caché en fonction des systèmes de reconnaissance sont l'état-of-the-art, mais une DTW en fonction du système sera beaucoup plus simple à mettre en œuvre.

J'ai mis à jour ma question. Veuillez vérifier.

OriginalL'auteur learnvst
0

Comme d'autres l'ont suggéré, à moins que vous pouvez donner beaucoup plus d'info, il n'y a pas de solution simple. Si ils sont juste très court sons qui ne changent pas au fil du temps, une possibilité est de faire une FFT et de comparer les résultats de la Fft.

Pour quelque chose de plus complexe, vous pouvez prendre une approche similaire, mais ne TFCT.

En toute probabilité, cependant, il est un domaine spécifique de la réponse à votre question.

Ce sera mes propres commandes vocales pour mon ordinateur.. "Faire", "Faire" pour moi..
J'ai expliqué à l'exigence plus en détail. J'ai mis à jour le post. Veuillez vérifier.

OriginalL'auteur Bjorn Roche

Vous devez vous connecter pour publier un commentaire.

EDIT: