Comment comparer deux données audio?
Je vais enregistrer ma propre voix et de les enregistrer sous forme de fichiers wav dans mon ordinateur. Plus tard, je vais parler et l'ordinateur doit correspondre à ma commande vocale avec préexistants/pré-enregistrés les fichiers wav..
Question: Comment vérifier deux données audio sont égaux ou il y a 80%match entre deux audio?
if(audio1 == audio2)
DO Task A
else if( audio1 is a bit similar to audio 2)
DO TASK B
else if( audio1 (80% match) audio 2)
DO TASK C
end if
Quelle est la meilleure façon de comparer deux données audio?
Dépend de vos données audio. Est-il la voix? Est-il de la musique? Est-il des sons purs? Quelle est la longueur est un exemple typique?
oui la voix..
Pense que ça va être mes propres commandes vocales pour mon ordinateur.. "Faire", "Faire" pour moi..
oui la voix..
Pense que ça va être mes propres commandes vocales pour mon ordinateur.. "Faire", "Faire" pour moi..
OriginalL'auteur Somnath | 2012-05-25
Vous devez vous connecter pour publier un commentaire.
Malheureusement, vous n'obtiendrez pas n'importe où, très rapidement, juste en essayant de comparer les formes d'onde audio directement. Il y a une énorme quantité de recherches sur la parole et la reconnaissance du locuteur et vous aurez juste être ré-inventer la roue si vous n'avez pas à vous familiariser avec les bases. Je pense que vous avez plusieurs choix s'offrent à vous en fonction de ce que vous voulez vraiment faire
Cela dépend si vous voulez vous renseigner sur les faibles niveaux de traitement de la parole (ce qui implique une quantité importante de mathématiques), ou si vous voulez juste quelque chose qui fonctionne avec peu de codage.
OriginalL'auteur the_mandrill
Vous pouvez trouver quelques idées de Maison De La Reconnaissance Vocale . C'est pour
.NET
compact framework, mais peut facilement être adapté à la plaine devanilla .NET
. La solution est basée sur la transformée de Fourier Rapide.OriginalL'auteur David Brabant
Par de semblables, voulez-vous dire purement numérique? Dans ce cas, une corrélation croisée type d'analyse peut suffire. Sinon, si vous dire la même dans les conditions d'un homme auditeurs de la perception auditive de l'échantillon sonore alors vous avez besoin de lire sur l'acoustique des empreintes.
EDIT:
Je devine à partir de votre mise à jour que vous voulez faire un simple formulaire de reconnaissance de la parole, correct? Si c'est le cas, alors votre meilleure option pour obtenir l'optimum de match pour un signal dans un délai très limité corpus est un Dynamique du Temps Warping (DTW) base de logiciel de reconnaissance. Modèle De Markov Caché en fonction des systèmes de reconnaissance sont l'état-of-the-art, mais une DTW en fonction du système sera beaucoup plus simple à mettre en œuvre.
OriginalL'auteur learnvst
Comme d'autres l'ont suggéré, à moins que vous pouvez donner beaucoup plus d'info, il n'y a pas de solution simple. Si ils sont juste très court sons qui ne changent pas au fil du temps, une possibilité est de faire une FFT et de comparer les résultats de la Fft.
Pour quelque chose de plus complexe, vous pouvez prendre une approche similaire, mais ne TFCT.
En toute probabilité, cependant, il est un domaine spécifique de la réponse à votre question.
J'ai expliqué à l'exigence plus en détail. J'ai mis à jour le post. Veuillez vérifier.
OriginalL'auteur Bjorn Roche