Comment effectuer une recherche de contenu dans les fichiers audio/flux?

Je me suis toujours demandé combien de différentes techniques de recherche existe, pour la recherche de texte, pour rechercher des images et même des vidéos.

Cependant, je n'ai jamais trouvé une solution qui recherche de contenu dans les fichiers audio.

Par exemple: supposons que j'ai environ 200 podcasts téléchargés sur mon PC sous forme de fichiers mp3, wav et ogg fichiers. Ils sont tous nommés génériquement dire podcast1.mp3, podcast2.mp3, etc. Donc, il n'est pas possible de connaître le contenu, sans vraiment les entendre. Disons que, je suis intéressé à trouver, ce qui les podcasts de parler de " jeu de programmation. Je veux les résultats seront indiqués:

Podcast1.mp3 - 3 résultat(s) au moment de l'indice(es) - 0:16:21, 0:43:45, 1:12:31
Podcast21.ogg - 1 résultat(s) au moment de l'indice(es) - 0:12:01

Donc mes questions:

Comment pourrait-on aborder ce problème?
Sont il y a des algorithmes développés pour faire quelque chose comme cela?

Une idée a surgi dans mon esprit, c'est que, on peut utiliser un discours-à-texte " logiciel pour obtenir les relevés de notes ainsi que le temps d'index pour chacun des fichiers audio, ensuite d'analyser le relevé de notes pour obtenir la sortie.

Je considérais cela comme un de mes hobby projets.
Merci!

InformationsquelleAutor Pascal | 2008-08-22

9

Si vous souhaitez rechercher du texte (c'est à dire ce qui est dit) à l'intérieur d'un flux audio que vous auriez à le traiter avec une sorte de reconnaissance de la parole de l'algorithme et de stocker le texte en tant que méta-données associées aux fichiers. Pour la vidéo, vous pouvez également faire de la reconnaissance de texte pour le texte à l'intérieur de la vidéo. Evernote déjà fait pour le texte à l'intérieur des fichiers d'image, mais n'a pas de support pour l'audio pour autant que je sais.

Quelque chose de semblable est possible lors de l'utilisation de l'audio à la recherche pour l'audio. Je ne connais pas les détails de ces algorithmes, mais je devine qu'ils impliquent un type d'analyse de fréquence. Shazam est l'utilisation de ce genre de technologie pour identifier les chansons basées sur des clips audio.

Voici quelques articles de Wikipédia qui peuvent être utiles:
InformationsquelleAutor Anders Sandvig

Vous devez vous connecter pour publier un commentaire.