Python Reconnaissance Du Locuteur

J'ai un fichier audio(enregistrement d'une conversation téléphonique de 2 personnes). J'ai besoin de séparer les voix de 2 haut-parleurs automatiquement. Je suis nouveau à la reconnaissance de la parole et j'ai regardé vague module de python, mais faild pour trouver un fructueux d'informations.

S'il vous plaît aider de savoir comment commencer. Aussi s'il vous plaît me suggérer gratuit les bibliothèques python qui va m'aider dans la résolution de th problème.

OriginalL'auteur PJC | 2011-09-05

13

La tâche de la séparation, les haut-parleurs n'est pas une tâche de reconnaissance de la parole, c'est un haut-parleur tâche de reconnaissance. Dans le discours comminity cette tâche est également connu en tant que speaker diarization. Il y a plusieurs paquets pour speaker diarization et de la reconnaissance du locuteur disponibles pour Python:

SIDEKIT de LIUM

Bob trousse de Idiap

Speaker diarization de ISCI

Dans le cas où vous n'êtes pas limité à Python, il en existe d'autres:

LIUM speaker diarization

Haut-parleur de la reconnaissance de l'installation dans Kaldi. Comprend l'état de l'art de DNN-e-vecteurs appelé x-vecteurs.

Le lien pour Bob toolkit est réellement mort, à la suite de celui-ci : idiap.ch/logiciel/bob/docs/bob/bob.bio.lance/stable/...
Mise à jour, merci!

OriginalL'auteur Nikolay Shmyrev
4

Commencer avec numpy, et je regarde spectrpgraphs (en gros un rouleau à FFT) comme une bonne méthode pour distinguer les différentes voix dans un enregistrement audio.

Voici le spectrogramme de la fonction dans Matplotlib:

http://matplotlib.sourceforge.net/api/pyplot_api.html#matplotlib.pyplot.specgram

Je recommanderais Python(x,y) si vous êtes juste de commencer sur une plate-forme Windows.

OriginalL'auteur Carl F.
2

Découvrez sciKits Talkbox: http://projects.scipy.org/scikits/wiki/Talkbox

Unfortunutly les tutoriels sont très restreintes: http://www.ar.media.kyoto-u.ac.jp/members/david/softwares/talkbox/talkbox_doc/intro.html

OriginalL'auteur billwild
0

Ont un look à la CMU Sphinx bibliothèque Python. Il est développé en Java donc je pense que le Python libs sont juste des wrappers pour que. Le projet a beaucoup de recherches en cours derrière elle.

Wiki officiel: http://cmusphinx.sourceforge.net/wiki/

Quick-tutoriel de démarrage pour linux ici: http://probing.wikidot.com/speech-recognition-using-sphinx3-and-python

OriginalL'auteur bcoughlan

Vous devez vous connecter pour publier un commentaire.