Python Reconnaissance Du Locuteur
J'ai un fichier audio(enregistrement d'une conversation téléphonique de 2 personnes). J'ai besoin de séparer les voix de 2 haut-parleurs automatiquement. Je suis nouveau à la reconnaissance de la parole et j'ai regardé vague module de python, mais faild pour trouver un fructueux d'informations.
S'il vous plaît aider de savoir comment commencer. Aussi s'il vous plaît me suggérer gratuit les bibliothèques python qui va m'aider dans la résolution de th problème.
OriginalL'auteur PJC | 2011-09-05
Vous devez vous connecter pour publier un commentaire.
La tâche de la séparation, les haut-parleurs n'est pas une tâche de reconnaissance de la parole, c'est un haut-parleur tâche de reconnaissance. Dans le discours comminity cette tâche est également connu en tant que speaker diarization. Il y a plusieurs paquets pour speaker diarization et de la reconnaissance du locuteur disponibles pour Python:
SIDEKIT de LIUM
Bob trousse de Idiap
Speaker diarization de ISCI
Dans le cas où vous n'êtes pas limité à Python, il en existe d'autres:
LIUM speaker diarization
Haut-parleur de la reconnaissance de l'installation dans Kaldi. Comprend l'état de l'art de DNN-e-vecteurs appelé x-vecteurs.
Mise à jour, merci!
OriginalL'auteur Nikolay Shmyrev
Commencer avec numpy, et je regarde spectrpgraphs (en gros un rouleau à FFT) comme une bonne méthode pour distinguer les différentes voix dans un enregistrement audio.
Voici le spectrogramme de la fonction dans Matplotlib:
http://matplotlib.sourceforge.net/api/pyplot_api.html#matplotlib.pyplot.specgram
Je recommanderais Python(x,y) si vous êtes juste de commencer sur une plate-forme Windows.
OriginalL'auteur Carl F.
Découvrez sciKits Talkbox: http://projects.scipy.org/scikits/wiki/Talkbox
Unfortunutly les tutoriels sont très restreintes: http://www.ar.media.kyoto-u.ac.jp/members/david/softwares/talkbox/talkbox_doc/intro.html
OriginalL'auteur billwild
Ont un look à la CMU Sphinx bibliothèque Python. Il est développé en Java donc je pense que le Python libs sont juste des wrappers pour que. Le projet a beaucoup de recherches en cours derrière elle.
Wiki officiel: http://cmusphinx.sourceforge.net/wiki/
Quick-tutoriel de démarrage pour linux ici: http://probing.wikidot.com/speech-recognition-using-sphinx3-and-python
OriginalL'auteur bcoughlan