Moteur Text-to-Speech de haute qualité, émotionnel, fluide et variable?
Après avoir regarder quelques-unes de services/d'outils, j'en suis venu à une conclusion. La plupart Text-to-Speech outils ont trop irritable, de la robotique en d'autres termes, la mauvaise qualité de c voix.
Et ouais, en plus, on dirait qu'ils viennent avec un "codée en dur" la voix des modèles, donc le raccourcissement de la variété/personnalisation. Certains outils vous permettent de définir la vitesse de lecture et de hauteur", mais cela ne suffit pas.
Ma supposition sur le problème derrière l'aspect émotionnel - il est difficile de juger les émotions du texte brut, encore plus si c'est juste une phrase ou deux. De Plus, le bon vieux PC est une machine - machines n'ont pas d'émotions, mais c'est une autre histoire.
La chose qui me dérange le plus, c'est la qualité. Par exemple, il y a de ces outils, que l'utilisation de couper l'apex de mots, résultant dans ces techy voix. Se sent comme il y a un problème avec la construction de la phrase ou quelque chose. Et oui, bien que les gens qui travaillent sur ces outils, je me demande, ce qui les empêche de travailler un peu plus pour améliorer ces... de couper l'apex, ce n'est pas une petite affaire! De Plus, garder à l'esprit qu'une bonne, qualité Text-to-Speech logiciel vaut la peine, eh bien... BEAUCOUP! Par conséquent, résultant en une jolie des produits rentables.
Oh, en vertu de l'aisance, je me cache questions, les exclamations et ainsi de suite. (Possible que ceux qui ne s'appliquent pas à la fluidité, mais je ne suis pas de langue maternelle anglaise, veuillez m'excuser si c'est le cas.)
Une liste des outils que j'ai regardé dans:
Assez impressionnant, mais encore de l'espace pour les améliorations (++)
- Loquendo : manque de variété de voix, a obtenu certains mineurs apex/la maîtrise des problèmes (dépend de la phrase), trop de la toux et des excuses exemples!
- Nuance Vocalizer : manque de variété, certains des voix en sont dignes.
Pourrait ainsi coopérer pour obtenir plus de ressources pour ensuite travailler sur les différentes, mais presque les mêmes produits (--)
- eSpeak : l'un des meilleurs robots, d'où le programme de logo(?!)
- Natural Reader (muet de lecture automatique!!) : eh bien, il a obtenu une certaine aisance, mais encore que techy sensation de coups de pied.
- iSpeech : bon rire lors de la configuration de la voix en Japonais avec un texte en anglais. Je parie que les gars Japonais ne sont pas très heureux à ce sujet.
- Cepstral + Amélioré Voix ... en plus de le renforcement de la voix donner le bon ol' de merde résultat, donc, à l'exception de ~5 voix de plus, rien n'a été améliorée.
- AT&T : décent, de la fluidité, mais a eu des problèmes avec la phrase de fin et trop de robo!
- LumenVox TTS : il semble venir d'un milieu avec beaucoup de discours outils, mais encore les résultats en voix robotiques.
- Et un peu plus...
Dans les cas que j'ai raté quelque chose vaut la peine un coup d'oeil, s'il vous plaît partager. Peut être libre, commercial, super cher... aussi longtemps que cela fonctionne, je suis intéressé!
Et la question(-s)..
- Que pensez-vous sont les principaux problèmes de qualité, la maîtrise et la variété de ces voix? Depuis aspect émotionnel est difficile de juger, je n'ai pas l'esprit si vous l'ignorer, mais si vous avez une idée ou deux, ça ne me dérangerait pas si vous avez partagé vos pensées
- Comment le texte est transformé en discours? Comme, quels algorithmes sont utilisés à l'origine de ces outils? Peut-être une nouvelle théorie ou deux peuvent venir dans maniable.
- Sont ceux réellement différents moteurs/drivers ou tout simplement différents modèles de voix pour le même pilote/moteur?
- Est-ce juste moi, ou de la qualité entre les première Text2Speech outils n'a pas beaucoup changé (ou pas du tout) au fil des ans? Et dois avouer, que cette oldschool Apple outil fournit de meilleurs résultats que celle de l'année 2000+ outils, au moins lorsque l'on compare vidéo avec ce que j'ai regardé dans.)
source d'informationauteur jolt
Vous devez vous connecter pour publier un commentaire.
Je ne sais pas si vous êtes à la recherche d'une solution ouverte, mais si vous avez un Mac, vous devriez vérifier OS X vocale avancée de balisage et le "Répétez Après Moi" phrase outil de construction. C'est vraiment puissant. La voix d'Alex intégré à Mac OS X 10.5 et version ultérieure est plus avancé que les autres voix.
Sur un Mac, mettez en surbrillance le texte suivant, cliquez sur, et aller à la Parole > Commencer à Parler:
http://www.mattmontag.com/personal/mac-os-x-speech-synthesis-markup
Le TTS utilisé par Google Translate est assez bon pour les phrases courtes, bien que susceptible de produire de manière artificielle le contour d'intonation pour rien de compliqué. Encore, au niveau des mots, c'est impressionnant.
Il y a un petit exemple de code ici
Et il n'y a Ivona - Ils pourraient faire un peu plus d'articulation des erreurs que, par exemple, Google Translate, mais ils font un peu mieux sur le rythme et l'intonation. Découvrez leur " Raveena voix, c'est un de leur meilleur à ce jour.
Je sais que c'est une vieille question, mais je viens de voir la démo de "Watson" d'IBM, c'est assez impressionnant!! Ils ont en charge plusieurs langues, vous pouvez contrôler le ton, les pauses, l'intonation et de quelques autres variables.
Vous devriez aller jeter un oeil si vous êtes toujours à la recherche de ce, ou si une autre personne est à la recherche d'un bon TTS.
Avertissement: je ne travaille pas pour IBM ou quoi que ce soit lié à ce produit, je viens de trouver ça impressionnant!