Moteur Text-to-Speech de haute qualité, émotionnel, fluide et variable?

Après avoir regarder quelques-unes de services/d'outils, j'en suis venu à une conclusion. La plupart Text-to-Speech outils ont trop irritable, de la robotique en d'autres termes, la mauvaise qualité de c voix.

Et ouais, en plus, on dirait qu'ils viennent avec un "codée en dur" la voix des modèles, donc le raccourcissement de la variété/personnalisation. Certains outils vous permettent de définir la vitesse de lecture et de hauteur", mais cela ne suffit pas.

Ma supposition sur le problème derrière l'aspect émotionnel - il est difficile de juger les émotions du texte brut, encore plus si c'est juste une phrase ou deux. De Plus, le bon vieux PC est une machine - machines n'ont pas d'émotions, mais c'est une autre histoire.

La chose qui me dérange le plus, c'est la qualité. Par exemple, il y a de ces outils, que l'utilisation de couper l'apex de mots, résultant dans ces techy voix. Se sent comme il y a un problème avec la construction de la phrase ou quelque chose. Et oui, bien que les gens qui travaillent sur ces outils, je me demande, ce qui les empêche de travailler un peu plus pour améliorer ces... de couper l'apex, ce n'est pas une petite affaire! De Plus, garder à l'esprit qu'une bonne, qualité Text-to-Speech logiciel vaut la peine, eh bien... BEAUCOUP! Par conséquent, résultant en une jolie des produits rentables.

Oh, en vertu de l'aisance, je me cache questions, les exclamations et ainsi de suite. (Possible que ceux qui ne s'appliquent pas à la fluidité, mais je ne suis pas de langue maternelle anglaise, veuillez m'excuser si c'est le cas.)

Une liste des outils que j'ai regardé dans:

Assez impressionnant, mais encore de l'espace pour les améliorations (++)

- Loquendo : manque de variété de voix, a obtenu certains mineurs apex/la maîtrise des problèmes (dépend de la phrase), trop de la toux et des excuses exemples!
- Nuance Vocalizer : manque de variété, certains des voix en sont dignes.


Pourrait ainsi coopérer pour obtenir plus de ressources pour ensuite travailler sur les différentes, mais presque les mêmes produits (--)

- eSpeak : l'un des meilleurs robots, d'où le programme de logo(?!)
- Natural Reader (muet de lecture automatique!!) : eh bien, il a obtenu une certaine aisance, mais encore que techy sensation de coups de pied.
- iSpeech : bon rire lors de la configuration de la voix en Japonais avec un texte en anglais. Je parie que les gars Japonais ne sont pas très heureux à ce sujet.
- Cepstral + Amélioré Voix ... en plus de le renforcement de la voix donner le bon ol' de merde résultat, donc, à l'exception de ~5 voix de plus, rien n'a été améliorée.
- AT&T : décent, de la fluidité, mais a eu des problèmes avec la phrase de fin et trop de robo!
- LumenVox TTS : il semble venir d'un milieu avec beaucoup de discours outils, mais encore les résultats en voix robotiques.
- Et un peu plus...


Dans les cas que j'ai raté quelque chose vaut la peine un coup d'oeil, s'il vous plaît partager. Peut être libre, commercial, super cher... aussi longtemps que cela fonctionne, je suis intéressé!

Et la question(-s)..

  1. Que pensez-vous sont les principaux problèmes de qualité, la maîtrise et la variété de ces voix? Depuis aspect émotionnel est difficile de juger, je n'ai pas l'esprit si vous l'ignorer, mais si vous avez une idée ou deux, ça ne me dérangerait pas si vous avez partagé vos pensées
  2. Comment le texte est transformé en discours? Comme, quels algorithmes sont utilisés à l'origine de ces outils? Peut-être une nouvelle théorie ou deux peuvent venir dans maniable.
  3. Sont ceux réellement différents moteurs/drivers ou tout simplement différents modèles de voix pour le même pilote/moteur?
  4. Est-ce juste moi, ou de la qualité entre les première Text2Speech outils n'a pas beaucoup changé (ou pas du tout) au fil des ans? Et dois avouer, que cette oldschool Apple outil fournit de meilleurs résultats que celle de l'année 2000+ outils, au moins lorsque l'on compare vidéo avec ce que j'ai regardé dans.)

source d'informationauteur jolt