Text-To-Speech

Qu’est-ce que le Text-To-Speech ?

Le Text-To-Speech – ou synthèse vocale en Français – est une technologie faisant appel au Deep Learning. Elle permet d’émettre une parole artificielle à partir d’un texte rédigé sur un ordinateur ou toute autre Device digitale (smartphone, enceintes connectées, tablette, etc). En ce sens, elle est largement utilisée dans le cadre de la technologie vocale.

Hormis une utilisation grand public, le Text-To-Speech ou à l’inverse le Speech-To-Text peuvent être d’une grande aide aux personnes atteintes de handicaps auditifs, visuels ou vocaux. Il a d’ailleurs été créé initialement dans cette optique. La voix utilisée pour les besoins du Text-To-Speech est générée par ordinateur et peut être modulée selon les cas.

Pour l’heure, les contraintes technologiques ne permettent pas encore de restituer parfaitement une voix humaine mais on s’en rapproche, notamment grâce au recours au Deep Learning. 

Comment fonctionne le Text-To-Speech ?

A la croisée entre traitement linguistique et traitement du signal, le TTS va transformer un texte rédigé en version phonétique. Une fois cette version phonétique transformée en séquence de phonèmes, elle sera numérisée pour être restituée par haut parleur. Cette restitution passera par l’application à la séquence de phonèmes, de règles de réécriture contextuelles.

Par souci de réalisme, le Text-To-Speech emprunte aux règles de la prosodie. Or, la prosodie consiste en l’étude des phénomènes de l’accentuation et de l’intonation. Pour l’heure, la technologie du Text-To-Speech s’attache surtout à restituer l’intonation humaine, le rythme et l’intensité étant plus ou moins bien restituées. 

Plus précisément, l’intensité s’avère moins importante que l’intonation ou le rythme quand il s’agit d’aboutir à un rendu naturel. 

La difficulté du Text-To-Speech réside dans le fait de restituer des homonymes dont les prononciations sont identiques. L’intelligence artificielle doit alors avoir recours à la probabilité afin de déterminer la prononciation adaptée. 

Avantages du Text-To-Speech

  • Il permet aux personnes atteintes d’un handicap auditif ou visuel d’accéder à des applications jusque-là inaccessibles
  • Un contenu textuel (article, mail, PDF, etc) n’est plus figé mais peut-être écouté
  • La conjugaison du support visuel et auditif facilite l’apprentissage, notamment dans le cadre du e-learning
Sigismond de Malleray