13 décembre 2018
5 mins. à lire

Carole Lailler : « le vocal va continuer son essor car il offre fluidité et aisance »

Les agités du vocal

L’arrivée de la voix, comme solution d’interface entre l’homme et la machine, fait éclore de nombreuses questions. Jusqu’où devons-nous humaniser les échanges avec la technologie ? Quelles solutions le vocal apporte en plus de l’écran ? Comment s’extraire de nos habitudes numériques pour regarder vers l’avenir ?

Une chose est certaine, la voix, nous y sommes. La preuve en est : malgré sa démocratisation encore jeune, elle intéresse bien au delà des sphères technologiques. Designers, chercheurs en science du langage… De nombreux « métiers » n’ont cette fois-ci pas attendu pour se saisir du sujet, pour apporter leur pierre à un édifice aussi ambitieux que prometteur. Carole Lailler fait partie d’eux. Plutôt que rejeter la nouveauté technologique, elle puise dans son expertise des sciences humaines et du langage pour observer, analyser et préconiser des usages. Façonner une nouvelle ère du numérique, autour du vocal, de l’intelligence artificielle et une utilisation intelligente et respectueuse des données, un challenge qui s’avère passionnant tant que nous y mettrons de l’humain !

Comment passe-t-on d’un DEA de Lettres Modernes, à experte en Intelligence Artificielle et en reconnaissance naturelle du langage ?

Tout simplement en faisant une thèse (non financée) portant sur l’interrogation en français contemporain (c’est une thèse dont l’objectif était de comprendre comment fonctionne la modalité interrogative quand elle est utilisée par des locuteurs de manière spontanée en conversation) au sein d’un laboratoire de recherche en Informatique ; le LIUM (Laboratoire d’Informatique de l’Université du Maine) est notamment spécialisé dans le traitement automatique de la parole à travers notamment un système de reconnaissance de la Parole (dorénavant SRAP) qu’il faut entraîner avec du Machine Learning. Il faut donc utiliser des corpus et en connaître la substantifique moelle langagière.

Ensuite, je suis devenue ingénieur de recherche et je travaillais autour de ces SRAP et des projets universitaires. Il me fallait en amont m’occuper des données (gestion de corpus, travaux de normalisation, travaux autour des 3 bases de connaissances d’un SRAP, notamment le modèle acoustique et ses problèmes de phonétisations) et en aval analyser les sorties de système pour tenter de mieux comprendre le pourquoi des erreurs et les influences des données sur le Machine Learning et les modèles profondément statistiques. Outre ce travail de recherche, la gestion de projet et les travaux de vulgarisation occupaient joliment mes journées et m’ont amenée également à m’interroger sur la mise à l’échelle de ces projets d’IA. D’où ensuite les aventures (réussies) start-up avant de décider de voler de mes propres ailes et de créer Scribe-conseil, ma micro-entreprise.

Outre des travaux d’analyses et/ou de vulgarisation en TAL et plus généralement en IA (constitution de SRAP, aide dans le montage de feuilles de route de projets d’IA, accompagnement de travaux autour des bots, différents benchmarks de prestataires spécialisés), les activités de Scribe-conseil s’orientent vers la constitution et la gestion de corpus, y compris avec annotations et métadonnées, ainsi que vers le traitement de données en tout genre. C’est primordial dans des entreprises de Machine Learning quel que soit l’objectif à atteindre. Les activités de veille entrent aussi dans mon champ d’action. Bien évidemment, la rédaction de contenu et la relecture (contenu web, blog, newsletters et consorts) constituent une autre corde à mon arc, tout comme la formation. Expertiser, vulgariser, former sont devenus mes maîtres-mots.

Jusqu’à présent l’interface numérique était principalement visuelle et basée sur l’écrit. Selon-vous qu’est ce que va apporter le retour à l’oralité dans la relation homme-machine ?

Une plus grande fluidité, une aisance pour l’utilisateur accrue et la possibilité de rester dans son pré-carré avec ses mots, son univers langagier.

Quels sont les freins à l’usage de la voix ? Est-ce d’ordre technologique ou sociologique ?

Les 2 ! Évidemment technologique puisque reconnaissance, synthèse (voire traduction) de la parole nécessite des ajustements et une/des adaptations.
Modèle de langage, disfluences du français oral, conditions dans lesquelles les énoncés sont proférés (dehors sous l’abri de métro, au téléphone avec le chien qui aboie derrière, locuteurs qui se coupent la parole, identification parole/non-parole), il faut adapter tous ces éléments et aguerrir les systèmes. Toutefois, les progrès et avancées sont aujourd’hui merveilleux, que ce soit avec des systèmes tout neuronaux (les fameux End-to-End) ou des systèmes qui embarquent également des briques plus traditionnelles (comme le système KALDI par exemple en traitement de la parole qui certes tend vers des briques neuronales mais pas que). La clé, ce sont les données…

Les locuteurs-utilisateurs qui s’adressent avec la voix à des systèmes finissent par oublier le caractère « non-humain » dudit système et retrouvent leurs automatismes langagiers.

Quand au frein sociologique, il me semble réel mais moins patent ou du moins moins lié à la voix qu’au sentiment d’usurpation et/ou de crainte que l’on peut ressentir avec les utilisations qu’on en fait aujourd’hui. Ma voix, comme celle de tous mes semblables, est mouvante : la maladie, toutes les émotions (des plus discrètes aux plus fortes), la vieillesse la modifient et l’entendre me procure un sentiment bien étrange plus proche du malaise que de la joie. Savoir qu’on peut la reproduire, qu’on peut plus ou moins bien m’identifier (la biométrie vocale est un sujet passionnant mais à manier avec beaucoup de précautions et qui nécessite une réelle expertise) peut être source de crainte.

En revanche, commander mon univers avec ma voix est naturel pour chacun d’entre nous. Contrairement à ce qu’on entend, il n’est pas nécessaire de modifier son phrasé quand les techno employées sont efficaces. De toute façon, « chassez le naturel, il revient au galop » : les locuteurs-utilisateurs qui s’adressent avec la voix à des systèmes finissent par oublier le caractère « non-humain » dudit système et retrouvent leurs automatismes langagiers !

Doit-on pousser les méthodes de Deep Learning pour rapprocher au plus près les interfaces vocales de l’humain ? Comment les sciences du langage permettent d’éduquer les robots à comprendre nos émotions ?

Il s’agit là de deux questions bien distinctes. Concernant la première, les travaux de Deep Learning sont souvent bluffants, notamment en traduction et permettent par exemple de traiter des langues rares ou peu écrites. C’est une formidable occasion de conserver ce patrimoine linguistique. Toutefois, les verrous scientifiques restent nombreux et il faut cesser les fantasmes. Comme je le disais, les données sont la clé des apprentissages de Machine Learning, réseaux de neurones profonds ou non.

Dire que l’on comprend le langage et donc qu’on le transmet à des systèmes est un peu usurpé… On leur apprend un usage, le plus probable à partir de données.

De même, en reprenant votre seconde question, on est encore loin de la « compréhension des émotions ». Comme je le soulignais récemment avec Paul Deléglise dans un article paru dans The Conversation (L’IA et le langage : comment capturer ce qui fait sens ?), on peut capturer l’usage… Dire que l’on comprend le langage et donc qu’on le transmet à des systèmes est un peu usurpé… On leur apprend un usage, le plus probable à partir de données. Il en va ainsi pour les bots qui fonctionnent sur le principe du slot filling, fondé sur le dyptique intention/concept. On apprend aux bots à reconnaître dans les énoncés proférés les intentons qui s’y cachent et les concepts qu’elles soulèvent. Associer un traitement des émotions est ardu : plus le périmètre du cas d’usage est circonscrit, plus on peut descendre dans la granularité de l’apprentissage mais cela reste délicat. Il faut pouvoir comprendre la multiplicité des émotions humaines et leurs entremêlements. On en est encore loin. Les travaux et entreprises de vulgarisation des chercheurs le montrent bien.

La gestion de la donnée brute est omniprésente dans les discussions aujourd’hui, pourtant la rendre accessible est une autre paire de manches. Les interfaces vocales peuvent-elles contribuer à la vulgarisation du Big Data ?

Je l’espère. La RGPD également. En protégeant les données à caractère personnel, on attire l’oeil de tous les acteurs (les usagers compris) sur ces problématiques !

Comment voyez-vous évoluer le vocal dans les années à venir ? Sur quel point faudra-t-il concentrer son développement ?

Il va continuer son essor car il offre fluidité et aisance, et pas seulement grâce à tous les assistants posés sur la table du salon ! En revanche, seuls les systèmes travaillant à partir de véritables données, qui ne chercheront pas à « singer » l’humain auront selon moi une véritable crédibilité et dépasseront le phénomène de mode et l’effet « jouet ».

Charles Loyer

Carole Lailler : « le vocal va continuer son essor car il offre fluidité et aisance »

Logo : Philips joue la carte son

Le vocal arrive, attention au tournant !

Assistants vocaux : Papy fait de la résistance