Les progrès réalisés ces derniers mois en matière de compréhension et synthèse de la voix ainsi qu’en matière d’appréhension du langage naturel sont pour le moins étonnants. Les derniers benchmarks passés par les IA de Google et Microsoft démontrent que les interactions vocales homme-machine vont prochainement connaître une véritable révolution…

Le premier objectif de l’IA est d’augmenter l’humain, de l’assister dans ses tâches professionnelles et domestiques quotidiennes. Et pour cela, l’IA – la machine intelligente – doit pouvoir communiquer avec nous de façon fluide et conviviale autrement dit elle doit parler et comprendre la parole aussi bien que l’humain. En l’occurrence, elle arrive désormais à faire mieux que l’humain.

Ces dernières années, l’expression orale des ordinateurs a fait des progrès impressionnants. Ce que l’on appelle le « Text to Speech » (la lecture vocale d’un texte), aussi dénommée « Synthèse vocale » a considérablement progressé avec des voix d’un naturel bluffant à la fois douce et expressive. On est bien loin des prononciations hachées et robotisées des lecteurs encore intégrés dans Windows par exemple. Il suffit de faire un test de lecture sur Azure Speech Services ou sur IBM Watson pour s’en persuader.

D’énormes progrès ont également été réalisés en matière de reconnaissance vocale (Speech-To-Text), autrement dit en matière de compréhension par la machine de la voix humaine. Les utilisateurs d’Alexa, Google Assistant ou Siri le savent déjà. Typiquement, certaines IA sont aujourd’hui capables de reconnaître sans entraînement différentes voix et de retranscrire une discussion entre plusieurs personnes.

Désormais, la recherche se focalise sur la compréhension du langage par la machine. Ce que l’on appelle la NLP (Natural Language Processing). En 2018, des chercheurs ont développé un benchmark dénommé GLUE (General Language Understanding Evaluation) pour évaluer les IA comme Google BERT ou OpenAI GPT dans cet exercice. Les progrès algrithmiques réalisés en matière de réseaux neuronaux et de deep learning permettent désormais d’entraîner des modèles gigantesques à même de saisir toutes les nuances d’une langue. Ces progrès sont tels qu’il a déjà fallu réadapter les benchmarks donnant naissance à un nouvel ensemble de tests dénommés SuperGLUE.

SuperGLUE comporte huit sous-ensembles de tests : des questions booléennes (qui demandent de répondre par Oui ou par Non), des questions d’engagement (où la machine doit émettre une hypothèse en l’extrayant d’une banque de causes), des choix d’alternatives possibles (qui demandent à la machine de raisonner pour comprendre des relations causales et trouver la réponse plausible), des tests de compréhension de lecture (où la machine doit lire un article et répondre correctement à une question en trouvant les bons mots), des tests de reconnaissance de sens (où la machine doit déterminer si un texte contredit ou non un autre), des tests contextuels (où l’IA doit déterminer si un mot est utilisé dans le même sens sur deux passages textuels différents) et enfin un challenge Winograd (où l’IA doit déterminer l’antécédant d’un pronom).

Les êtres humains à qui l’on soumet cet ensemble de tests obtiennent en moyenne un score de 89,8.

Google et Microsoft Research ont chacun de leur côté soumis leurs nouvelles IA à SuperGLUE ces dernières semaines. Avec son réseau neuronal T5 composé de 11 milliards de paramètres, Google a obtenu un score de 90,2. Avec son IA DeBERTa composée de 1,5 milliard de paramètres et 48 niveaux de transformation, Microsoft a fait encore mieux en obtenant un score de 90,3 !

Autrement dit, les deux IA font mieux que les êtres humains. Mais celle de Microsoft fait mieux que celle de Google tout en utilisant dix fois moins de paramètres donc en se montrant bien moins consommatrice de ressources et d’énergie. Car le challenge est aussi là. Concevoir des IA qui puissent s’accommoder de ressources modestes, consommant peu d’énergie et ne nécessitant pas la puissance d’un super calculateur HPC.

D’autres progrès restent encore à faire dans d’autres domaines complémentaires pour obtenir des IA capables de tenir des conversations avec les humains et comme les humains.
Typiquement, parallèlement à DeBARTa, Microsoft Research développe une autre IA conversationnelle, « Turing-NLG » (spécialisée dans la génération linguistique), s’appuyant sur 17 milliards de paramètres. Et Microsoft exploite également en exclusivité le GPT-3 d’OpenAI (175 milliards de paramètres) qui s’exécute sur un HPC assemblé sur Azure.
Au passage, on notera que Microsoft Research, comme à son habitude, publie ses modèles expérimentaux en open-source. C’est notamment le cas de DeBERTa. En revanche, OpenAI et Google se montrent beaucoup plus réticents à une telle publication de leurs nouveaux modèles IA craignant les mauvais usages et utilisations malveillantes de leurs IA.

Lorsque toutes ces IA seront assemblées pour travailler en coopération (selon des principes expérimentés par OpenAI) on commencera à rencontrer des intelligences dont il sera bien difficile de déterminer si elles sont humaines ou artificielles.