France Televisions utilise les IA de Media Cloud AI et AWS pour sous-titrer en temps réel les émissions de sa chaine franceinfo

Cloud

France Télévisions franceinfo en temps réel avec les services cloud d’AWS

Par Alain Clapaud, publié le 02 novembre 2022

Le groupe public de télévision exploite toujours plus d’IA pour enrichir ses contenus, et demain mieux positionner les coupures publicitaires. Illustration du travail de l’équipe IA Factory de France Televisions, le sous-titrage de la chaîne d’information en continu franceinfo via le cloud.

Le groupe France Télévisions s’est doté d’un département data / IA en 2020. Il s’agissait au départ d’une poignée de data scientists et de data engineers qui ont commencé à expérimenter les apports de l’IA dans la diffusion télévisuelle, avec un premier POC mené lors de la campagne des Municipales 2020. Ce premier démonstrateur fut suffisamment convaincant pour que l’équipe puisse proposer ses services aux différentes directions du groupe. « Parmi les premiers usages étudiés figure la détection automatique des marqueurs de génériques, pour permettre leur saut sur la VOD », explique Matthieu Parmentier, responsable de l’AI Factory de France Télévisions.

Autre sujet porteur, l’aide au choix des scènes, afin à la fois de placer la publicité dans le programme aux endroits les moins dérangeants pour le téléspectateur, mais aussi de sélectionner les contenus les plus en phase avec la thématique de cette scène afin de rendre le spot plus efficace et, in fine, le vendre plus cher à l’annonceur.

Le sous-titrage ne tolère pas les approximations

Autre cas d’usage de l’IA jugé pertinent par le groupe audiovisuel, le sous-titrage automatique des programmes. Une première expérimentation est actuellement menée sur une chaîne du groupe public, franceinfo. La chaîne d’information en continu diffuse en 24/7 et son sous-titrage coûte extrêmement cher, de l’ordre de plusieurs milliers d’euros à la minute, car celui-ci est encore réalisé par des humains.

Car si les équipes de sous-titreurs exploitent déjà un algorithme de reconnaissance vocale, le sous-titrage ne tolère pas l’approximation et les humains doivent corriger et reformuler ce que l’algorithme génère, notamment les fautes qui entachent les noms propres et les noms de lieux géographiques : « Il n’est pas acceptable que l’on trouve dans une allocution présidentielle des fautes ou des contresens », souligne Nicolas Pierre, tech lead du département IA chez France Télévisions. « Cela nécessite le travail minutieux de quatre personnes et demande beaucoup de temps. Actuellement, franceinfo n’est capable de sous-titrer que de quatre à six heures de programme par jour. »

Matthieu Parmentier,
responsable de l’AI Factory de France Télévisions


« Toutes nos données sont collectées dans un data lake structuré, de telle sorte qu’elles pourront être exploitées pour d’autres projets à venir. »

En effet, sous-titrer l’intégralité du flux afin de répondre à la mission d’accessibilité de la chaîne publique imposerait de déployer des moyens très importants qui, dans un contexte de maîtrise budgétaire de l’audiovisuel public, ne sont pas à l’ordre du jour.
Le département data / IA a été sollicité pour trouver une solution qui permettra, à terme, d’aider les sous-titreurs à aller vers une couverture à 100 % des programmes de la chaîne.
L’équipe projet les a d’abord observés en situation pour comprendre comment ils parvenaient au niveau de qualité adéquat. « Nous avons commencé à travailler sur ce projet en juillet 2021, à partir du flux broadcast SRT (Secured Reliable Transport). Nous utilisons une plateforme de micro-services open source Media Cloud AI portée par AWS, que nous avions déjà commencé à exploiter pour d’autres traitements IA. Nous avons créé deux workers [des micro-services dans le jargon de la plateforme Media Cloud AI, NDLR]. Le premier assure la fonction de speech-to-text, tandis que le second réalise le reformatage des sous-titres pour ensuite les insérer dans le flux broadcast. »

À LIRE AUSSI :

Néanmoins, très rapidement, il va s’avérer impossible d’insérer directement le texte ainsi produit dans le flux SRT. L’équipe va alors avoir recours à une technique déjà mise en œuvre par Amazon Web Services pour son service de traduction simultanée Amazon Translate, capable de s’exécuter sur un flux de streaming vidéo sur internet HLS (HTTP Live Streaming). « Au fur et à mesure des échanges, nous avons compris que passer sur du flux HLS présentait plusieurs bénéfices : il est très facile de réinsérer des sous-titres dans la vidéo avec le système de playlist du HLS. En outre, travailler sur des flux HLS, c’est-à-dire des flux OTT (Over The Top) diffusés sur le web, est bien plus simple qu’avec le flux broadcast TNT. »

Enfin, comme le flux franceinfo est en direct, le décalage de diffusion du flux HLS offre un délai de 15 à 30 secondes à l’équipe pour mener la transcription, la corriger, la formater et l’insérer dans le flux. Une simple modification du timecode permet de resynchroniser le sous-titre par rapport à la vidéo au moment de la diffusion.

Une architecture scalable

L’architecture cloud telle qu’elle a été imaginée en octobre 2021 par les ingénieurs de France Télévisions met en œuvre les services MediaConnect, MediaLive et MediaStore d’AWS Elemental.

Pour le volet sous-titre temps réel, la chaîne de traitement exploite la plateforme Media Cloud AI avec trois micro-services : le premier est dédié à la transcription à partir de la piste audio. Il s’appuie sur les algorithmes Speechmatics et offre la capacité d’ajouter du vocabulaire particulier pour améliorer cette transcription à la volée, notamment pour corriger les noms propres et les noms de villes.

Une fois la transcription générée, le micro-service Subtitle Factory va transformer ce texte en sous-titres à partir de règles. Le moteur exécute des règles d’orthographe, de grammaire, mais aussi de lisibilité. « Nous nous accordons à la charte Arcom / CSA afin de générer des sous-titres qui soient les plus lisibles possible, car nous avons un devoir d’accessibilité », souligne Nicolas Pierre.

Enfin, le troisième micro-service prend ces sous-titres et génère les playlists HLS qui sont réinsérées dans le flux et affichées à l’écran. L’atout de l’architecture en test sur franceinfo est qu’elle est totalement automatisée, portée par le cloud et capable de monter à l’échelle. Le groupe France Télévisions diffuse ses programmes sur 65 canaux et ce sous-titrage pourrait être vite étendu à d’autres chaînes. « Les workers de la plateforme Media Cloud AI sont exécutés dans un cluster Kubernetes. De ce fait, la stack complète est totalement élastique. Si demain nous devons passer du sous-titrage de franceinfo à d’autres chaînes, notamment les chaînes régionales et ultramarines, ce sera sans difficulté : il n’y aura qu’à ajouter des machines pour porter les workflows correspondants. »


LE PROJET EN QUELQUES CHIFFRES

100 000 fichiers vidéo traités chaque année

24 instances AWS EC2 en moyenne

700 process IA / jour

20 000 fonctions serverless Lambda / jour


L’ENTREPRISE

Activité : Groupe audiovisuel public
Effectif : 9 000 collaborateurs en 2020
CA : 2,9 Md€ (2020)


À LIRE AUSSI :

Dans l'actualité