Les sous-titres automatiques à Devoxx
Publié le 22 avril 2024 à 12h08, mise à jour le 26 avril 2024 à 19h09
Temps de lecture : 11 minutes
Introduction
Du 17 au 19 avril 2024 a eu lieu Devoxx France pour la 12ème édition. Pour la première fois, Devoxx France a mis en place le sous-titrage automatique dans toutes les conférences exceptés les ateliers et les labs. Est-ce que les sous-titres automatiques ont été efficaces pendant l'événement ou, au contraire, ils ne l'ont pas été ? Etant sourde et directement concernée par ce dispositif, je vous raconte à travers cet article.
La découverte
Evidemment, les personnes présentes à l'événement et majoritairement entendantes ont découvert les sous-titres automatiques et ont relevé quelques pépites en les partageant sur les réseaux sociaux.
Je propose que l’on screene les sous-titres les plus drôles au cours de ce #DevoxxFR Là l’indium est remplacé systématiquement par l’indien 😂
Je vous partage quelques merveilleuses perles avec du vocabulaire technique :
- "Paire" en parlant de PR
- "Du chef" pour "duchesses"
- "Tout-doux" pour "to-do"
- "Poule request" pour "pull request"
- "Merde request" ou "marge request" pour "merge request"
- "Père programming" pour "pair-programming"
- "Data 7" pour "dataset"
- "Coqueline" pour "Kotlin"
- "Les pailles" en parlant d'APIs
- "Jason" pour "JSON"
- "Lia" quand on dit l'IA
- "Midjourney" pour "mi de journée"
- "une qui note" pour "une keynote"
- "fullimote" pour "full remote"
Ceci est une petite liste de mots parmi tant d'autres.
relecture de ses paires dans le cas d'une poule request ou d'une marge request. Pourquoi est-ce qu'on fait des revues
Moi-même, à certains moments, ces pépites m'ont fait sourire. Mais concrètement, si on y regarde bien attentivement, est-il possible de suivre totalement les conférences avec les erreurs de sous-titrage automatique ? Est-ce que toutes les conférences ont été correctement sous-titrées automatiquement ?
La réponse est "ça dépend".
Désolée mais courgette a encore du travail pour qu'on réponde OUI.
deuxième bug c'est donc le traitement équitable désolé mes courgettes et tes cliques depuis 3 ans chez nous et tu n'auras plus...
Les conférences non techniques s'en sortent le mieux
La conférence d'Albane Veyron lors de sa conférence Au delà des heures : La semaine de 4 jours comme levier d'égalité était une des meilleurs conférences sous-titrées automatiquement à tel point qu'il y avait très peu d'erreurs. J'ai été agréablement surprise par la qualité qu'a délivré cet outil qui a super bien transcrit ce qu'a dit Albane.
J'ai pu suivre correctement les conférences non techniques. Pourquoi les conférences non techniques s'en sortent le mieux ? Tout simplement parce que le langage courant est davantage présent dans les datasets de l'IA que le vocabulaire technique. Mais malgré tout, on n'était pas à l'abri des erreurs de transcription avec le langage courant.
Les conférences techniques sont loin d'être parfaitement transcrits
Comme vous pouvez voir sur la conférence de mon collègue Nathan Castelein de Shodo Lille , il y a beaucoup d'erreurs lorsqu'il fait sa démo. Il me fallait me concentrer pour que je puisse comprendre ce qu'il disait et ça m'a demandé beaucoup d'efforts.
Les points forts du sous-titrage automatique
Utiliser les sous-titres automatiques lors des conférences en anglais est indéniablement un énorme atout. Tout le monde ne comprend pas la langue de Shakespeare. Les sous-titres dans des conférences en anglais peuvent grandement aider. Les sous-titres automatiques en anglais lors des conférences en anglais ont été de très bonne qualité. Cela explique que la langue anglaise est la langue dominante des intelligences artificielles majoritairement construites par des entreprises américaines. Il y a donc plus de données en anglais qu'en français.
J'ai apprécié de suivre les conférences en anglais dont celle de Laetitia Avrot et Karen Jex avec leur conférence Trying to be Barbie in Ken's Mojo Dojo Casa House .
Comme je l'ai dit un peu plus haut, ça marche très bien sur les conférences non techniques dénuées de termes techniques informatiques et/ou anglophones surtout quand on utilise le langage courant. J'ai pu suivre correctement les excellentes conférences d'Albane ou de Shirley Almosni Chiche avec sa conférence Debugguez votre salaire ! Mes stratégies gagnantes pour réussir sa négociation salariale .
Les points faibles du sous-titrage automatique
Comme vous pouvez vous y attendre, il y a plus de points faibles que de points forts, à commencer par la ponctuation.
Son absence de ponctuation a été très gênante pour moi. Je ne savais jamais si la phrase était sous forme de question. Il n'y avait pas, non plus, de virgule pour marquer une rupture ou une continuité de la phrase. Quand je lisais les sous-titres, c'était sans cesse des phrases sans fin. Les points étaient mis à chaque fois que la personne faisait une pause durant sa présentation. Je ne savais jamais quand commençaient les phrases ou quand elles se terminaient. C'était assez épuisant.
Quand il y a plusieurs personnes qui parlent sur scène, il n'y a pas de signalement pour signifier qu'il y a changement d'interlocuteurice avec le fameux tiret. Quand mes yeux étaient rivés sur les sous-titres et non pas sur la scène, je ne me rendais pas compte tout de suite que ce n'était plus la même personne qui parlait.
Quand on bascule la langue en anglais pendant que le speaker parle en français trop tôt, les sous-titres s'affichent totalement en charabia. En effet, quand on change de langue, on signale à l'IA qu'on change de langue. Ce qui fait que quand on a des termes anglophones au plein milieu des phrases en français, c'est transcrit n'importe comment parce que l'IA s'attend à ce qu'on parle français à 100%. La preuve en photo avec mon "Nothing about us without us".
Et c'est pour ça on a un message à vous faire passer Nathy ne pas utos oui rien sur nous sans nous on voudrait...
Quand on cite quelques noms propres, des sigles ou des mots techniques que l’IA ne connaît pas, il y a des erreurs. En effet, l'IA sous-titre approximativement ce qu’elle croit avoir compris. Inutile de vous montrer d'autres exemples.
Quand une personne a un accent ou une voix atypique comme moi, le taux d'erreur est (beaucoup) plus élevé...! J'en parlais justement lors de ma conférence Speech-to-Text : quels sont ses avantages et ses limites ? donnée à Paris Web en 2022. C'était avant que Chat GPT vient tout bousculer.
Et enfin, j'ai eu des moments de coupures de sous-titrage. Pendant quelques minutes, il m'arrivait de ne plus avoir de sous-titres à cause d'un problème technique dû au réseau. Utiliser les sous-titres automatiques peut nécessiter beaucoup de bande-passante.
Lire et interpréter les sous-titres automatiques, cette charge mentale
Comme je l'ai dit lors de ma conférence L'IA et Handicap : progrès ou technique ? que je co-présente avec Thanh Lan DOUBLIER, plus le langage est technique, moins ça marche.
Je ne peux pas dire à l'IA de dire stop en direct pour lui dire « là, tu as fait une erreur », « que signifie ce mot ? » ou encore « je n'ai pas compris cette phrase ». Je ne peux pas dire au speaker : « stop, l'IA s'est trompée, pouvez-vous répéter, s'il vous plait ? ». Cela ne ferait que perturber le speaker. De plus, l'IA va continuer à sous-titrer ce que le speaker dit sans forcément analyser le contexte.
Du coup, quand il y a des erreurs, je suis obligée de me concentrer pour relire ce que l'outil a voulu sous-titrer quand j'ai encore le sous-titre sous les yeux avant que celui-ci disparaisse parce que ça défile au fur et à mesure que le speaker parle.
Parfois, je demande à la personne que je connais et assise à côté de moi le mot erroné. Il y a eu ce cas ci-dessous.
Avec Dominique, c'est vraiment un vrai c'est le vrai réunion des déchets ce soir et puis donc voilà merci d'être là ouais ça va silence vaut mieux
Inutile de vous dire que j'étais surprise quand ma voisine m'a dit que c'était "duchesses"... Vraiment oui, c'était sous-titré "déchets" au lieu de "duchesses". On parlait donc de la réunion des duchesses (duchesses désignant les membres de l'association Duchess France dont j'en fais partie) qui avait lieu le soir même. Le contexte prenait tout son sens quand il y a le bon mot. Quelle erreur très gênante ! Ce n'était pas une erreur isolée. En effet, il y a eu d'autres situations très gênantes surtout quand on parlait des "bits".
La personne qui avait pris la parole avait un accent, ce qui expliquait de nombreux erreurs d'interprétation de l'IA qui n'avait sûrement pas l'habitude des personnes ayant un accent. Comme je le disais plus haut, moi-même quand je prends la parole, avec mon accent de personne sourde, ça passe généralement très mal.
Inutile de vous dire qu'à la fin de la journée, j'étais épuisée par cette charge mentale. De devoir tout réinterpréter mentalement quand il y a, à chaque fois, des erreurs de sous-titrage automatique tout en écoutant ce que disaient les speakers (quand je les comprenais parce que ce n'était pas toujours le cas) ou en lisant sur les lèvres (quand j'étais près de la scène et ce n'était pas toujours le cas).
Conclusion
Comme dit Arnaud Héritier, un des organisateurs de Devoxx France, en citant Emmanuel Macron, "Ce n'est pas un échec, ça n'a pas marché."
Je suis d'accord avec Arnaud. Rien n'est à jeter. C'est juste que les sous-titres automatiques peuvent bien fonctionner comme ils ne peuvent pas fonctionner selon le contexte, l'environnement et la personne qui parle. J'ai très bien suivi les conférences non techniques comme celles d'Albane et Shirley comme j'ai eu du mal à suivre les conférences techniques comme celles de mes collègues Nathan et Julien.
EDIT du 26 avril : J'ai appris quel outil était utilisé à Devoxx France. Il s'agissait de l'API Transcoder de Google . Il n'y avait pas de possibilité, avec ce transcodeur, de fournir des verbatims en amont de l'événement et en temps-réel d'où de nombreux erreurs.
L'intelligence artificielle va encore évoluer, il y a encore du boulot pour arriver au niveau qu'on attend. Personnellement, je suis très enthousiaste par les perspectives que ça ouvre mais, pour l'instant, je préfère que la vélotypie qui est un des moyens les plus sûres pour accéder aux contenus correctement transcrits par des personnes et en temps-réel. Le souci avec la vélotypie, c'est que tout le monde ne peut pas le se permettre. C'est pourquoi le sous-titrage automatique paraît une bonne alternative.
Dans ce cas, si vous choisissez de mettre en place le sous-titrage automatique, faites des tests en amont pour vous assurer de la qualité que délivre l'outil automatique. Tous les outils automatiques ne délivrent pas la même chose pour avoir personnellement testé avec 4 outils différents (Google, Microsoft, Mozilla et Whisper) sur un même texte. Chaque outil automatique a son propre dataset et sous-titrera à sa façon et avec ses erreurs. Assurez-vous également que l'outil puisse intégrer le vocabulaire technique en amont et/ou en temps-réel pour réduire les erreurs.
Je remercie aux organisateurs et organisatrices de Devoxx France d'avoir mis en place cette solution innovante pour permettre aux personnes sourdes et malentendantes d'accéder aux conférences comme tout le monde même si ça a été parfois compliqué. Je pense que, d'ici quelques années, on pourrait compter pleinement sur les sous-titres automatiques mais ce n'est pas pour tout de suite.