AUTO-CAPTIONS : LIMITES DE LA RECONNAISSANCE AUTOMATIQUE DE LA PAROLE

Photo de JESS R
JESS R

L'essor de l'intelligence artificielle générative (IA) a pris le monde d'assaut, trouvant des applications dans les sphères personnelles et professionnelles. Dans l'industrie du sous-titrage, l'IA peut être utilisée dans le processus de reconnaissance automatique de la parole (RAS), qui convertit la parole en texte. Bien que la technologie ASR n'ait jamais été aussi avancée qu'aujourd'hui, nos recherches montrent que même les meilleurs moteurs ont des performances inférieures aux normes de l'industrie. Cela signifie que l'homme reste le pilier de la production de sous-titres accessibles et de haute qualité.

LA PRÉCISION DES SOUS-TITRES AUTOMATIQUES

Dans le monde du sous-titrage, les taux de précision sont utilisés pour évaluer la précision et la qualité d'un fichier de sous-titrage, d'un fichier de sous-titres ou d'une transcription. Étant donné que la précision est essentielle pour fournir un hébergement véritablement équitable aux publics sourds et malentendants, la norme de l'industrie pour une précision de sous-titrage minimale acceptable est de 99 %. Mais qu'est-ce que cela signifie vraiment ?

Pour mesurer la précision d'un moteur ASR, il faut tenir compte d'un certain nombre de facteurs. Comme le souligne la FCC, "des sous-titres précis doivent transmettre le ton de la voix de l'orateur et l'intention du contenu". Une orthographe, un espacement, des majuscules et une ponctuation corrects sont des éléments clés de la précision des sous-titres, tout comme les éléments non vocaux tels que les effets sonores et l'identification du locuteur.

Les moteurs ASR étant pilotés par une intelligence artificielle, leurs capacités sont limitées à ce qui leur a été enseigné par leur programmation. Malgré des progrès constants, la technologie alimentée par l'IA n'a pas la même capacité de logique ou de compréhension du contexte qu'un être humain. En pratique, le fait de s'appuyer uniquement sur l'IA pour la transcription/le sous-titrage peut entraîner des fautes d'orthographe et des incohérences qu'un sous-titreur humain ne pourrait pas relever.

Le rapport 2024 de 3Play Media sur l'état de la reconnaissance vocale automatique a évalué les performances et la précision de 10 moteurs pour le sous-titrage et la transcription de contenus préenregistrés.

Nous avons découvert que certains moteurs sont mieux adaptés à un contenu particulier (par exemple, éducatif ou cinématographique), ce qui nuance les cas d'utilisation possibles des sous-titres automatiques. Mais dans l'ensemble, aucun moteur sur 10 n'a produit de résultats d'une précision supérieure à 95 %, si l'on considère le taux d'erreurs de mots (WER). En utilisant cette même mesure pour analyser la précision par type de contenu, nous constatons un éventail de résultats. Alors que le taux d'erreur sur le marché des biens et services est relativement faible, il double presque sur le marché de la technologie.

L'écart entre les différents types de contenu industriel montre que la technologie ASR n'est pas encore suffisante pour produire des sous-titres accessibles. En fin de compte, c'est une approche humaine du sous-titrage qui offre le plus de chances d'obtenir des résultats très précis.

L'IMPACT DE L'IMPRÉCISION DES SOUS-TITRES AUTOMATIQUES

Les répercussions de sous-titres inexacts peuvent aller plus loin que vous ne le pensez. Les personnes handicapées et leurs familles ont un pouvoir d'achat qui se chiffre en milliards, mais leur volonté de dépenser diminue considérablement lorsque les expériences en ligne sont inaccessibles. Le rapport WebAIM Million de 2023 révèle des défauts d'accessibilité sur plus de 96 % des pages d'accueil de sites web, ce qui représente un véritable manque à gagner pour les flux de revenus potentiels.

Non seulement les sous-titres de mauvaise qualité rendent le contenu inaccessible, mais ils peuvent avoir un impact négatif sur l'expérience de l'utilisateur en général. Les limites de la RAS rendent leurs transcriptions plus susceptibles de contenir des erreurs de substitution, des hallucinations (texte sans base audio) et des erreurs de formatage, ce quipeut perturber votre public et l'algorithme. En outre, les transcriptions de vidéos ont un impact sur le référencement, qui est un aspect essentiel de nombreuses stratégies de marketing de marque.

Les moteurs de recherche s'appuient sur le texte associé au contenu vidéo pour indexer et classer les résultats de manière appropriée. Les transcriptions et les fichiers de sous-titres font donc partie des éléments qui contribuent le plus à la densité des mots clés d'un site et à son classement dans les moteurs de recherche. Si votre marque s'appuie uniquement sur des sous-titres et des transcriptions générés automatiquement, des erreurs risquent d'entraver votre stratégie de recherche. Des requêtes et des mots-clés de forme longue incorrects créent une déconnexion entre vous, votre public cible et leur potentiel d'engagement.

Outre les inconvénients techniques, la présentation de légendes de mauvaise qualité remet en cause l'ensemble de votre marque. Au Royaume-Uni, 59 % des consommateurs déclarent que les fautes d'orthographe et de grammaire les font douter de la qualité des services proposés. En d'autres termes, des sous-titres inexacts sapent vos efforts de marketing et érodent la confiance de votre public.

COMMENT UTILISER JUDICIEUSEMENT LES SOUS-TITRES AUTOMATIQUES

L'IA est un outil essentiel pour créer des sous-titres automatiques de manière efficace et à grande échelle. Les transcriptions générées par l'ASR rationalisent le sous-titrage en fournissant une première étape fondamentale que les éditeurs humains peuvent réviser. Il n'est donc plus nécessaire d'associer manuellement le timecode, ce qui est généralement la partie la plus fastidieuse de la production de sous-titres. Ainsi, la combinaison de transcripteurs humains professionnels et de la technologie permet un processus d'assurance qualité plus efficace, tout en maintenant les coûts à un niveau bas pour les clients.

Le processus breveté de 3Play crée des transcriptions très précises et des services d'accessibilité aux médias en utilisant des professionnels humains ainsi qu'une technologie de pointe pour garantir une précision moyenne mesurée de 99,6 %. Pour faciliter l'accessibilité des vidéos, nous nous intégrons à des plates-formes vidéo populaires telles que Brightcove pour que cela fonctionne là où vous le faites déjà. En plus de rendre le contenu accessible et de respecter la conformité, l 'intégration entre 3Play et Brightcove augmente la valeur de votre investissement vidéo en un seul clic.

Partager

Brightcove a aidé la place de marché automobile la plus reconnue à gérer son énorme vidéothèque et à la rentabiliser...
Pour préserver l'intégrité de leur marque, les enseignes de distribution ont besoin de lecteurs vidéo personnalisables qui leur permettent d'ajuster les couleurs, la police...
Savoir média propose un contenu vidéo unique à son public

PRÊT À COMMENCER ?

Contactez-nous pour savoir comment nous pouvons améliorer vos efforts de marketing vidéo et vous aider à générer les résultats et le retour sur investissement dont vous avez besoin.