AUTO-CAPTIONS: LIMITACIONES DEL RECONOCIMIENTO AUTOMATIZADO DEL HABLA

Foto de JESS R
JESS R

El auge de la inteligencia artificial (IA) generativa ha tomado al mundo por asalto, encontrando aplicaciones tanto en el ámbito personal como en el profesional. En el sector de los subtítulos, la IA puede utilizarse en el proceso de reconocimiento automático del habla (ASR), que convierte el habla en texto. Aunque la tecnología ASR nunca ha estado tan avanzada como ahora, nuestra investigación demuestra que incluso los mejores motores rinden por debajo de los estándares del sector. Esto significa que los humanos siguen siendo un pilar para producir subtítulos accesibles y de alta calidad.

LA PRECISIÓN DE LOS SUBTÍTULOS AUTOMÁTICOS

En el mundo del subtitulado, los índices de exactitud se utilizan para medir la precisión y calidad de un archivo de subtítulos o una transcripción. Dado que la precisión es crucial para ofrecer una adaptación verdaderamente equitativa al público sordo o con dificultades auditivas, la norma del sector para una precisión mínima aceptable de los subtítulos es del 99%. Pero, ¿qué significa esto realmente?

A la hora de medir la precisión de un motor ASR, hay que tener en cuenta una serie de factores. Según la FCC, "los subtítulos precisos deben transmitir el tono de voz del orador y la intención del contenido". La ortografía, el espaciado, las mayúsculas y la puntuación son elementos clave para que los subtítulos sean precisos, al igual que lo son los elementos no verbales, como los efectos de sonido y la identificación del locutor.

Dado que los motores ASR funcionan con inteligencia artificial, sus capacidades se limitan a lo que se les ha enseñado a través de su programación. A pesar de los continuos avances, la tecnología basada en IA no tiene la misma capacidad lógica o de comprensión del contexto que un ser humano. En la práctica, confiar únicamente en la IA para transcribir o subtitular puede producir errores ortográficos e incoherencias que un subtitulador humano no podría corregir.

El informe 2024 de 3Play Media sobre el estado del reconocimiento automático de voz evaluó el rendimiento y la precisión de 10 motores a la hora de subtitular y transcribir contenidos pregrabados.

Descubrimos que algunos motores son más adecuados para contenidos concretos (por ejemplo, educativos frente a cinematográficos), lo que añade matices a los posibles casos de uso de los subtítulos automáticos. Pero en general, cero de cada diez motores produjeron resultados con una precisión superior al 95%, si se tiene en cuenta la tasa de error de las palabras (WER). Utilizando esa misma métrica para analizar la precisión por tipo de contenido, vemos un espectro de resultados. Mientras que el WER en el mercado de bienes y servicios es relativamente bajo, casi se duplica en el mercado tecnológico.

La discrepancia entre los distintos tipos de contenidos de la industria demuestra que la tecnología ASR aún no basta por sí sola para producir subtítulos accesibles. En última instancia, un enfoque humano del subtitulado ofrece el mayor potencial para obtener resultados de gran precisión.

EL IMPACTO DE LA INEXACTITUD DEL SUBTITULADO AUTOMÁTICO

Las repercusiones de los subtítulos inexactos pueden llegar más lejos de lo que se piensa. Las personas con discapacidad y sus familias tienen un poder adquisitivo de miles de millones, pero su disposición a gastar disminuye significativamente cuando las experiencias en línea son inaccesibles. El Informe del Millón de WebAIM 2023 detectó fallos de accesibilidad en más del 96 % de las páginas de inicio de los sitios web, lo que representa una verdadera brecha en las posibles fuentes de ingresos.

Los subtítulos de baja calidad no sólo hacen que el contenido sea inaccesible, sino que pueden tener un impacto negativo en la experiencia del usuario en general. Las limitaciones de ASR hacen que sus transcripciones sean más susceptibles a errores de sustitución, alucinaciones (texto sin base de audio) y errores de formato, lo quepuede confundir a su audiencia y al algoritmo. Además, las transcripciones de vídeo repercuten en el SEO, que es un aspecto esencial de muchas estrategias de marketing de marca.

Los motores de búsqueda se basan en el texto asociado a los contenidos de vídeo para indexar y clasificar adecuadamente los resultados. Esto hace que las transcripciones y los archivos de subtítulos sean algunos de los elementos que más contribuyen a la densidad de palabras clave de un sitio y a las clasificaciones de búsqueda relevantes. Si su marca confía únicamente en subtítulos y transcripciones generados automáticamente, los errores podrían atascar su estrategia de búsqueda. Las consultas largas y las palabras clave incorrectas crean una desconexión entre usted, su público objetivo y su potencial de participación.

Además de los inconvenientes técnicos, presentar subtítulos de mala calidad pone en entredicho toda su marca. En el Reino Unido, el 59% de los consumidores afirman que los errores ortográficos y gramaticales les harían dudar de la calidad de los servicios ofrecidos. En otras palabras, los subtítulos inexactos socavan sus esfuerzos de marketing y erosionan la confianza de su público.

CÓMO UTILIZAR SABIAMENTE LOS SUBTÍTULOS AUTOMÁTICOS

La IA es una herramienta esencial para crear subtítulos automáticos eficientes a gran escala. Las transcripciones generadas por ASR agilizan el subtitulado al proporcionar un primer paso fundamental para que los editores humanos lo revisen. Esto elimina la necesidad de la asociación manual de códigos de tiempo, que suele ser la parte que más tiempo consume en la producción de subtítulos. De este modo, la combinación de transcriptores humanos profesionales y tecnología hace más eficaz el proceso de control de calidad, al tiempo que mantiene los costes bajos para los clientes.

El proceso patentado de 3Play crea transcripciones de gran precisión y servicios de accesibilidad de medios utilizando profesionales humanos junto con tecnología punta para garantizar una precisión media medida del 99,6%. Para facilitar la accesibilidad del vídeo, nos integramos con plataformas de vídeo populares como Brightcove para que funcione donde ya lo hace. Además de hacer que los contenidos sean accesibles y cumplir con la normativa, la integración entre 3Play y Brightcove aumenta el valor de su inversión en vídeo con un solo clic.

Compartir

Brightcove ayudó al mercado automovilístico más reconocido a gestionar su enorme videoteca heredada y a monetizarla...
Para mantener la integridad de la marca, las marcas minoristas necesitan reproductores de vídeo personalizables que les permitan ajustar los colores, la fuente...
Savoir média ofrece contenidos de vídeo únicos a su audiencia

¿PREPARADO PARA EMPEZAR?

Póngase en contacto con nosotros para saber cómo podemos mejorar sus esfuerzos de marketing por vídeo y ayudarle a generar los resultados y el ROI que necesita.