자동 캡션: 자동 음성 인식의 한계

JESS R의 사진
JESS R

생성형 인공 지능(AI)의 부상은 전 세계를 강타하며 개인 및 전문 분야에서 응용 분야를 찾고 있습니다. 캡션 업계에서는 음성을 텍스트로 변환하는 자동 음성 인식(ASR) 프로세스에서 AI를 활용할 수 있습니다. ASR 기술이 지금보다 더 발전한 적은 없지만, 연구 결과에 따르면 최고의 엔진도 업계 표준에 미치지 못하는 성능을 발휘하는 것으로 나타났습니다. 즉, 고품질의 접근성 높은 자막을 제작하는 데는 여전히 사람이 주축을 이루고 있습니다.

자동 캡션의 정확성

캡션 업계에서 정확도는 캡션 파일, 자막 파일 또는 대본의 정확도와 품질을 측정하는 데 사용됩니다. 청각 장애가 있는 청각 장애인에게 진정으로 공평한 편의를 제공하기 위해서는 정확도가 매우 중요하므로, 업계에서 허용되는 최소 캡션 정확도에 대한 표준은 99%입니다. 하지만 이것이 실제로 무엇을 의미할까요?

ASR 엔진의 정확도를 측정할 때 고려해야 할 요소는 다양합니다. FCC에서 설명한 대로"정확한 자막은 화자의 목소리 톤과 콘텐츠의 의도를 전달해야 합니다." 적절한 철자, 간격, 대문자, 구두점은 음향 효과 및 화자 식별과 같은 비음성 요소와 마찬가지로 정확한 자막의 핵심 요소입니다.

ASR 엔진은 인공 지능에 의해 구동되기 때문에 프로그래밍을 통해 학습한 기능으로 제한됩니다. 지속적인 발전에도 불구하고 AI 기반 기술은 인간과 같은 논리력이나 맥락 이해 능력을 갖추지 못했습니다. 실제로 AI에만 의존해 트랜스크립션/캡션을 작성할 경우 사람이 직접 작성할 때와 달리 철자 오류와 불일치가 발생할 수 있습니다.

3Play Media의 2024년 자동 음성 인식 현황 보고서에서는 사전 녹음된 콘텐츠를 캡션 및 트랜스크립션하는 10개 엔진의 성능과 정확도를 평가했습니다.

일부 엔진은 특정 콘텐츠(예: 교육용 대 시네마틱)에 더 적합하다는 사실을 발견했으며, 이는 자동 캡션의 사용 사례에 미묘한 차이를 더합니다. 그러나 전반적으로 단어 오류율(WER)을 살펴보면 10개 엔진 중 95% 이상의 정확도를 측정하는 출력물을 생성한 엔진은 0개였습니다. 동일한 메트릭을 사용하여 콘텐츠 유형별 정확도를 분석하면 다양한 결과가 나타납니다. 상품 및 서비스 시장의 WER은 상대적으로 낮은 반면, 기술 시장에서는 거의 두 배에 달합니다.

다양한 유형의 업계 콘텐츠 간에 차이가 있다는 것은 ASR 기술만으로는 아직 접근 가능한 자막을 제작하기에 충분하지 않다는 것을 보여줍니다. 궁극적으로 사람이 직접 자막을 제작하는 접근 방식이 매우 정확한 결과물을 얻을 수 있는 가장 큰 잠재력을 제공합니다.

자동 캡션 부정확성의 영향

부정확한 캡션의 영향은 생각보다 훨씬 더 클 수 있습니다. 장애인과 그 가족은 수십억 달러에 달하는 소비력을 가지고 있지만, 온라인 경험에 접근할 수 없는 경우 소비 의향이 크게 떨어집니다. 2023년 WebAIM 백만 보고서에서 웹사이트 홈페이지의 96% 이상에서 접근성 장애가 발견됨에 따라 이는 잠재적인 수익원의 실질적인 격차를 나타냅니다.

품질이 낮은 캡션은 콘텐츠 접근성을 떨어뜨릴 뿐만 아니라 전반적으로 사용자 경험에 부정적인 영향을 미칠 수 있습니다. ASR의 한계로 인해 대본은 대체 오류, 환각(오디오 기반이 없는 텍스트), 서식 오류에 더 취약하여잠재 고객과 알고리즘에 혼란을 줄 수 있습니다. 또한 동영상 트랜스크립트는 많은 브랜드 마케팅 전략의 필수 요소인 SEO에 영향을 미칩니다.

검색 엔진은 동영상 콘텐츠와 관련된 텍스트에 의존하여 검색 결과를 적절하게 색인화하고 순위를 매깁니다. 따라서 대본과 캡션 파일은 사이트의 키워드 밀도와 관련 검색 순위에 가장 큰 영향을 미치는 요소 중 하나입니다. 브랜드가 자동 생성된 자막과 대본에만 의존하는 경우 오류로 인해 검색 전략에 차질을 빚을 수 있습니다. 잘못된 긴 형식의 검색어와 키워드는 브랜드와 타겟 오디언스, 그리고 그들의 참여 잠재력 사이에 단절을 초래합니다.

기술적인 단점 외에도 품질이 낮은 캡션을 제공하면 브랜드 전체에 의문을 제기할 수 있습니다. 영국에서는 59%의 소비자가 맞춤법 오류와 잘못된 문법으로 인해 제공되는 서비스의 품질을 의심하게 된다고 답했습니다. 즉, 부정확한 캡션은 마케팅 노력을 약화시키고 잠재고객의 신뢰를 떨어뜨립니다.

자동 캡션을 현명하게 사용하는 방법

AI는 대규모로 자동 캡션을 효율적으로 제작하는 데 필수적인 도구입니다. ASR로 생성된 트랜스크립트는 편집자가 검토할 수 있는 기본적인 첫 단계를 제공함으로써 캡션 제작을 간소화합니다. 따라서 일반적으로 캡션 제작에서 가장 많은 시간이 소요되는 수동 타임코드 연결 작업이 필요하지 않습니다. 따라서 전문 트랜스크립션 전문가와 기술의 결합으로 품질 보증 프로세스가 더욱 효율적이면서도 고객의 비용을 낮출 수 있습니다.

3Play의 특허받은 프로세스는 최첨단 기술과 함께 인적 전문가를 사용하여 평균 99.6%의 측정 정확도를 보장하는 매우 정확한 대본 및 미디어 접근성 서비스를 생성합니다. 동영상 접근성을 쉽게 제공하기 위해 브라이트코브와 같은 인기 있는 동영상 플랫폼과 통합하여 이미 사용하고 있는 곳에서 작동하도록 합니다. 3Play와 브라이트코브의 통합은 콘텐츠 접근성을 높이고 규정을 준수하는 것 외에도 클릭 한 번으로 비디오 투자의 가치를 높여줍니다.

공유 

브라이트코브는 가장 유명한 자동차 시장에서 방대한 레거시 비디오 라이브러리를 관리하고 수익을 창출할 수 있도록 지원합니다....
브랜드 무결성을 유지하기 위해 리테일 브랜드는 색상, 글꼴 등을 조정할 수 있는 맞춤형 동영상 플레이어가 필요합니다.
시청자에게 특별한 동영상 콘텐츠를 제공하는 Savoir média

시작할 준비가 되셨나요?

브라이트코브로 영상 마케팅 성과와 ROI를 높이는 방법을 알아보세요. 지금 문의하시면 자세히 상담해드립니다.