オートキャプション自動音声認識の限界

JESS Rの写真
ジェス・アール氏

ジェネレーティブ人工知能(AI)の台頭は世界を席巻し、個人的な分野でも職業的な分野でも応用されている。キャプション業界では、音声をテキストに変換する自動音声認識(ASR)のプロセスにAIを使用することができます。ASR技術は今日ほど進歩したことはありませんが、私たちの調査によると、最高のエンジンでも業界標準を下回る性能です。つまり、高品質でアクセシブルなキャプションを作成するには、依然として人間が主役なのです。

自動キャプションの精度

キャプションの世界では、精度はキャプションファイル、字幕ファイル、またはトランスクリプトの精度と品質を評価するために使用されます。ろう者や難聴者に真に公平な配慮を提供するためには、精度が極めて重要であるため、業界標準の最低許容キャプション精度は99%です。しかし、これは実際には何を意味するのでしょうか?

ASRエンジンの精度を測定する場合、考慮すべきさまざまな要素があります。FCCが概説しているように、「正確なクローズド・キャプションは、話し手の声のトーンとコンテンツの意図を伝えなければならない」。適切なスペル、間隔、大文字、句読点は、効果音や話者の識別のような音声以外の要素と同様に、正確なキャプションの重要な要素です。

ASRエンジンは人工知能によって駆動されるため、その能力はプログラミングによって教え込まれたものに限られる。進歩が続いているとはいえ、AIを搭載したテクノロジーは、論理的思考や文脈の理解において、人間のような能力を持っていません。実際には、文字起こし/キャプション作成をAIだけに頼ると、人間のキャプション作成者にはないスペルミスや矛盾が生じる可能性があります。

3Play Mediaの2024年自動音声認識の現状に関する報告書では、録音済みコンテンツのキャプション付けと文字起こしにおける10種類のエンジンの性能と精度が評価されている。

特定のコンテンツ(例えば、教育的なものと映画的なもの)に適しているエンジンもあることが判明し、自動字幕の使用ケースにニュアンスが加わった。しかし、Word Error Rate (WER)を見ると、全体として、95%以上の精度の出力を生成したエンジンは10台中0台でした。同じ指標を使ってコンテンツタイプ別の精度を分析すると、さまざまな結果が得られた。商品・サービス市場のWERは比較的低いが、技術市場ではほぼ2倍になる。

さまざまなタイプの業界コンテンツ間の食い違いは、ASR技術がアクセシブルなキャプションを作成するにはまだ独立して十分でないことを示している。結局のところ、人間がキャプションを作成するアプローチが、高精度の出力を実現する可能性が最も高いのです。

オートキャプションの不正確さの影響

不正確なキャプションがもたらす影響は、あなたが考えている以上に大きいかもしれません。障害者とその家族は、数十億の消費力を行使しますが、オンライン体験がアクセシブルでない場合、彼らの消費意欲は著しく低下します。2023年のWebAIM Million Reportでは、ウェブサイトのホームページの96%以上でアクセシビリティに問題があることが判明しており、これは潜在的な収益源における実質的なギャップを意味します。

低品質のキャプションは、コンテンツにアクセスできないだけでなく、ユーザーエクスペリエンス全体にも悪影響を及ぼします。ASRの限界により、トランスクリプトは置換エラー、幻覚(音声ベースのないテキスト)、フォーマットエラーの影響を受けやすくなり、視聴者とアルゴリズムを混乱させる可能性があります。さらに、動画トランスクリプトは、多くのブランドマーケティング戦略に不可欠な SEO にも影響を及ぼします。

検索エンジンは、動画コンテンツに関連するテキストに依存して、インデックスを作成し、結果を適切にランク付けします。このため、トランスクリプトやキャプションファイルは、サイトのキーワード密度や関連する検索ランキングに最も強く貢献するものとなっています。貴社ブランドが自動生成された字幕やトランスクリプトのみに依存している場合、エラーが検索戦略を停滞させる可能性があります。誤った長文クエリやキーワードは、貴社とターゲットオーディエンス、そして彼らのエンゲージメントの可能性の間に断絶を生み出します。

技術的なデメリットに加え、質の低いキャプションを表示すると、ブランド全体が疑われます。英国では、消費者の59%が、スペルミスや悪い文法があれば、提供されるサービスの質を疑うと回答しています。つまり、不正確なキャプションは、貴社のマーケティング努力を台無しにし、視聴者の信頼を損なうのです。

オートキャプションの賢い使い方

AIは、自動キャプションを効率的に作成するために不可欠なツールです。ASRが生成したトランスクリプトは、人間の編集者がレビューするための基礎となる最初のステップを提供することで、キャプション作成を合理化します。これにより、キャプション制作で最も時間のかかる手作業によるタイムコードの関連付けが不要になります。このように、プロの人間のトランスクリプション担当者とテクノロジーを組み合わせることで、より効率的な品質保証プロセスを実現し、同時に顧客のコストを低く抑えることができます。

3Play の特許取得済みプロセスは、人間の専門家と最高級の技術を駆使して、高精度のトランスクリプトとメディア アクセシビリティ サービスを作成し、平均 99.6% の測定精度を保証します。動画アクセシビリティを容易にするため、Brightcove のような一般的な動画プラットフォームと統合し、すでにご利用いただいている場所で機能するようにしています。コンテンツをアクセシブルにし、コンプライアンスを維持するだけでなく、3Play と Brightcove の統合により、ワンクリックで動画投資の価値を高めることができます。

Brightcove は、最も有名な自動車マーケットプレイスの膨大なレガシー動画ライブラリの管理と収益化を支援しました。
ブランドを維持するために、小売ブランドは、色やフォントを調整できるカスタマイズ可能な動画プレーヤーを必要としています。
Savoir médiaが独自性のある動画コンテンツを視聴者に提供

動画コンテンツの管理・活用はできていますか?

御社の動画マーケティング活動を強化し、必要な結果とROIを生み出すお手伝いをする方法については、
弊社までお問い合わせください。