音声ブラウザご使用の方向け: ナビメニューを飛ばして本文へ ナビメニューへ

フォーラム2001

聴覚障害者のための字幕放送の
充実をめざした研究開発

浦谷則好

はじめに

 大方の人々にとってテレビは情報源であり、また娯楽源でもあります。現在、わが国では一部の放送番組において、字幕放送や解説放送や手話付きの放送が実施されていますが、その量は十分でなく、視聴覚障害者は放送の利用において不利な状況に置かれていると言えます。
 字幕放送は現在、文字多重放送チャネルを用いて実施されていますが、欧米に比べて利用できる番組がかなり少なく、その拡充が強く求められています。欧米の各国では表音文字を使用しているため、キーボード入力さえ速ければ人手によっても字幕を付与することが可能です。しかし、日本語は漢字かな混じりで表示するのが普通ですから、キーボード入力の後にかな漢字変換を伴います。これが、リアルタイムによる字幕付与を困難にしている理由です。
 最近、音声認識を用いてニュース番組の一部については字幕を付与することが可能になり1)、1年ほど前から試験的にニュースに対する字幕放送が実施されています。生番組でない録画番組(オフライン番組)では、時間さえ掛ければ字幕を付けることは可能ですが、多大な労力が必要なため字幕付き番組の急激な増加は望めない状況です。
 通信・放送機構(TAO)では録画番組を対象に、コンピュータ技術を利用し、字幕を効率的に制作するための技術を確立することを目的に研究を進めています。この研究プロジェクトの状況と課題について紹介します。

TAOにおける研究状況

 TAO渋谷上原リサーチセンターでは、平成8年から5か年計画で「視聴覚障害者向け放送ソフト制作技術の研究開発プロジェクト」を実施し、録画番組を対象に字幕番組の効率的制作を目的とした研究開発を進めてきました2)。今年の3月で一応終了しましたが、実用化に対する課題の解決のため、5月から3か年計画でフェーズ2(第2期)を立ち上げ、研究開発を継続しています。ここではフェーズ1(第1期)での研究を中心に紹介します。
 まず最初に、録画番組に字幕を付与する課程を考察してみましょう。全体の制作過程は図1のようになります。まず、音声を文字化しなければなりません。次に場合によっては要約が必要になります。字幕の提示速度は1分間に300文字が目安とされていますが、ニュースなどの場合、アナウンサーの話すスピードは400文字以上になることがあります。そこで、このような場合には70%くらいまで要約する必要があります。次に必要となるのは、実際の音声に合わせて字幕を出すことです。これを同期と呼んでいます。さらに字幕が読みやすいように、表示される頁を意識して文章に適切な改行や改頁を加えて最終的な字幕データを作成する必要があります。その後の作業はできあがった字幕を試写し、場合によっては修正を加えてよりよい字幕にすることです。
 コンピュータ技術を用いて、どの課程を自動化することが可能でしょうか。試写・修正には人間の高度な判断が必要となり、今日の技術水準ではとても自動化できません。音声認識技術を使えば「音声の文字化」は可能となりそうですが、番組には種々の効果音などの背景音が入っていて、音声だけを認識することは大変困難です。そこで、フェーズ1では要約、同期、画面制作の3課程の自動化を研究開発することにしました。もちろん、こうした個々の要素技術の開発だけでは役に立つものを作ることはできません。これらを統合して、作業者が使いやすいようなシステムを作ることも肝要です。これも研究テーマとしました。

図1 オフライン字幕の制作過程

図1 オフライン字幕の制作過程

 それでは個々の研究状況を説明します。自動要約の研究ではニュースを対象に研究し、70%の要約を実現することができました。自動同期の研究ではニュースや背景音の少ないドキュメンタリー番組に対して、95%以上の精度で字幕と音声の同期を取ることができるようになりました。字幕画面制作では、ほぼ満足できるレベルで字幕データを作成する技術を開発しました。これらをシステムに統合化し、字幕提示方法や全体としての技術評価を実施しました。これにより、現状の技術を評価し、問題点を知ることができました。

今後の研究課題とフェーズ2

 フェーズ1は当初、目標をほぼ達成して修了しましたが、さらに実用化を推進するために、フェーズ2が立ち上げられました。では、残されている課題とは何でしょうか。最大の課題は対象番組の拡大です。ドラマやバラエティにも使えるシステムでないとあまり有用とは言えません。しかし、自動要約も自動同期も番組の種別が変わると適用できる技術も違ってきます。フェーズ2では、当該番組に合わせて技術を改良することにしています。字幕画面制作では字幕が映像の邪魔をしないような工夫も必要です。こうした改良を進めていくことにしています。また、フェーズ1では文字化を研究の対象外としましたが、フェーズ2ではコンピュータによる支援を考えています。
 番組を制作するときには台本が作られるのが通常です。印刷された台本を文字認識技術で電子化することも検討しています。もちろん、音声認識技術を用いて文字化することも検討していきます。システムを統合化して全体として使いやすいものにすることは、フェーズ2ではもっと重要となります。つまり、フェーズ1では自動化部分だけのシステムを作ってきましたが、使い勝手を考えて試写・修正も行えるシステムにするということです。フェーズ1の成果と作業者によるシステムの主観評価結果を踏まえ、フェーズ2では実用化に供するシステムを作っていきます。

おわりに

 デジタル放送の実現によって、放送サービスの中にコンピュータ技術が多く取り入れられるようになってきています。この結果、放送におけるユニバーサルデザインが技術的に実現しやすい環境が作られつつあります。当リサーチセンターも字幕放送の拡充のために努力を続けていきますが、他の種々の技術が放送に利用されることで、すべての人が放送を楽しめるような日が早くくることを期待しています。

(うらたにのりよし タオしぶやうえはらリサーチセンター)

参考文献

(1)中林克己ほか、「高齢者や障害者に優しい放送をめざして」、『情報処理』Vol.41,No.6,pp.635-638(June, 2000)
(2)白井克彦ほか、視聴覚障害者向け放送ソフト制作技術研究開発プロジェクトの研究状況、「通信・放送機構聴覚障害者向け字幕放送に関する国際シンポジウム」発表資料、pp.7-30(Nov. 1999)