12
NHKにおける 「人にやさしい放送」関連研究の現状 平成18年11月16日 NHK放送技術研究所 伊藤崇之 資料2の3

NHKにおける 「人にやさしい放送」関連研究の現状 · 音声認識による字幕制作の小型システムを試作中(*) 直接音声認識とリスピーク認識を話題や状況に応じて切り分け、2

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: NHKにおける 「人にやさしい放送」関連研究の現状 · 音声認識による字幕制作の小型システムを試作中(*) 直接音声認識とリスピーク認識を話題や状況に応じて切り分け、2

NHKにおける「人にやさしい放送」関連研究の現状

平成18年11月16日

NHK放送技術研究所

伊藤崇之

資料2の3

Page 2: NHKにおける 「人にやさしい放送」関連研究の現状 · 音声認識による字幕制作の小型システムを試作中(*) 直接音声認識とリスピーク認識を話題や状況に応じて切り分け、2

2

本日のトピック

1. 字幕放送の充実に向けた音声認識の研究開発

2. 視覚障害者のための研究開発

3. 手話研究の動向

4. その他の関連研究

Page 3: NHKにおける 「人にやさしい放送」関連研究の現状 · 音声認識による字幕制作の小型システムを試作中(*) 直接音声認識とリスピーク認識を話題や状況に応じて切り分け、2

3

字幕放送の充実に向けた研究開発(I)

ニュースのリアルタイム字幕サービススタジオでアナウンサが原稿を読み上げる部分について

字幕化技術を開発し、2000年3月からニュース7で世界に先駆けて開始

原稿読み上げ部分は95%以上の認識率

H12年度〜H17年度のニュースで運用

H18年度から高速キー入力方式(入力者6名)に一本化

ダイレクト方式音声認識

アナウンサーの音声

字幕文字

確認・修正(4名)

声のデータベース(音響モデル)

原稿のデータベース(言語モデル)

過去のニュース原稿

アナウンサーの声の特徴

Page 4: NHKにおける 「人にやさしい放送」関連研究の現状 · 音声認識による字幕制作の小型システムを試作中(*) 直接音声認識とリスピーク認識を話題や状況に応じて切り分け、2

4

字幕放送の充実に向けた研究開発(II)

ニュース音声認識における課題

字幕修正に要するマンパワーが多い(2人x2クルー)

認識率

修正も含めると字幕が表示されるまでに約10秒

80%-気象情報

45%-インタビュー

85%-対談、完パケ

95%-現場リポート

98%95%原稿読み上げ

2006年2000年ジャンル

実用レベルに満たない

Page 5: NHKにおける 「人にやさしい放送」関連研究の現状 · 音声認識による字幕制作の小型システムを試作中(*) 直接音声認識とリスピーク認識を話題や状況に応じて切り分け、2

5

字幕放送の充実に向けた研究開発(III)

ニュース以外の生放送への対応(スポーツ中継、歌番組、情報系番組など)雑音やくだけた口調のため、十分な認識精度が得られない⇒リスピーク方式(静かなスタジオで別アナウンサが要約して言い直した声を認識)

紅白歌合戦、大相撲中継、オリンピック、野球中継などで字幕放送を実現

リスピーク方式音声認識

確認・修正(1名)

言い直し音声 字幕文字

番組音声(歓声・BGMを含む)

字幕キャスター

スタジオ

Page 6: NHKにおける 「人にやさしい放送」関連研究の現状 · 音声認識による字幕制作の小型システムを試作中(*) 直接音声認識とリスピーク認識を話題や状況に応じて切り分け、2

6

字幕放送の充実に向けた研究開発(IV)

現在の研究開発課題

ニュース:対談部分の音声認識実用化に向けて

話しことば、くだけた話し方、早口、背景雑音などへの対策を研究中

スポーツ・情報番組:リスピーク方式から番組音声直接認識

芸能人や一般話者の話し方、および多様な話題への対策をさらに検討

汎用的に使える音声認識技術をめざして認識単語を大規模化

現在:2万単語⇒将来:数10万単語

番組ごとに辞書を学習させる運用負荷を軽減

Page 7: NHKにおける 「人にやさしい放送」関連研究の現状 · 音声認識による字幕制作の小型システムを試作中(*) 直接音声認識とリスピーク認識を話題や状況に応じて切り分け、2

7

字幕放送の充実に向けた研究開発(V)

音声認識による字幕制作の小型システムを試作中(*)

直接音声認識とリスピーク認識を話題や状況に応じて切り分け、2

名程度で修正・リスピークを行う(ハイブリッド方式)

安価で運用経費のより少ない方式を目指す

(*)これとは別に、NHKで使用中のリスピーク音声認識字幕システムを

小型化したものを松下電器が販売中

修正者2名程度

少人数の誤り修正音声認識装置番組音声

リスピーク音声字幕

キーボード入力

Page 8: NHKにおける 「人にやさしい放送」関連研究の現状 · 音声認識による字幕制作の小型システムを試作中(*) 直接音声認識とリスピーク認識を話題や状況に応じて切り分け、2

8

視覚障害者のための研究開発(I)

デジタル放送を視覚障害者に楽しんでいただく

「視覚障害者用受信端末」の開発

目的:デジタル放送のユーザインタフェースやコンテンツをバリアフリー化する

電子番組表、データ放送のテキストや画像情報などをアクセシブル化

さまざまな障害特性に対応して多様な表示形式でアクセスできるようにする

画面拡大、音声読み上げ、点字表示など

BMLデータと補完データを統合する記述言語「視覚障害者XML」を開発中

(NICTの委託研究)

通信系でも利用可能とする

補完データ:BMLで表現できない情報

例:画面上のボタンの意味、漢字の読みなど

例えば放送局のホームページに受信端末がアクセスして補完データを取得

視覚障害者XMLのブラウザおよび音声合成、点字デバイス等を持つ受信端末

のプロトタイプを試作

Page 9: NHKにおける 「人にやさしい放送」関連研究の現状 · 音声認識による字幕制作の小型システムを試作中(*) 直接音声認識とリスピーク認識を話題や状況に応じて切り分け、2

9

視覚障害者XMLによる情報環境のイメージ

放送

拡大・反転表示

触覚ディスプレイ

音声合成

情報提示装置

通信

文書

<?xml version="1.0" encoding="Shift_JIS"?><ISDB_TEST><FORM><BKCOLOR>BLUE</BKCOLOR><PIC>topBase.bmp</PIC><SBORDER_COLOR>Green</SBORDER_COLOR><SBORDER_WIDTH>6</SBORDER_WIDTH><CLASS>1</CLASS><ITEMS><ITEM><NO>1</NO><ID>News1</ID><TYPE/><FUNC>0</FUNC><GENRE>NEWS</GENRE>

音楽

画像

データ変換

データ放送EPG,字幕放送

インターネットWeb

表現メディア

番組表 7/27(木)番組表 7/27(木)

17

19

18

BS-A B S-B英会話英会話 ニュースニュース

楽しい数学楽しい数学

料理の世界料理の世界ニュースニュース

旅日記旅日記

交通情報交通情報ロボコンロボコン

BS-C

プロ野球ナイター

プロ野球ナイター

アフター野球アフター野球

天気予報天気予報各地の天気各地の天気トピックトピック16

表、EPG

図・グラフ視覚障害者

XML

放送と通信を融合した共通な記述言語

点字・指点字

触覚階層提示振動提示

表示変換

○自分に一番あった装置が選べるんだ○見やすい画面に設定できるんだね○図や画面もわかるんだ○階層や表もわかりやすいよ○振動で知らせてくれると助かるよ

Web・放送

コンテンツ制作者

視覚障害者XMLに合わせてコンテンツを作ればいいんだ

装置メーカ

表示データは視覚障害者XMLを取り出せばいいんだ

データ放送メニュー・階層

利用者

Page 10: NHKにおける 「人にやさしい放送」関連研究の現状 · 音声認識による字幕制作の小型システムを試作中(*) 直接音声認識とリスピーク認識を話題や状況に応じて切り分け、2

10

視覚障害者のための研究開発(II)

解説放送的サービスの充実に資する研究

文字情報からの音声合成で副音声に速報ニュース(~19年度)

緊急性の高い気象災害情報(台風、地震など)を例題として検討

読み上げの合成音声をデジタル放送の副音声チャンネルにて自動送出

テキストデータも送出することで視覚障害者用受信機で読み上げや点字出

力も可となる

19年度技研公開でのデモを目指して開発中

報道系ニュースについては

自然な音声合成が課題

解説放送的情報の制作技術の研究(~21年度)

台本や字幕(クローズドキャプション)を利用して補完情報を自動生成

番組連動のデータ放送サービスを想定するほか、解説放送制作支援として

も活用されることをめざす

ただいま地震がありました

ピンポーン!ただいま地震がありました。

Page 11: NHKにおける 「人にやさしい放送」関連研究の現状 · 音声認識による字幕制作の小型システムを試作中(*) 直接音声認識とリスピーク認識を話題や状況に応じて切り分け、2

11

手話研究の動向

研究例

手話アニメーションと日本語の対応データベース(15,000語):日立

手話表記言語sIGNDEXと手話映像データベース:工学院大、中京大、千葉大

手話アニメ生成の容易化をめざした手話の言語学的解析:工学院大

手話アニメーション制作用エディタとデータベース作成:アトム、工学院大

日本語と手話(テキスト)の対訳データベース(720例文):岐阜大

日本語⇒手話翻訳(変換)技術の現状

単語に対応する手話アニメーションを続けて表示しても、文章として理解できないことが多い

課題

核となる共通の対訳データベースがないため成果の蓄積が十分でない

予算不足のため研究中断を余儀なくされる(特にメーカー)

Page 12: NHKにおける 「人にやさしい放送」関連研究の現状 · 音声認識による字幕制作の小型システムを試作中(*) 直接音声認識とリスピーク認識を話題や状況に応じて切り分け、2

12

その他の関連研究

デジタル放送のユーザインタフェース(簡単リモコン)

ボタンの少ないリモコンで画面メニューを見ながら操作

学習のしやすさ、高齢者の視覚特性などの実験結果に基づく

高齢者が聞きやすい音声

1. テレビ・ラジオの音声をゆっくりに変換する話速変換機能(実用化済)

2. 高齢者の聴覚特性を考慮したアナウンス音と背景音のミキシング

簡単操作テレビ

話速変換機能付ラジオ