21
TTS 技技技技技 1. TTS 技技 2. TTS 技技技技技 3. TTS 技技技技技技技 4. 技技技技 5. F0 技技技 6. 技技技技 7. 技技技技技技 8. 技技技技技技技技技技技技技技技技技技技技 9. Tone Sequence Theory 10. ToBI 技技 J-ToBI 11. 技技技技 12. 技技技技 13. 技技技技技技 14. PSOLA 15. 技技技技技技技技技技 16. TTS 技技技技技 17. TTS 技技技技技技技技 技技 技技 06/30/2000

TTS 技術の概要

  • Upload
    giona

  • View
    47

  • Download
    0

Embed Size (px)

DESCRIPTION

TTS 技術の概要. 桜井 淳宏 06/30/2000. 1. TTS とは 2. TTS 技術の応用 3. TTS システムの流れ 4. 基本概念 5. F0 モデル 6. 韻律記号 7. 規則音声合成 8. 統計的手法に基づくイントネーションモデル 9. Tone Sequence Theory 10. ToBI 及び J-ToBI 11. 音声合成 12. 合成方式 13. 波形編集方式 14. PSOLA 15. フォルマント合成方式 16. TTS 技術の評価 17. TTS 技術の現在と未来. TTS(テキスト音声変換). - PowerPoint PPT Presentation

Citation preview

Page 1: TTS 技術の概要

TTS 技術の概要

1. TTS とは2. TTS 技術の応用3. TTS システムの流れ4. 基本概念5. F0 モデル6. 韻律記号7. 規則音声合成8. 統計的手法に基づくイントネーションモデル9. Tone Sequence Theory10. ToBI 及び J-ToBI11. 音声合成12. 合成方式13. 波形編集方式14. PSOLA15. フォルマント合成方式16. TTS 技術の評価17. TTS 技術の現在と未来

桜井 淳宏 06/30/2000

Page 2: TTS 技術の概要

TTS(Text-to-Speech)

TTS System入力文 出力音声

TTS(テキスト音声変換)

TTS 技術の応用現在•E-mail の自動読み上げ•手足が忙しいときの自動読み上げ•WWW コンテンツの読み上げ•文章作成の支援ツール•言語教育•お年寄りや障害者の支援ツール•自動車環境内のヒューマンインタフェース

将来•対話システム(音声認識システムとの組合わせ)•自動通訳システム

テキスト 概念

Page 3: TTS 技術の概要

入力文

テキスト解析

形態素解析構文解析

音韻処理・韻律処理

音韻記号列+韻律記号列の生成

音声合成

波形編集またはフォルマント合成

音声信号

TTS システムの流れ

読み形態素情報アクセント型

単語辞書文法

アクセント辞書韻律ルール

音声データベース

音韻記号列韻律記号列

Page 4: TTS 技術の概要

基本概念(1):モーラ、アクセント型

トモダチ

フジサン

イロガミ

カガリビ

オトート

0型

1型

2型

3型

4型

平板型

中高型

尾高型

Page 5: TTS 技術の概要

基本概念(2):分節的特徴&韻律的特徴

分節的特徴( segmental features ):音韻記号( phonological symbol )に置き換えられる

韻律的特徴( prosodic features ):声の抑揚を表し、物理的には次の特徴量として表現される

基本周波数パターン( F0 パターン)音素の持続時間の推移パワーパターン

(韻律的特徴は超分節適特徴ともいわれる)

マイクロプロソディ:観測できるが、聴覚的には意味のない小さな変動

Page 6: TTS 技術の概要

Easy Q&A

質問 Q1 : What is アクセント核( accent nucleus )?

質問 Q2 :モーラ数が n のとき、アクセント型は何個あり得ますか?

Page 7: TTS 技術の概要

F0 Contour Model

lnF0(t) lnF

minApiGpi(t T )

i 1

IAaj{Gaj(t T

1j)

j 1

JGaj(t t

2j)}i

0

G tt

t

G tt

t

piit it

ajjt jt

( )exp( ) ( )

( )

( )min[ ( ) exp( ), ] ( )

( )

0

0 0

1 1 0

0 0

Page 8: TTS 技術の概要

Type of Command Symbol Initial Value

Phrase Command P1P2P3P0 (reset)

0. 350.250. 15

Accent Command(flat type)

FHFLFLL

0. 50.250.10

Accent Command(rise-and-fall type)

DHDLDLLA0 (reset)

0. 50.350. 15

韻律記号

Page 9: TTS 技術の概要

規則音声合成

入力文

形態素解析韻律結合音韻結合

フレーズ境界決定

音韻記号韻律記号

音声合成

音声

「昔話」むかし 普通名詞0型

はなし普通名詞0型

P1 mu DH ka shi ba A0 na shi P0

P1, FL, A0: 韻律記号mu, ka, shi, ba, na: 音韻記号

読み形態素アクセント型

構文解析

単語辞書 アクセント型辞書

Page 10: TTS 技術の概要

演習問題

長崎は今日も雨だった

Page 11: TTS 技術の概要

統計的手法に基づくイントネーションモデル

規則音声合成の問題点

•イントネーションに関するルールにはヒューリスティックな部分が大きい•ルールの作成が困難•新しいシステムの作成に伴うコストが高い

統計的な手法の導入

•ヒューリスティックスを統計的手法に置き換える•規則化できない部分も学習可能

Page 12: TTS 技術の概要

Prosodic Database

Statistical TrainingTTS intonation m

odel

TextSpeechLinguistic featuresProsodic features

TTS IntonationModel

Text TTS System F0 contour (intonation)

統計的手法に基づくイントネーションモデル

1) Training

2) Synthesis

Page 13: TTS 技術の概要

Tone Sequence Theory

Prosodic word (BI=2)

Intermediate phrase (BI=3)

Intonational phrase (BI=4)

L+H*

L*+H

H+L*

H*+L

L*

H*

%H

%L

H-

L-

H%

L%

Initial boundarytones

Pitch accenttones

Phrase accenttones

Final boundarytones

Page 14: TTS 技術の概要

ToBI 及び J-ToBI

韻律的特徴の記述法記述はあくまでも定性的

4つの層orthographic tiertone tierbreak index tiermiscellaneous tier

ToBIに基づくイントネーションモデルまずデータベースを作成統計的な手法で F0 range を求めるToBI に基づく韻律イベントと F0 range をもとに、 target point を決定Target point を直線、スプラインなどで補完する

問題点ラべリング作業が大変F0パターンを生成できるが、物理的根拠がない

Page 15: TTS 技術の概要

音声合成

韻律記号

音韻記号 合成器 音声

歴史1791年: von Kempelen による機械式音声合成器1939年: Dudley による Voder1970年: Klatt によるフォルマント合成器1984年: F0 生成モデル(藤崎&広瀬)1986年: PSOLA(Charpentier, F. and Moulines, E.)1995年: CHATR(Black,A. and Campbell,N.)

Page 16: TTS 技術の概要

合成方式

フォルマント合成方式音声信号の共振周波数を実現する方式

波形編集方式波形データベースから音声を切り取ってつなぐ方式

その他声道アナログ合成方式パラメータ結合方式( LPC )Sinusoidal Modeling

Page 17: TTS 技術の概要

波形編集方式

韻律記号音韻記号

音声データベース

音声単位選択

音韻環境(前後の音素)接続環境( F0, パワー)

音声単位の加工、接続 (PSOLA等 )

音声

Page 18: TTS 技術の概要

PSOLA

Pitch-Synchronous Overlap-Add

a) Original

b) F0 increase

c) Duration increase

利点:簡単速い

欠点:Pitch Marking が必要合成単位の接続にクリップ音が生じる

Page 19: TTS 技術の概要

GLOTTALGENERATOR

FRICATIVEGENERATOR

IMPULSEGENERATOR

AF

AS

AG

AN

AA

+

NASAL PATH

VOWEL PATH

FRICATIVE PATH

STOP PATH

+

F0

OUTPUT

フォルマント合成方式

Page 20: TTS 技術の概要

TTS 技術の評価ガイドライン:JEIDA Guideline for Speech Synthesizer Evaluation, 3/95

テキスト解析の評価•漢字かな変換•形態素解析の誤り

明瞭制•音素・単語・文

自然性•韻律的特徴•分節的特徴•好ましさ

Page 21: TTS 技術の概要

TTS 技術の現在と未来 入力文

テキスト分析

形態素解析構文解析

音韻処理・韻律処理

音韻記号列や韻律記号列の生成

音声合成

波形編集またはフォルマント合成

音声信号

読み形態素情報アクセント型

単語辞書文法

アクセント辞書韻律ルール

音声データベース

音韻記号列韻律記号列

•形態素解析とテキスト分析•コーパスを用いた音韻・韻律情報の生成•合成単位の選択・接続方式•音声分析と生成モデル(フォルマント方式)•対話音声の韻律的特徴(感情、卓立など)•アプリケーション(対話システム、音声認識技術との組合わせ)•評価•etc., etc.