1
分析プログラム開 発・データ解析 サーバークライアント方式 の自律学習支援システム 豪話者の日本語教育システム 豪・グリフィス大学で稼働 中の発音評価システム ♪まずは理論の構築から♪ 中国語方言に基づく話者の自動分類 色々な方言の話者 ... 構造的 音響量 年齢・性別とは無関係に,方言差のみによる話者分類 ♪音声を認知する基礎技術♪ ♪音声を生成する基礎技術♪ ♪実用アプリケーションの開発♪ 音,それは単なる O2, N2, CO2 等の震動現象でしかない. この震動現象の中に,我々は様々な情報を埋め込み,伝搬し,そ して抽出する.そう,音声,そして音楽のことである. サルとヒト「視覚の世界は両者で共通しているが,聴覚の世界は 全く異なる」と言われている.何が違うのだろうか? ヒトは空気の震動に対する情報処理として,何を獲得し,音声言 語を,音楽を所有するに至ったのだろうか? この謎解きをしながら,新しい技術を世界に発信している. 変形しても不変な情報・構造が潜んでいる・・ 直接見える・聞こえるモノではない,その裏側に潜んでいる構造を暴き出せ! (x, y ) (u, v ) x y u v A B p 1 (x, y) p 2 (x, y) P 1 (u, v) P 2 (u, v) f div f div 変形・・それは空間写像 写像不変・・それはトポロジー(位相幾何学) 変形不変な f-divergence に 基づく構造表象を通して 様々なメディア情報 処理を捉え直す. f div (p 1 (x),p 2 (x)) = p 2 (x)g p 1 (x) p 2 (x) dx サルからヒトへの変化を計算機上に実装 すると計算機はどう変化する? ? 様々な変形を被って も,我々は容易に同 一性を認知できる. (知覚の恒常性) サルは視覚刺激には 強いが,聴覚刺激の 変形には弱い. 空間写像に基づく手運動からの音声生成 発話障害者支援技術 音声空間 b (b 1, b 2, b 3, … b n) ジェスチャー空間 a (a 1, a 2, a 3, … a n) 舌の音色空間を手の動き空間に貼付ける ぬ,ぬぁんと, ではなくでしゃべることができるようになる 音声の話者性の違いに表れる 幾何学的特性の分析 音声の話者性の違いの大きな要因として声道長 (喉の長さ)の違いがある. この話者性の違いの特徴量空間における影響を数 学的・幾何学的な観点から分析することで、新た な音声の情報表現を構築している. R t R = RR t = I det R = +1 R 2 (θ )= cos θ - sin θ sin θ cos θ R n (Θ)= R 2 (θ 1 ) ··· 0 . . . . . . . . . 0 ··· R 2 (θ m ) -150 -100 -50 0 50 100 150 0 50 100 150 200 250 300 350 Rotation Angle [deg] Estimated Body Height [cm] original height eqn. 8 構築した理論を通して、実際の音声の分析結果と照らし合わせる. 声道長の違いを表す行列を線形代数を通して分析する.すると多 次元空間における回転という性質が見えてくる. 最適なセグメンテーション ボトムアップクラスタリングによる 音声の自動セグメンテーション 音声の構造表象に基づく音声認識 話者が違えば,たとえ同じ言葉を話したとして も,音声の物理的実体は異なる話者の体調,収録機器の音響特性,伝送路など によっても音声の物理的実体は歪む現在主流の音声の実体を直接的に比較する音声 認識手法は,音声の歪み・変形に弱い変形に不変な音声の構造的表象を用いることで 音声の歪みに非常に頑健な音声認識が可能. 即ち,声の変形に超強い情報処理を実装. 音の変形に強いのがヒト,弱いのがサル c 1 c 3 c 2 c 1 c 3 c 2 c 4 c D c 4 c D 3. Cepstrum distribution sequence (HMM) 5. Structure (distance matrix) 1. Speech waveforms 2. Cepstrum vector sequence 4. Bhattacharyya distances 0 0 0 0 0 s = (s , s , ... ) 1 2 structure vector f-div 距離 確率的セグメンテーションモデル x 1 x e1 r 1 x s2 x e2 r 2 x sk x ek r k s 1 s 2 s k Sequence X Source R x 2 236cm 73cm 「お?君の声,今日はなんだか すんごい,回転してる ね~~」 0 20 40 60 80 100 従来手法 提案手法 長 ← 発声者の身長 → 短 英語発音クリニック MtFボイストレーニングの技術的支援 完全なる変換不変量・ それは f-divergence シャドーイング音声 (非常に崩れた音声) 学習者のTOEICスコアもズバリ予測! シャドーイング音声の自動採点 音節の数を数え上げる (音節法) or 単語の数を数え上げる (Check-point法,全単語法) 長時間労働 手動評価 凡そ音素に相当する大きさで 音声を自動で分ける or 音響モデルと比較して発音 スコアを計算 自動評価 PC上の分析 手動評価 ≒ 自動評価 誰の発音と比較したい? まずは先生を選ぼう! フムフム,君はXXな癖があるな. ここから直すのが最短コースだ! 教師 教師 一週間の発音矯正 の効果は如何に? 一週間後 49M 62M 49F 45F 77F 22F 84M 22F 32F 23F 16M 66M 64F 22M 65M 38M 25M 61M 44M 16M 16M 27F 26M 26M 62M 76M 23M 38F 22M 26M 32M 22M 49F 36F 43M 36M 36F 26M 28M 30M 28M 60M 57F 57F 48M 38M 58M 24F 25F 24M 25M 42F 28M 51M 31F 24M 48F 45M 14F 68F 27F 08F 39M 69M 11M 35F 51F 54F 15M 46F 36M 42F 32M 44M 09F 33F 56M 38M 50M 25M 21M 23M 16F 17F 23M 46M 39F 52M 30M 50M 50F 47M 29F 32M 48M 16F 17F 38M 18M 24M 39M 34F 32M 28M 20M 50F 15F 10F 45M 21M 51F 23F 24M 23M 71M 63F 21M 21F 25F 27M 17F 17M 16M 17M 17M 45M 70M 51M 17M 17M 17M 17M 44M 31M 06M 56M 56F 23M 52M 19M 61M 43M 41F 29M 19F 19F 26M 42M 41F 28M 30M 50F 23M 23M 16M 57M 25M 25M 28F 58F 24F 30M 22M 24M 20M 24M 26M 24M 24F 27F 24M 49F 24F 38M 25M 54M 16F 17F 16F 16F 26M 55F 67M 30F 35F 57M 16M 17M 16M 17M 17M 17M 16M 16M 23M 21F 25M 57F 57M 21F 49F 25F 37F 72M 40F 40F 80M 70M 21M 21M 22M 23M 31M 24M 22M 24M 65M 25M 25M 24M 27M 26F 26F 41F 20M 32M 27F 42M 35F 34M 08F 30F 11F 06M 43F 44M 50F 52M 44M 63M 58F 59F 68M 21M 26M 47F 21M 33F 25M 36M 47M 43F 66M 25M 24M 54F 21M 53M 20M 21M 21M 21M 21M 43F 51F 28F 35M 25M 66F 73M 29M 10F 38M 40M 21M 11F 12F 12F 44F 51M 39M 11F 14M 47M 07M 22M 11M 10M 09M 07M 28F 36M 27F 09M 37F 35M 17F 35F 35M 38M 33F 07F 36M 09F 12M 04F 35F 30F 24M 67F 24M 23M 30F 60F 60M 10M 09M 52M 21M 23M 22F 38F 44M 08M 10F 23M 36M 24M 39F 24F 24F 48F 52M 28M 45F 45M 32F 56F 61M 32M 38F 20F 22M 11F 43M 46F 12M 22M 21F 42F 12F 56M 25M 25M 59F 70M 64M 64F 67M 74M 31F 74M 60F 31F 24M 49F 73M 65F 42F 23M 17F 17F 17F 16F 17F 72M 71F 73M 75F 62M 70M 48M 23F 30M 61F 84M 16F 17F 29M 60F 23M 38F 70F 55F 36F 58F 24F 68M 29M 29M 22M 26F 24M 25M 22F 25F 35M 52F 22M 24M 25M 40M 35F 28F 10M 06M 45M 38F 71F 09F 33F 30F 05F 07M 11M 40M 16M 12M 51M 08M 42M 11M 24M 67M 68M 65M 64M 64M 69M 23M 38M 13M 13M 40F 14M 09F 10F 22M 22M 60M 56F 55M 47F 21M 22M 34F 10F 07M 57M 14F 21F 36M 19M 35F 06M 06F 53M 33F 47F 66M 63F 24F 25M 17M 31M 52F 14F 30F 29M 58F 28M 33F 32M 54F 62F 11F 18F 24M 36F 56M 46M 22M 38F 08F 22F 21M 54M 45M 41F 14F 06M 39F 09M 11M 44F 26F 44M 41F 16M 43M 24F 24F 63M 47M 05F 31F 33F 23M 24M 37M 34F 05F 36F 39M 53M 50F 24F 17M 24F 14M 13M 45F 12M 23F 27M 45F 21M 24M 47M 07F 25M 48M 14M 44F 44M 41F 22F 21M 46F 48M 33F 33M 27M 53F 11F 49F 53M 13M 14M 29F 21F 40F 10F 42F 476 145 537 422 317 073 184 394 067 051 309 088 364 036 004 125 401 553 329 390 166 434 180 484 149 562 223 183 057 557 464 486 094 091 455 539 042 093 228 488 481 475 559 368 117 519 081 026 498 007 467 500 062 083 197 490 393 536 307 165 515 379 052 556 319 092 469 550 264 517 441 038 105 459 331 524 283 101 179 190 292 178 206 384 354 491 020 507 089 104 237 174 558 226 318 041 446 440 087 230 298 034 528 449 102 188 356 258 176 462 186 013 480 256 413 460 235 185 451 560 147 175 225 327 325 220 404 454 313 443 112 311 285 456 096 079 116 275 334 080 240 479 453 128 084 115 086 123 518 497 333 540 100 561 071 140 068 164 531 261 015 525 134 544 514 085 130 078 168 167 182 503 064 472 017 132 200 009 196 156 234 533 495 294 049 324 312 420 030 273 155 122 373 276 513 511 243 399 416 535 002 305 564 520 326 151 008 247 129 194 106 474 218 076 381 146 161 308 328 542 269 315 019 142 300 281 239 336 056 158 219 229 439 343 534 349 505 111 272 127 438 153 452 496 545 046 010 163 499 304 429 299 144 216 538 148 351 131 095 187 066 314 437 414 138 382 522 110 423 376 271 217 386 397 403 489 385 555 552 448 532 527 371 137 274 353 143 063 268 551 241 458 358 427 195 478 530 012 363 032 359 372 378 322 267 392 303 493 502 279 124 266 365 260 370 417 426 025 339 341 024 109 442 410 350 463 321 108 193 316 282 465 050 074 521 288 082 406 444 023 054 504 029 408 072 293 501 543 432 133 323 152 090 512 357 204 263 070 251 157 295 249 412 398 253 421 375 407 061 278 021 297 419 425 286 352 547 055 150 139 395 236 445 003 181 457 428 529 028 516 011 257 214 018 201 044 208 246 494 006 470 238 287 171 369 099 310 211 377 209 103 523 320 338 374 345 265 361 306 330 040 433 136 159 033 212 262 367 177 043 296 477 466 250 192 402 222 233 198 468 436 098 411 207 430 337 506 097 415 435 342 053 224 391 380 546 396 383 447 005 347 485 119 554 022 355 366 059 526 114 245 047 077 284 563 060 302 189 487 160 118 141 172 252 270 215 016 126 069 290 232 332 121 387 035 548 221 280 027 277 335 289 014 346 259 291 255 037 510 492 227 173 549 340 405 107 450 162 203 231 065 389 213 254 045 191 113 058 202 205 431 242 301 362 541 135 031 509 473 248 409 483 039 482 210 169 344 120 348 170 154 360 471 418 075 461 048 244 508 400 199 388 424 001 Gxx gle Pronunciaton in Kashiwa Area 700名の日本人英語の発音分類/日本人英語の典型的な型の定義 全人類の英語発音の分類とて,不可能ではない! 関数 g を変えると 様々な距離尺度に テキスト音声合成においてアクセント結合を適 切に処理 アクセント結合処理の高精度化 条件付き確率場を用いた統計的な手法により高 精度なアクセント処理が可能 あ’か+えんぴつ → あかえ’んぴつ ( ’:アクセントの位置) 複数単語が連結する際にアクセント位置が変化 する・・・「アクセント結合より自然なテキスト読み上げ 構造表象に基づく音声合成 幼児の音声模倣の実現 従来の音声合成は文字(音素)列から音声への 変換.モデル化対象は学習話者の声そのもの. 一方幼児は,両親の声の声帯模写はしない. 幼児は両親の声からの音素抽出は困難.幼児研 究によれば,単語全体の語形を抽出し,それを 自らの小さな喉で再生しようとする. 話者不変の音声の構造表象に基づく 音声模倣プロセスの計算機上の実装 構造+身体=音響 身体性を捨てたモデル化 おはよう おはよう 身体パラメータ→幾つかの絶対量を既知 構造を空間に定位 距離関係と絶対量で得られる連立方程式を解く 複数の解を平均化 大きな喉 ちっちゃな喉 峯松研究室 さぁ,はじけちまおうぜぃ! よく学び,よく遊び,よく飲み,よく食い,そして,よく出かける・・・ 確率的線形回帰混合モデルを用いた音声変換 音声変換とは,ある人の声を別の人の声に変換すること. 確率的線形回帰混合モデルとは Source space S x Virtual spaces (Gray level for density p(x|k) ) S 1 S 2 S K p(1|x) Prb. Linear Regr. A 1 x A 2 x A K x Mix. Of Prb. Linear Regression y=! p(k|x) A k x Posterior Prb. Prior Prb. p(1) p(2) p(K) p(2|x) p(K|x) 広瀬研の皆さんと

G ¦Z èmine/poster.pdf(Check-point法,全単語法) 長時間労働 手動評価 凡そ音素に相当する大きさで 音声を自動で分ける or 音響モデルと比較して発音

  • Upload
    phamque

  • View
    214

  • Download
    0

Embed Size (px)

Citation preview

Page 1: G ¦Z èmine/poster.pdf(Check-point法,全単語法) 長時間労働 手動評価 凡そ音素に相当する大きさで 音声を自動で分ける or 音響モデルと比較して発音

分析プログラム開発・データ解析

サーバークライアント方式の自律学習支援システム

豪話者の日本語教育システム

豪・グリフィス大学で稼働中の発音評価システム

♪まずは理論の構築から♪

中国語方言に基づく話者の自動分類色々な方言の話者

...

構造的音響量

年齢・性別とは無関係に,方言差のみによる話者分類

♪音声を認知する基礎技術♪

♪音声を生成する基礎技術♪ ♪実用アプリケーションの開発♪

音,それは単なる O2, N2, CO2 等の震動現象でしかない.この震動現象の中に,我々は様々な情報を埋め込み,伝搬し,そして抽出する.そう,音声,そして音楽のことである.サルとヒト「視覚の世界は両者で共通しているが,聴覚の世界は全く異なる」と言われている.何が違うのだろうか?ヒトは空気の震動に対する情報処理として,何を獲得し,音声言語を,音楽を所有するに至ったのだろうか?この謎解きをしながら,新しい技術を世界に発信している.

変形しても不変な情報・構造が潜んでいる・・直接見える・聞こえるモノではない,その裏側に潜んでいる構造を暴き出せ!

(x, y)

(u, v)

x

y

u

vA

B

p1(x, y)

p2(x, y)

P1(u, v)

P2(u, v)

fdivfdiv

変形・・それは空間写像 写像不変・・それはトポロジー(位相幾何学)

変形不変な f-divergence に基づく構造表象を通して様々なメディア情報処理を捉え直す.

fdiv(p1(x), p2(x)) =!

p2(x)g"

p1(x)p2(x)

#dx

サルからヒトへの変化を計算機上に実装すると計算機はどう変化する?

?

A scale in LilyPond

!" "" "" " #" " #$ % &"" '" "#

Music engraving by LilyPond 2.10.20—www.lilypond.org

A scale in LilyPond

!! !" ! #$ $ %! ! !& !$ ! !! !

Music engraving by LilyPond 2.10.20—www.lilypond.org

様々な変形を被っても,我々は容易に同一性を認知できる.(知覚の恒常性)サルは視覚刺激には強いが,聴覚刺激の変形には弱い.

空間写像に基づく手運動からの音声生成発話障害者支援技術

音声空間

b (b 1, b 2, b 3, … b n)

ジェスチャー空間

a (a 1, a 2, a 3, … a n)

舌の音色空間を手の動き空間に貼付ける

ぬ,ぬぁんと,口ではなく手でしゃべることができるようになる

音声の話者性の違いに表れる幾何学的特性の分析

音声の話者性の違いの大きな要因として声道長(喉の長さ)の違いがある.

この話者性の違いの特徴量空間における影響を数学的・幾何学的な観点から分析することで、新たな音声の情報表現を構築している.

RtR = RRt = I

det R = +1R2(!)=

!cos ! ! sin !sin ! cos !

"

R!n(!)=

!

"#R2(!1) · · · 0

.... . .

...0 · · · R2(!m)

$

%&-150-100

-50 0

50 100 150

0 50 100 150 200 250 300 350

Rotat

ion A

ngle

[deg]

Estimated Body Height [cm]

original height

eqn. 8

構築した理論を通して、実際の音声の分析結果と照らし合わせる.声道長の違いを表す行列を線形代数を通して分析する.すると多次元空間における回転という性質が見えてくる.

最適なセグメンテーション

ボトムアップクラスタリングによる音声の自動セグメンテーション

音声の構造表象に基づく音声認識話者が違えば,たとえ同じ言葉を話したとしても,音声の物理的実体は異なる.話者の体調,収録機器の音響特性,伝送路などによっても音声の物理的実体は歪む.

現在主流の音声の実体を直接的に比較する音声認識手法は,音声の歪み・変形に弱い.変形に不変な音声の構造的表象を用いることで音声の歪みに非常に頑健な音声認識が可能.即ち,声の変形に超強い情報処理を実装.音の変形に強いのがヒト,弱いのがサル

c1

c3c2

c1

c3c2c4

cD

c4

cD

3. Cepstrum distribution sequence (HMM)

5. Structure (distance matrix)

1. Speech waveforms

2. Cepstrum vector sequence

4. Bhattacharyya distances

00

00

0

s = (s , s , ... )1 2structure vector

f-div 距離

確率的セグメンテーションモデル

x1 … xe1

r1

xs2 … x

e2

r2

… xsk … x

ek

rk

s1 s2s

k

Sequence X

Source R

x2

236cm73cm

「お?君の声,今日はなんだか    すんごい,回転してる      ね~~」

0

20

40

60

80

100

単語認識精度

従来手法

提案手法

長 ← 発声者の身長 → 短

英語発音クリニック

MtFボイストレーニングの技術的支援

完全なる変換不変量・それは f-divergence

シャドーイング音声(非常に崩れた音声)

学習者のTOEICスコアもズバリ予測!

シャドーイング音声の自動採点

音節の数を数え上げる(音節法)or

単語の数を数え上げる(Check-point法,全単語法)

長時間労働手動評価

凡そ音素に相当する大きさで音声を自動で分ける

or音響モデルと比較して発音

スコアを計算

自動評価PC上の分析

手動評価 ≒ 自動評価

誰の発音と比較したい?まずは先生を選ぼう!

フムフム,君はXXな癖があるな.

■お待ちかね。「あなた」の分析結果を見てみよう!分析結果を二つの母音図と一緒に示します。チェックポイントはおよそ以下に示す通りです。

♪♪チェックポイントはここ!!さあ,自分の発音を “自分で”チェックしてみよう!!♪♪• æと E この二つはいっつも仲良しです。あなたの発音はどうなってますか?• Iと i これはかなり違う音ですよ。Iは「イ」と「エ」の中間音とも言われます。• Iと,Eやæ その結果,Iは Eやæに似くるはずですが,あなたの発音ではどうなってます?• Aと O アメリカ英語では,これらが似ている方言もあります。母音図で Oが下がってきます。• @と,2や Aやæ 後ろ三つは舌を下げる音です。@がこれらと似てたら重傷。救急車呼びます。• @とÄ この二つが仲良し,という人もいるかもしれませんね~。どうです?あなたの場合。• Ä 実は rと殆ど同じです。母音として使われるのか,子音として使われるのか,の違いだけ。

■さてさて,どこから直していこうか。よ~く,考えてみよう!あなたの分析結果を,あなたが選んだ二人の先生と比較して「どの母音から直すべきなのか」を示します。目標とする発音に到達するための最短コース,という訳です。スコアの高い母音(より左に示されている母音)ほど「重傷」で,緊急入院が必要な母音です。20程度であれば,ほおっておいて大丈夫ですよ。さてさて,どんな結果が出てますか?ゴールまでの道のりは長いですか?短いですか?

どちらの先生に近づきたいかによって,結果が少し異なるでしょう。英語は方言によって母音の音質・音色が変わりますから,先生が,どの地方の出身なのかによって直すべき母音が変わってきます。もちろん先生の発音は両親(異なる方言話者かもしれない)の発音の影響を強く受けています。結局,厳密には,み~んな一人一人違う発音になっています。大切なのは,相手の心に届く「あなた自身」の英語発音を身につけることです。一人よがりじゃいけません。相手あっての言葉ですから。

ここから直すのが最短コースだ!

教師 教師一週間の発音矯正の効果は如何に?

一週間後

49M

62M

49F

45F

77F

22F

84M

22F

32F

23F

16M

66M

64F

22M

65M

38M

25M

61M

44M

16M

16M

27F

26M

26M

62M

76M

23M

38F

22M

26M

32M

22M

49F

36F

43M

36M

36F

26M

28M

30M

28M

60M

57F

57F

48M

38M

58M

24F

25F

24M

25M

42F

28M

51M

31F

24M

48F

45M

14F

68F

27F

08F

39M

69M

11M

35F

51F

54F

15M

46F

36M

42F

32M

44M

09F

33F

56M

38M

50M

25M

21M

23M

16F

17F

23M

46M

39F

52M

30M

50M

50F

47M

29F

32M

48M

16F

17F

38M

18M

24M

39M

34F

32M

28M

20M

50F

15F

10F

45M

21M

51F

23F

24M

23M

71M

63F

21M

21F

25F

27M

17F

17M

16M

17M

17M

45M

70M

51M

17M

17M

17M

17M

44M

31M

06M

56M

56F

23M

52M

19M

61M

43M

41F

29M

19F

19F

26M

42M

41F

28M

30M

50F

23M

23M

16M

57M

25M

25M

28F

58F

24F

30M

22M

24M

20M

24M

26M

24M

24F

27F

24M

49F

24F

38M

25M

54M

16F

17F

16F

16F

26M

55F

67M

30F

35F

57M

16M

17M

16M

17M

17M

17M

16M

16M

23M21F

25M

57F

57M

21F

49F

25F

37F

72M

40F

40F

80M

70M

21M

21M

22M

23M

31M

24M

22M

24M

65M

25M

25M

24M

27M

26F

26F

41F

20M

32M

27F

42M

35F

34M

08F

30F

11F

06M

43F

44M

50F

52M

44M

63M

58F

59F

68M

21M

26M

47F

21M

33F

25M

36M

47M

43F

66M

25M

24M

54F

21M

53M

20M

21M

21M

21M

21M

43F

51F

28F

35M

25M

66F

73M

29M

10F

38M

40M

21M

11F

12F

12F

44F

51M

39M

11F

14M

47M

07M

22M

11M

10M

09M

07M

28F

36M

27F

09M

37F

35M

17F

35F

35M

38M

33F

07F

36M

09F

12M

04F

35F

30F

24M

67F

24M

23M

30F

60F

60M

10M

09M

52M

21M

23M

22F

38F

44M

08M

10F

23M

36M

24M

39F

24F

24F

48F

52M

28M

45F

45M

32F

56F

61M

32M

38F

20F

22M

11F

43M

46F

12M

22M

21F

42F

12F

56M

25M

25M

59F

70M

64M

64F

67M

74M

31F

74M

60F

31F

24M

49F

73M

65F

42F

23M

17F

17F

17F

16F

17F

72M

71F

73M

75F

62M

70M

48M

23F

30M

61F

84M

16F

17F

29M

60F

23M

38F

70F

55F

36F

58F

24F

68M

29M

29M

22M

26F

24M

25M

22F

25F

35M

52F

22M

24M

25M

40M

35F

28F

10M

06M

45M

38F

71F

09F

33F

30F

05F

07M

11M

40M

16M

12M

51M

08M

42M

11M

24M

67M

68M

65M

64M

64M

69M

23M

38M

13M

13M

40F

14M

09F

10F

22M

22M

60M

56F

55M

47F

21M

22M

34F

10F

07M

57M

14F

21F

36M

19M

35F

06M

06F

53M

33F

47F

66M

63F

24F

25M

17M

31M

52F

14F

30F

29M

58F

28M

33F

32M

54F

62F

11F

18F

24M

36F

56M

46M

22M

38F

08F

22F

21M

54M

45M

41F

14F

06M

39F

09M

11M

44F

26F

44M

41F

16M

43M

24F

24F

63M

47M

05F

31F

33F

23M

24M

37M

34F

05F

36F

39M

53M

50F

24F

17M

24F

14M

13M

45F

12M

23F

27M

45F

21M

24M

47M

07F

25M

48M

14M

44F

44M

41F

22F

21M

46F

48M

33F

33M

27M

53F

11F

49F

53M

13M

14M

29F

21F

40F

10F

42F

476

145

537

422

317

073

184

394

067

051

309

088

364

036

004

125

401

553

329

390

166

434

180

484

149

562

223

183

057

557

464

486

094

091

455

539

042

093

228

488

481

475

559

368

117

519

081

026

498

007

467

500

062

083

197

490

393

536

307

165

515

379

052

556

319

092

469

550

264

517

441

038

105

459

331

524

283

101

179

190

292

178

206

384

354

491

020

507

089

104

237

174

558

226

318

041

446

440

087

230

298

034

528

449

102

188

356

258

176

462

186

013

480

256

413

460

235

185

451

560

147

175

225

327

325

220

404

454

313

443

112

311

285

456

096

079

116

275

334

080

240

479

453

128

084

115

086

123

518

497

333

540

100

561

071

140

068

164

531

261

015

525

134

544

514

085

130

078

168

167

182

503

064

472

017

132

200

009

196

156

234

533

495

294

049

324

312

420

030

273

155

122

373

276

513

511

243

399

416

535

002

305

564

520

326

151

008

247

129

194

106

474

218

076

381

146

161

308

328

542

269

315

019

142

300

281

239

336

056

158

219

229

439

343

534

349

505

111

272

127

438

153

452

496

545

046

010

163

499

304

429

299

144

216

538

148

351

131

095

187

066

314

437

414

138

382

522

110

423

376

271

217

386

397

403

489

385

555

552

448

532

527

371

137

274

353

143

063

268

551

241

458

358

427

195

478

530

012

363

032

359

372

378

322

267

392

303

493

502

279

124

266

365

260

370

417

426

025

339

341

024

109

442

410

350

463

321

108

193

316

282

465

050

074

521

288

082

406

444

023

054

504

029

408

072

293

501

543

432

133

323

152

090

512

357

204

263

070

251

157

295

249

412

398

253

421

375

407

061

278

021

297

419

425

286

352

547

055

150

139

395

236

445

003

181

457

428

529

028

516

011

257

214

018

201

044

208

246

494

006

470

238

287

171

369

099

310

211

377

209

103

523

320

338

374

345

265

361

306

330

040

433

136

159

033

212

262

367

177

043

296

477

466

250

192

402

222

233

198

468

436

098

411

207

430

337

506

097

415

435

342

053

224

391

380

546

396

383

447

005

347

485

119

554

022

355

366

059

526

114

245

047

077

284

563

060

302

189

487

160

118

141

172

252

270

215

016

126

069

290

232

332

121

387

035

548

221

280

027

277

335

289

014

346

259

291

255

037

510

492

227

173

549

340

405

107

450

162

203

231

065

389

213

254

045

191

113

058

202

205

431

242

301

362

541

135

031

509

473

248

409

483

039

482

210

169

344

120

348

170

154

360

471

418

075

461

048

244

508

400

199

388

424

001

Gxxgle Pronunciaton in Kashiwa Area

700名の日本人英語の発音分類/日本人英語の典型的な型の定義全人類の英語発音の分類とて,不可能ではない!

ま ず  は   中    国     制      覇       か        ら         ?

関数 g を変えると様々な距離尺度に

テキスト音声合成においてアクセント結合を適切に処理

アクセント結合処理の高精度化

条件付き確率場を用いた統計的な手法により高精度なアクセント処理が可能

あ’か+えんぴつ → あかえ’んぴつ( ’:アクセントの位置)

複数単語が連結する際にアクセント位置が変化する・・・「アクセント結合」

より自然なテキスト読み上げ

構造表象に基づく音声合成幼児の音声模倣の実現

従来の音声合成は文字(音素)列から音声への変換.モデル化対象は学習話者の声そのもの.一方幼児は,両親の声の声帯模写はしない.幼児は両親の声からの音素抽出は困難.幼児研究によれば,単語全体の語形を抽出し,それを自らの小さな喉で再生しようとする.

話者不変の音声の構造表象に基づく音声模倣プロセスの計算機上の実装

構造+身体=音響身体性を捨てたモデル化

おはよう

おはよう

身体パラメータ→幾つかの絶対量を既知構造を空間に定位

距離関係と絶対量で得られる連立方程式を解く

複数の解を平均化

大きな喉

ちっちゃな喉

峯松研究室さぁ,はじけちまおうぜぃ!

よく学び,よく遊び,よく飲み,よく食い,そして,よく出かける・・・

確率的線形回帰混合モデルを用いた音声変換音声変換とは,ある人の声を別の人の声に変換すること.

確率的線形回帰混合モデルとは

Source space Sx

Virtual spaces

(Gray level for

density p(x|k) )

S1S2

SK

p(1|x)

Prb. Linear Regr. A1x A2x AKx

Mix. Of Prb. Linear Regression y=! p(k|x) Akx

Posterior Prb.

Prior Prb. p(1) p(2) p(K)

p(2|x) p(K|x)…

広瀬研の皆さんと