103
音情報処理論 2018 中村 高道愼之介 Sakriani Sakti 吉野幸一郎 Satoshi Nakamura @ NAIST 2016 1 2016/10/4

音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

  • Upload
    others

  • View
    5

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

音情報処理論 2018

中村 哲高道愼之介

Sakriani Sakti吉野幸一郎

Satoshi Nakamura @ NAIST 2016 12016/10/4

Page 2: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

Speech Processing 2018

Satoshi NakamuraShinnosuke Takamichi

Sakriani SaktiKoichiro Yoshino

Satoshi Nakamura @ NAIST 2016 22016/10/4

Page 3: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

音声って何

人のコミュニケーションで意図を伝える最も重要な手段

– 音声を圧縮する

– 音声を作る

– 音声を聞き取る

– さらに、音響信号の処理

Satoshi Nakamura @ NAIST 2016 32016/10/4

Page 4: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

What is speech

The most natural human communication means.

– Speech Compression

– Speech Generation

– Speech Recognition

– Speech Signal Processing

+

– Acoustic signal processing

Satoshi Nakamura @ NAIST 2016 42016/10/4

Page 7: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

Apple Siri

Satoshi Nakamura @ NAIST 2016 7

音声で問い合わせ!

2016/10/4

Page 11: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

何が難しいのか

音声合成

– 録音して再生する?

– テキストから音声を合成?

– どんな声でも?

– 怒ったり、泣いたりできる?

音声認識

– 一人の人の声を認識するとは?

– 違う人、男女、子供だと?

– アクセント、方言、外来語は?

– 感情的な音声は?

– 音響的な外乱は?

音声対話– 人間のように対話するとは???

Satoshi Nakamura @ NAIST 2016 112016/10/4

Page 12: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

What are the difficulties?

Speech Synthesis

– Record and playback?

– Synthesize from texts

– Any voice?テキストから音声を合成?

– Cry, Angry voices?

Speech Recognition

– Recognize any voice?

– Different speaker, gender, child

– Local accents, dialects, loan words

– Emotional speech

– Acoustic interference

Spoken Dialog

– Spoken dialog by machine like human being?

Satoshi Nakamura @ NAIST 2016 122016/10/4

Page 13: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

本講義の狙い

音声とは何か

音声情報を使ったヒューマンインタフェース

– 音声認識

– 音声合成

– 音声対話

– 音声翻訳

– さらに音響信号処理

これらの技術の中身はどうなっているのか?

Satoshi Nakamura @ NAIST 2016 132016/10/4

Page 14: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

Lecture goal

What is speech?

Human interface by speech information

– Speech recognition

– Speech synthesis

– Spoken dialog

– Acoustic signal processing

What are the state-of-the-art technologies ?

Satoshi Nakamura @ NAIST 2016 142016/10/4

Page 15: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

講義の構成

1. 11/2 音情報基礎 中村 音情報基礎(音声、音響情報処理の導入、基礎):Introduction to speech and acoustic signal processing

2. 11/6 音声の分析 高道 音声の特徴抽出(DFT,LPC,ケプストラム分析):Speech signal processing (DFT, LPC analysis)

3. 11/8 音響信号処理基礎 高道 音響信号処理基礎:Fundamentals of acoustic signal processing

4. 11/12 音声符号化基礎 中村 音声符号化基礎:Fundamentals of Speech Coding

5. 11/14 音声認識理論と音声認識システム Sakti 音声認識理論と音声認識システム:Speech recognition theory and system

6. 11/16 音声合成理論と音声合成システム 高道 音声合成理論と音声合成システム:Speech synthesis theory and system

7. 11/20 音声対話システム理論と音声対話システム 吉野 音声対話システム理論と音声対話システム: Spoken dialog system theory and system

8. 11/22 質疑、試験 中村

Satoshi Nakamura @ NAIST 2016 152016/10/4

Page 16: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

講義の構成

1. 11/2 音情報基礎 中村 音情報基礎(音声、音響情報処理の導入、基礎):Introduction to speech and acoustic signal processing

2. 11/6 音声の分析 高道 音声の特徴抽出(DFT,LPC,ケプストラム分析):Speech signal processing (DFT, LPC analysis)

3. 11/8 音響信号処理基礎 高道 音響信号処理基礎:Fundamentals of acoustic signal processing

4. 11/12 音声符号化基礎 中村 音声符号化基礎:Fundamentals of Speech Coding

5. 11/14 音声認識理論と音声認識システム Sakti 音声認識理論と音声認識システム:Speech recognition theory and system

6. 11/16 音声合成理論と音声合成システム 高道 音声合成理論と音声合成システム:Speech synthesis theory and system

7. 11/20 音声対話システム理論と音声対話システム 吉野 音声対話システム理論と音声対話システム: Spoken dialog system theory and system

8. 11/22 質疑、試験 中村

Satoshi Nakamura @ NAIST 2016 162016/10/4

Page 17: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

採点基準

各回に課題を出します。• 1週間以内の提出

最終回に最終試験を行います。

この2つの合計点を元に採点します。

おおよそ、

(出席+演習)の合計%x0.3+最終試験%x0.7

が目安です。

Satoshi Nakamura @ NAIST 2016 172016/10/4

Page 18: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

Score standards

Attendance and home works at each class

• Report in one week

Final examination at the last class.

Sum of those two scores

Roughly speaking,

0.3x (Attendance+Homeworks)score%

+0.7x Final exam score %

We apply GPA normalization

Satoshi Nakamura @ NAIST 2016 182016/10/4

Page 19: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

今回の内容も試験に出ます。

Satoshi Nakamura @ NAIST 2016 192016/10/4

Page 20: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

Todays’ contents will be in the exam.

Satoshi Nakamura @ NAIST 2016 202016/10/4

Page 21: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

参考書

森北出版 音声工学 板橋秀一 編著

今日は、この本を参考にしています。

他に、

コロナ社 中村ら、「話し言葉の自動翻訳」

昭晃堂 鹿野、中村、伊勢

「音声・音情報のディジタル信号処理」

コロナ社 鹿野、武田ら 「音声認識システム」

近代科学社 古井、「新音響・音声工学」

Satoshi Nakamura @ NAIST 2016 212016/10/4

Page 22: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

References

Books in Japanese

– Speech Engineering, Shuichi Itahashi, Shoko-do publisher

– Automatic Translation of Spoken Language, Satoshi Nakamura, Corona Publisher, 2018

– Digital Signal Processing of Speech and Acoustic Signals, Kiyohiro Shikano, Satoshi Nakamura, Shiro Ise, Shoko-do publisher

– Speech Recognition, Kiyohiro Shikano, et al., Corona publisher

Satoshi Nakamura @ NAIST 2016 222016/10/4

Page 23: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

音声に関する研究

人間の発声器官、発声メカニズム

音の伝搬、音響工学、音響信号処理

人間の聴覚器官、聴取メカニズム

⇒ 生理学、心理学

言葉の理解、生成

⇒ 言語学

コンピュータによる実現

⇒ コンピュータサイエンス、情報工学

Satoshi Nakamura @ NAIST 2016 232016/10/4

Page 24: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

Research on Speech

Human speech production

Acoustic signal propagation, acoustic signal processing

Human auditory system, auditory organs, hearing mechanism

⇒ Physiology, Psychology

Language understanding, generation

⇒ Linguistics

Realization by computers

⇒ Computer sciences, infomatics

Satoshi Nakamura @ NAIST 2016 242016/10/4

Page 25: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

音声の生成

Satoshi Nakamura @ NAIST 2016 252016/10/4

Page 26: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

Speech production and hearing

Satoshi Nakamura @ NAIST 2016 262016/10/4

Speech chain

Speaker Nerve fibers ears

Acoustic signals

Speech organs ears

Listner

BrainBrain

Linguistic Physiological Acoustic Physiological Linguistic

Speech chain in speech generation and hearing in speaker and listener

Page 27: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

音声器官

Satoshi Nakamura @ NAIST 2016 272016/10/4

Page 28: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

Speech Organs

Satoshi Nakamura @ NAIST 2016 282016/10/4

Page 29: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

母音の分類

Satoshi Nakamura @ NAIST 2016 29

図2.1 母音の分類2016/10/4

Page 30: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

Vowel system

Satoshi Nakamura @ NAIST 2016 30

図2.1 母音の分類2016/10/4

Page 31: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

母音の性質

ホルマント、ホルマント周波数、ホルマント帯域幅

Satoshi Nakamura @ NAIST 2016 312016/10/4

Page 32: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

Formants

Formant

Formant frequency

Formant bandwidth

Satoshi Nakamura @ NAIST 2016 322016/10/4

Page 33: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

母音のホルマント

Satoshi Nakamura @ NAIST 2016 33図2.12 連続音声のF1-F2分布2016/10/4

Page 34: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

Formant Frequencies of Japanese Vowles

Satoshi Nakamura @ NAIST 2016 34図2.12 連続音声のF1-F2分布2016/10/4

Page 35: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

Consonants

Smivowles /j/ /w/

Plosives /p,t,k/ /b,d,g/

Satoshi Nakamura @ NAIST 2016 35図2.13 無声破裂音と有声破裂音2016/10/4

Page 36: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

子音

半母音 /j/ /w/

破裂音 /p,t,k/ /b,d,g/

Satoshi Nakamura @ NAIST 2016 36図2.13 無声破裂音と有声破裂音2016/10/4

waveform

vowelaspirationPlosivesilence

waveform

buzzy plosive vowel

Page 37: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

IPA

異音(allophone)

有声音、無声音

閉鎖音、破裂音、鼻音、破擦音

Satoshi Nakamura @ NAIST 2016 372016/10/4

Page 38: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

IPA

allophone

Voiced, unvoiced

Plosies, Stops, Nasal, Fricatives

Satoshi Nakamura @ NAIST 2016 382016/10/4

Page 39: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

調音結合

/aoi/青いの/a/は /aida/間 の/a/と調音点が異なる。

– /aoi/ の/a/は、後続の/o/に近い奥舌音

– /aida/の/a/は、後続の/i/に近い前よりの調音

これらを「調音結合」(Co-articulation)

あるいは、「同化」(assimilation)と呼ぶ

– 鼻音化:/namae/名前 /a/が鼻音化

– 無声化:/akita/, /yakusho/ 無声子音に挟まれた/i//u/ が無声化する

Satoshi Nakamura @ NAIST 2016 392016/10/4

Page 40: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

調音結合

/a/ is different between /aoi/ and /aida/

– /a/ in /aoi/ is close to /o/

– /a/ in /aida/ is close to /i/

Co-articulation

or Assimilation

– Nasalization :/namae/ /a/ is nasalized

– Un-vocalization:/i/ /u/ in /akita/, /yakusho/ are un-vocalized.

Satoshi Nakamura @ NAIST 2016 402016/10/4

Page 41: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

アクセント・イントネーション

高さアクセント

強さアクセント

文節要素(Segmental Phoneme)

パラ言語情報(Paralinguistic information)

Satoshi Nakamura @ NAIST 2016 412016/10/4

Page 42: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

Accent, Intonation

Tone accent

Stress accent

Segmental Phoneme

Paralinguistic information

Satoshi Nakamura @ NAIST 2016 422016/10/4

Page 43: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

文章発話の基本周波数

Satoshi Nakamura @ NAIST 2016 43図2.19 文章発話中の基本周波数2016/10/4

Page 44: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

Fundamental Frequencty

Satoshi Nakamura @ NAIST 2016 44図2.19 文章発話中の基本周波数2016/10/4

Niwa niwaniwatorigairu

Niwaniwaniwa torigairu

Niwa niwaniwa torigairu

Page 45: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

話し言葉

文が短い

主語などの省略が多い

短縮形を多用

ね、さ、よ、等の終助詞がつく

同じ言葉の繰り返しが多い

複雑な構文を避ける

時間的要素(忘却)が関与する

えー、あー、うーなどのいいよどみがある

言い誤り、言い直しが多い

Satoshi Nakamura @ NAIST 2016 452016/10/4

Page 46: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

Spoken Language

Short phrases

Subjects omitted

Short expression

/ne, sa, yo/ post positional particles

Rephrases

Simple synthax

Temporal structures

/e-, a-, u-/ fillers, laughters

Restart, mistakes

Satoshi Nakamura @ NAIST 2016 462016/10/4

Page 47: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

聴覚器官

Satoshi Nakamura @ NAIST 2016 472016/10/4

Page 48: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

Auditory Organs

Satoshi Nakamura @ NAIST 2016 482016/10/4

Page 49: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

蝸牛

Satoshi Nakamura @ NAIST 2016 492016/10/4

Page 50: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

Cochlear

Satoshi Nakamura @ NAIST 2016 502016/10/4

Page 51: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

蝸牛断面

Satoshi Nakamura @ NAIST 2016 512016/10/4

Page 52: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

蝸牛断面

Satoshi Nakamura @ NAIST 2016 522016/10/4

Page 53: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

基底膜振動

Satoshi Nakamura @ NAIST 2016 532016/10/4

Page 54: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

Basilar Membrane

Satoshi Nakamura @ NAIST 2016 542016/10/4

Page 55: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

等感曲線

Satoshi Nakamura @ NAIST 2016 552016/10/4

Page 56: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

Equal Loudness Curve

Satoshi Nakamura @ NAIST 2016 562016/10/4

Page 57: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

音の高さ知覚

Satoshi Nakamura @ NAIST 2016 572016/10/4

Hz

Page 58: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

Perception of Frequency

Satoshi Nakamura @ NAIST 2016 582016/10/4

Hz

Mel

Sca

le

Linear Scale Hz

Page 59: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

スペクトルマスキング

Satoshi Nakamura @ NAIST 2016 592016/10/4

Page 60: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

Spectral Masking

Satoshi Nakamura @ NAIST 2016 602016/10/4

Page 61: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

継時マスキング

Satoshi Nakamura @ NAIST 2016 62

継時

2016/10/4

Page 62: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

Temporal Masking

Satoshi Nakamura @ NAIST 2016 632016/10/4

Page 63: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

カテゴリー知覚

Satoshi Nakamura @ NAIST 2016 642016/10/4

Page 64: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

Categorical Perception

Satoshi Nakamura @ NAIST 2016 652016/10/4

Page 65: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

何が難しいのか

音声合成

– 録音して再生

• 変形したい

– スペクトル構造と音源を分けて制御したい

– 文字から音声を合成

• イントネーションがない

• 調音結合の影響で不自然

– 変形が必要

音声認識

– 同じ人でも話すたびに違う

• 時間構造、スペクトル構造

– 違う人、男女、子供で音声が違う

– アクセント、方言の問題、外来語

– 雑音、残響

音声対話

– 人間のように対話するとは?

Satoshi Nakamura @ NAIST 2016 662016/10/4

Page 66: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

What are the difficulties?

Speech Synthesis

– Record and playback?

– Synthesize from texts

– Any voice?テキストから音声を合成?

– Cry, Angry voices?

Speech Recognition

– Recognize any voice?

– Different speaker, gender, child

– Local accents, dialects, loan words

– Emotional speech

– Acoustic interference

Spoken Dialog

– Spoken dialog by machine like human being?

Satoshi Nakamura @ NAIST 2016 672016/10/4

Page 67: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

http://www.naist.jp/無限の可能性、ここが最先端 -Outgrow your limits-

最近の音声認識の進歩

これまでの経緯

– テンプレートマッチング、動的計画法 [Sakoe 71]

– 隠れマルコフモデル、N-Gramモデル [Mercer 83, etc]

– ニューラルネットワーク、TDNN[Waibel 89], LSTM [Hochreiter 97]

– Weighted Finite State Transducer [Mohri 2006]

– 大量のデータの収集、試行サービスによるデータ収集

深層学習による最近の進化

– DNN-HMM [Hinton 2012]

• DNN により状態の事後確率を直接推定する

– Connectionist Temporal Classification [Graves 2013]

• フレーム毎に音素ラベルを出力する

– Listen, Attend, and Spell [Chan 2016]

• CTCにAttentionメカニズムを加え高精度化

Satoshi Nakamura@NAIST, Invited Talk, 2017 ASJ Fall Meeting

68

Page 68: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

http://www.naist.jp/無限の可能性、ここが最先端 -Outgrow your limits-

Recent Progress in Speech Recognition

Background

– Template Matching, Dynamic Time Warping, [Sakoe 71]

– Hidden Markov Model, N-Gram Language Model, [Mercer 83, etc]

– Neural Network, TDNN[Waibel 89], LSTM [Hochreiter 97]

– Weighted Finite State Transducer [Mohri 2006]

– Huge amount of data and data collection through trial services

Recent Progress by Deep Learning

– DNN-HMM [Hinton 2012]

• Estimate state posterior probability by DNN

– Connectionist Temporal Classification [Graves 2013]

• Produce phone labels every frame

– Listen, Attend, and Spell [Chan 2016]

• Attention-based encoder-decoder

Satoshi Nakamura@NAIST, Invited Talk, 2017 ASJ Fall Meeting

69

Page 69: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

http://www.naist.jp/無限の可能性、ここが最先端 -Outgrow your limits-

Phone-Level Matcher

Word-Level

Matcher

Sentence-

Level MatcherAcoustic Model

P(Xs|)LexiconP( | W)

LanguageModel P(W)

Feature Extraction

SearchAlgorithm

Xs ŴRecognized

Words

Hypothesis

Text Corpus

SpeechCorpus

TrainTrain

Statistical Learning

Speech Waveform

音声認識システム

単語列の最尤復号:The most probable string of words:

)|()|()(maxarg

)|()(maxarg)|(maxarg

sw

sw

sw

XPWPWP

WXPWPXWPW

5つの要素 特徴抽出:Feature extraction

音響モデル:Acoustic model

発音辞書:Pronunciation lexicon

言語モデル:Language model

探索:Search algorithm

2018/11/1 ©Prof. Satoshi Nakamura, NARA INSTITUTE OF SCIENCE AND TECHNOLOGY

70

Page 70: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

http://www.naist.jp/無限の可能性、ここが最先端 -Outgrow your limits-

Phone-Level Matcher

Word-Level

Matcher

Sentence-

Level MatcherAcoustic Model

P(Xs|)LexiconP( | W)

LanguageModel P(W)

Feature Extraction

SearchAlgorithm

Xs ŴRecognized

Words

Hypothesis

Text Corpus

SpeechCorpus

TrainTrain

Statistical Learning

Speech Waveform

Speech Recognition System

単語列の最尤復号:The most probable string of words:

)|()|()(maxarg

)|()(maxarg)|(maxarg

sw

sw

sw

XPWPWP

WXPWPXWPW

5つの要素 特徴抽出:Feature extraction

音響モデル:Acoustic model

発音辞書:Pronunciation lexicon

言語モデル:Language model

探索:Search algorithm

2018/11/1 ©Prof. Satoshi Nakamura, NARA INSTITUTE OF SCIENCE AND TECHNOLOGY

71

Page 71: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

http://www.naist.jp/無限の可能性、ここが最先端 -Outgrow your limits-

深層学習による音声認識

ハイブリッド HMM-DNN:

注意機構付きEncoder-DecoderによるEnd-to-end ASR

CNNs :特徴抽出 LSTM:系列モデリング DNN: 高精度な識別

[Sainath et. al 2015]

TIMIT音素認識結果

Results on Google data

Satoshi Nakamura@NAIST, Invited Talk, 2017 ASJ Fall Meeting

72

Page 72: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

http://www.naist.jp/無限の可能性、ここが最先端 -Outgrow your limits-

Speech Recognition by DNN

ハイブリッド HMM-DNN:

Attention Encoder-Decoder: End-to-end ASR

CNNs :Feature extraction LSTM:Temporal modeling DNN: Discrimination

[Sainath et. al 2015]

TIMIT phone recognition rates

Results on Google data

Satoshi Nakamura@NAIST, Invited Talk, 2017 ASJ Fall Meeting

73

Page 73: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

http://www.naist.jp/無限の可能性、ここが最先端 -Outgrow your limits-

CTC: Connectionist Temporal Classification

問題: RNNの音素認識器を学習するためにはフレーム毎のラベルが必要。これまでは、HMMが使われていた。Connectionist Temporal Classification (CTC) [A. Graves et al 2006]

動的計画法を用いてラベルを割り当て学習する。

学習時、正解ラベル系列𝒍を入力系列𝒙を割り当てる。:

𝑃 𝑙 𝑥 =

𝜋

𝑃 𝑙 𝜋 𝑃 𝜋 𝑥

Classical framewise RNN vs RNN-CTC

Model WER

Classical RNN 14.0%

RNN+CTC 12.9%

2000時間の英語のVoiceSearchの結果。[H. Sak et al 2015]

Page 74: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

http://www.naist.jp/無限の可能性、ここが最先端 -Outgrow your limits-

CTC: Connectionist Temporal Classification

Connectionist Temporal Classification (CTC) [A. Graves et al 2006]

Produce phoneme labes by Dynamic Time Warping

In training phase, use correct label sequence l to input sequence x.

𝑃 𝑙 𝑥 =

𝜋

𝑃 𝑙 𝜋 𝑃 𝜋 𝑥

Classical framewise RNN vs RNN-CTC

Model WER

Classical RNN 14.0%

RNN+CTC 12.9%

English Voice SearchUsing 2000 hours data.[H. Sak et al 2015]

Input sequence

Page 75: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

http://www.naist.jp/無限の可能性、ここが最先端 -Outgrow your limits-

音声認識性能の向上

Saon, et al. “English Conversational Telephone Speech Recognition by

Humans and Machines”, INTERSPEECH 2017

[1] R. P. Lippmann, “Speech recognition by machines and humans,”Speech communication, vol. 22, no. 1, pp. 1–15, 1997.

Satoshi Nakamura@NAIST, Invited Talk, 2017 ASJ Fall Meeting

76

Page 76: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

http://www.naist.jp/無限の可能性、ここが最先端 -Outgrow your limits-

Improvements of SR performnce

Saon, et al. “English Conversational Telephone Speech Recognition by

Humans and Machines”, INTERSPEECH 2017

[1] R. P. Lippmann, “Speech recognition by machines and humans,”Speech communication, vol. 22, no. 1, pp. 1–15, 1997.

Satoshi Nakamura@NAIST, Invited Talk, 2017 ASJ Fall Meeting

77

Page 77: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

http://www.naist.jp/無限の可能性、ここが最先端 -Outgrow your limits-

最近の音声合成の進歩

フォルマント合成、素片合成

確率モデルベース音声合成:HTS– HMMフレームワークによる音声合成

– Tokuda, et al., “Speech parameter generation algorithms for HMM-

based speech synthesis”, ICASSP 2000

Wavenet– 時系列信号に対し、畳み込みを行うNNにより波形生成– van den Oord et al., “WAVENET: A GENERATIVE MODEL FOR RAW

AUDIO”, arXiv:1609.03499v2 [cs.SD] 19 Sep 2016

Tacotron– 文字入力でスペクトログラムを生成、その後、Griffin-Lim法で波形生成– Wang, et al., “TACOTRON: TOWARDS END-TO-END SPEECH

SYNTHESIS”, arXiv:1703.10135v2 [cs.CL] 6 Apr 2017

Satoshi Nakamura@NAIST, Invited Talk, 2017 ASJ Fall Meeting

78

Page 78: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

http://www.naist.jp/無限の可能性、ここが最先端 -Outgrow your limits-

Recent Progress on Speech Synthesis

Formant synthesis, Unit-based synthesis

Probabilistic Speech Synthesis: HTS– HMM Framework

– Tokuda, et al., “Speech parameter generation algorithms for HMM-

based speech synthesis”, ICASSP 2000

Wavenet– Convolution to time signal by NN

– van den Oord et al., “WAVENET: A GENERATIVE MODEL FOR RAW

AUDIO”, arXiv:1609.03499v2 [cs.SD] 19 Sep 2016

Tacotron– Generate spectrogram per input character and then signal by Griffin-Lim

algorithm

– Wang, et al., “TACOTRON: TOWARDS END-TO-END SPEECH

SYNTHESIS”, arXiv:1703.10135v2 [cs.CL] 6 Apr 2017

Satoshi Nakamura@NAIST, Invited Talk, 2017 ASJ Fall Meeting

79

Page 79: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

http://www.naist.jp/無限の可能性、ここが最先端 -Outgrow your limits-

Architecture on Wavenet

Satoshi Nakamura@NAIST, Invited Talk, 2017 ASJ Fall Meeting

80

Page 80: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

http://www.naist.jp/無限の可能性、ここが最先端 -Outgrow your limits-

Architecture on Wavenet

Satoshi Nakamura@NAIST, Invited Talk, 2017 ASJ Fall Meeting

81

Page 81: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

http://www.naist.jp/無限の可能性、ここが最先端 -Outgrow your limits-

Architecture on Tacotron

Satoshi Nakamura@NAIST, Invited Talk, 2017 ASJ Fall Meeting

82

Page 82: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

http://www.naist.jp/無限の可能性、ここが最先端 -Outgrow your limits-

Architecture on Tacotron

Satoshi Nakamura@NAIST, Invited Talk, 2017 ASJ Fall Meeting

83

Page 83: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

http://www.naist.jp/無限の可能性、ここが最先端 -Outgrow your limits-

機械翻訳の進歩

ルールベース:言語学者、言語学の知識のある作業者がルールを注意して作成

コーパスベース:

– 用例ベース (Example-Based)ルールを自動的にコーパスから抽出[M.Nagao84, Sato et.al.,89, Sumita et. al., 91 ]

– 統計ベース翻訳 (Statistical Machine Translation) さらに、ルールが頻出するかの確率を学習。Noisy Channel Model [P.F.Brown, et.al. 93]

– Phrase-base SMT

単語レベルでなくフレーズという単位を導入。

Tree-to-string

– 構文構造の関係を学習する統計的機械翻訳

Neural Machine Translation

– LSTMによるEncoder と Decoderを組み合わせ、翻訳文を生成する

Attention NMT

– 原言語の単語列のEncoder出力に重みを加えてDecoderにいれることでアライメントをImplicitに学習する

Satoshi Nakamura@NAIST, Invited Talk, 2017 ASJ Fall Meeting

84

Page 84: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

http://www.naist.jp/無限の可能性、ここが最先端 -Outgrow your limits-

Recent Progress on Machine Translation

Rule-based MT:Translation rules are made by linguists and experts

Corpus-based MT:

– Example-Based: Extract rules automatically from corpus

[M.Nagao84, Sato et.al.,89, Sumita et. al., 91 ]

– Statistical MT: Estimate rules statistically from corpus. Noisy Channel Model

[P.F.Brown, et.al. 93]

– Phrase-base SMT

Based on phrase not word

Tree-to-string

– Statistical MT considering syntactical structure

Neural Machine Translation

– Encoder-decoder MT by LSTM

Attention NMT

– Attention mechanism to scope on related words in source language in decoding

process

Satoshi Nakamura@NAIST, Invited Talk, 2017 ASJ Fall Meeting

85

Page 85: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

フレーズベースSMT

ate a meal with a friend

友達 と ご飯 を 食べ た

友達a friend

とwith

ご飯 をa meal

食べ たate

友達a friend

とwith

ご飯 をa meal

食べ たate

Phrase Aligment

Re-ordering

Translation

ate a meal with a friend

食べ た

SUF5

VP4-5

x1 with x0

x1 x0

a friend

a meal

ate

x1 x0

Apply rules

友達

ご飯 を

VP0-5

PP0-1VP2-5

PP2-3

N2 P3 V4

N0 P1

x1 x0

友達 と ご飯 を 食べ た

Parser

訳出

構文木の利用:Tree-to-string

構文構造の利用

Satoshi Nakamura@NAIST, Invited Talk, 2017 ASJ Fall Meeting 86

Page 86: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

Phrase-based SMT

ate a meal with a friend

友達 と ご飯 を 食べ た

友達a friend

とwith

ご飯 をa meal

食べ たate

友達a friend

とwith

ご飯 をa meal

食べ たate

Phrase Aligment

Re-ordering

Translation

ate a meal with a friend

食べ た

SUF5

VP4-5

x1 with x0

x1 x0

a friend

a meal

ate

x1 x0

Apply rules

友達

ご飯 を

VP0-5

PP0-1VP2-5

PP2-3

N2 P3 V4

N0 P1

x1 x0

友達 と ご飯 を 食べ た

Parser

訳出

Tree-to-string MT

Syntactic Structure

Satoshi Nakamura@NAIST, Invited Talk, 2017 ASJ Fall Meeting 87

Page 87: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

Statistical Translation Frameworks

Symbolic Models

Phrase-based MT [Koehn+ 03]

he has a cold

彼 は 風邪 を 引いている

he

彼 はhas

引いているa cold

風邪 を

he

彼 はhas

引いているa cold

風邪 を

Tree-to-String MT [Liu+ 06]

彼 は 風邪

he has a cold

PRP VBZ DET NN

VP

NP

S

引いているを

Continuous-space (Neural) Models

Encoder-Decoder [Sutskever+ 14]

he has a cold <s>

風邪

風邪

引いているを

<s>引いている

Attentional [Bahdanau+ 15]he has a cold

g1,...,g

4

a1

a2

a3

a4

hi-1

hi

ri-1

P(ei|F,e

1,...,e

i-1)

Intelligent and Invisible Computing 88

Satoshi Nakamura@NAIST, Invited Talk, 2017 ASJ Fall Meeting 88

Page 88: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

Statistical Translation Frameworks

Symbolic Models

Phrase-based MT [Koehn+ 03]

he has a cold

彼 は 風邪 を 引いている

he

彼 はhas

引いているa cold

風邪 を

he

彼 はhas

引いているa cold

風邪 を

Tree-to-String MT [Liu+ 06]

彼 は 風邪

he has a cold

PRP VBZ DET NN

VP

NP

S

引いているを

Continuous-space (Neural) Models

Encoder-Decoder [Sutskever+ 14]

he has a cold <s>

風邪

風邪

引いているを

<s>引いている

Attentional [Bahdanau+ 15]he has a cold

g1,...,g

4

a1

a2

a3

a4

hi-1

hi

ri-1

P(ei|F,e

1,...,e

i-1)

Intelligent and Invisible Computing 89

Satoshi Nakamura@NAIST, Invited Talk, 2017 ASJ Fall Meeting 89

Page 89: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

Neural Machine Translation

Neural MT NMT Re-ranking

Tomodachi to Gohan wo tabeta

Vector Representation

History ofMT results

I ate

Predict next word

0.5 a0.3 rice0.1 the…

Tree-to-string MT

Tomodachi to Gohan wo tabeta

I ate a meal with my friend

I ate rice with my friend

I ate rice and my friend

NMT probabilityNMT

T2S

0.3 I ate a meal with my friend

0.5 I ate rice with my friend

0.1 I ate rice and my friend

Take best hypothesis I ate rice with my friend

Good example by NMT:

Original: demo Kensa ha kanari itai desuka?before: But quite sore test?after: But the test hurts a lot?

Satoshi Nakamura@NAIST, Invited Talk, 2017 ASJ Fall Meeting 90

Page 90: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

Neural Machine Translation

Neural MT NMT Re-ranking

Tomodachi to Gohan wo tabeta

Vector Representation

History ofMT results

I ate

Predict next word

0.5 a0.3 rice0.1 the…

Tree-to-string MT

Tomodachi to Gohan wo tabeta

I ate a meal with my friend

I ate rice with my friend

I ate rice and my friend

NMT probabilityNMT

T2S

0.3 I ate a meal with my friend

0.5 I ate rice with my friend

0.1 I ate rice and my friend

Take best hypothesis I ate rice with my friend

Good example by NMT:

Original: demo Kensa ha kanari itai desuka?before: But quite sore test?after: But the test hurts a lot?

Satoshi Nakamura@NAIST, Invited Talk, 2017 ASJ Fall Meeting 91

Page 91: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

音声翻訳システム

10/08/2016 92

多言語音声認識

話し言葉機械翻訳

多言語音声合成

日本語 英語I go to school

「私は学校に行く: Watashi wa Gakko he iku」

Watashi wa Gakko he iku

I go to school

NAIST 公開講座 Satoshi Nakamura@AHC Lab

Page 92: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

Speech-to-speech Translation System

10/08/2016 93

多言語音声認識

話し言葉機械翻訳

多言語音声合成

日本語 英語I go to school

「私は学校に行く: Watashi wa Gakko he iku」

Watashi wa Gakko he iku

I go to school

NAIST 公開講座 Satoshi Nakamura@AHC Lab

Page 93: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

Bridges Different Language Speaking PeopleBy Speech Translation Technology

11/1/2018 94

MultilingualSpeech

Recognition

Spoken Language

Translation

MultilingualSpeech

SynthesisJapanese English

I go to school「私は学校に行く: Watashi wa Gakko he iku」

Watashi wa Gakko he iku

I go to school

Invited Talk © U. Trento Satoshi Nakamura, NAIST

Page 94: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

我が国の音声翻訳プロジェクトの流れ

Satoshi Nakamura @ NAIST 2016 95

読み上げ文を音声翻訳

•文法的な表現

•明瞭な発声

国際会議申込み」

日常の話し言葉を音声翻訳

•標準的な表現

•明瞭な発声

•限定された話題

「ホテル予約」

広い話題に適応

•広い話題での表現

(日常旅行会話)

•雑音を含む音声

•日英+日中

1986 1992 2000 2006

要素技術

ルールベース人手作業

大規模コーパス+ 機械学習

2008

A-STAR

内閣府社会還元加速PJ

• 8アジア言語

•ネットワーク型音声翻訳

2010

C-STAR

• 音声翻訳国際共同研究コンソーシアム

IWSLT

• 音声翻訳性能評価ワークショップ

2011VoiceTraNAIST

2014

U-STAR

NICTGC PJ

NICTATR

・2007年11月開始

2016/10/4

Page 95: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

History of Speech Translation Research in Japan

11/1/2018 96

Fundamentals

Read Speech

• Syntactically correct

• Clear utterance

• Limited domain

Ex. “Conference

Registration”

Daily Conversation

• Standard expression

• Unclear utterance

• Limited domain

Ex. “Hotel Reservation”

Wider and Real Domain

• Wider and real domain

“International Travel”

• Realistic expressions

• Noisy speech

• J-E, J-C speech translation

1986 1992 1999 2006

Rule-based TechnologyCorpus-based Technology

Hand-madeLarge scale corpus

+ Machine learning

2008

ATR NICT

A-STAR

+ More languagesfor translation

• Multilateral translation for 8 Asian languages

• Network-based S2ST

2010

•21 multilateral text translation

C-STAR

• Multilateral translation for 7 world languages

IWSLT

• Evaluation Campaign of S2S technologies

2011

VoiceTra

NAIST

ATR ATR

Page 96: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

iPhone アプリ:VoiceTra, TexTra

• 新しいiphone用ネットワーク音声翻訳アプリケーション “VoiceTra” をAppStore から 2010年7月29日リリース

• 21 言語対応、音声入出力は 6言語(日、英、中、インドネシア、ベトナム、マレー語)

• これまでに、約80万ダウロード、1千万アクセス

Satoshi Nakamura @ NAIST 2016 97

97

* Text-translation application, TexTra is released at the same time.

Japanese, English, Mandarin, Taiwanese Mandarin, German, French, Dutch, Danish,Italian, Spanish, Portuguese, Brazilian Portuguese, Russian, Arabic, Hindi, Indonesian, Malay, Thai, Tagalog, Vietnamese, Korean※ Language in red can be input/output in voices.※There is no text input support for Hindi or Vietnamese.

VoiceTra

2016/10/4

Page 97: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

iPhone Apps:VoiceTra, TexTra

• Released in July 29th in 2010

• 21 langues, Speech I/O in 6 languages (J, E, C, In, Ve, Ma)• Around 0.8 M downloads, 10 M access in 2012

Satoshi Nakamura @ NAIST 2016 98

98

* Text-translation application, TexTra is released at the same time.

Japanese, English, Mandarin, Taiwanese Mandarin, German, French, Dutch, Danish,Italian, Spanish, Portuguese, Brazilian Portuguese, Russian, Arabic, Hindi, Indonesian, Malay, Thai, Tagalog, Vietnamese, Korean※ Language in red can be input/output in voices.※There is no text input support for Hindi or Vietnamese.

VoiceTra

2016/10/4

Page 98: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

同時通訳への挑戦 (InterSpeech 2013)

課題:従来法は文末を待つため遅い

提案法:文末を待たず、フレーズ毎に翻訳

2016/10/4 Satoshi Nakamura @ NAIST 2016 99

発話

音声認識

翻訳

音声合成時間

発話

音声認識

翻訳

音声合成

翻訳

音声合成

翻訳

音声合成

時間

Page 99: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

Simultaneous Incremental Speech Translation(2013)

11/1/2018Invited Talk © U. Trento Satoshi Nakamura,

NAIST 100

ASR

こんにちは、

MT

駅は

MT

どこですか?

MT

Hello, the station where is it?

TTS TTS TTS

Delay: Reduced

But, this is not easy!

Page 100: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

結果

2016/10/4 Satoshi Nakamura @ NAIST 2016 101

38

40

42

44

46

48

50

0 1 2 3 4 5 6

RIB

ES

Dealy (Sec)

LM+Tu

A rank

B rank

A ランク:4 年経験B ランク:1 年経験

Fast

Acc

ura

te

フレーズ終了時翻訳

発話終了時翻訳

B ランク(経験 1 年)

A ランク(経験 4 年)

≒ 経験年数1年のB ランク通訳者と同等

Page 101: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

Results

Invited Talk © U. Trento Satoshi Nakamura, NAIST 102

38

40

42

44

46

48

50

0 1 2 3 4 5 6

RIB

ES

Dealy (Sec)

LM+Tu

A rank

B rank

Fast

Ac

cu

rate

By Phrase

By Sentence

B Rank(1 Year)

A Rank(4 Year)

≒ B rank human Interpreter with 1 year experience

11/1/2018

Page 102: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

本日はここまで

2016/10/4 Satoshi Nakamura @ NAIST 2016 103

Page 103: 音情報処理論 2018...音情報処理論 2018 中村 哲 高道愼之介 Sakriani Sakti 吉野幸一郎 2016/10/4 Satoshi Nakamura @ NAIST 2016 1 音声って何 人のコミュニケーションで意図を伝える最も重

Thank you for your attention

2016/10/4 Satoshi Nakamura @ NAIST 2016 104