41
2016 年度 卒業論文 Hi-Fi 人工喉頭システム 2017 2 13 大阪大学 基礎工学部 システム科学科 生物工学コース 吉村 優輝 主査: 日付:

Hi-Fi 人工喉頭システム - Osaka Universityoshiro.bpe.es.osaka-u.ac.jp/thesis/bachelor/2016/...Hi-Fi 人工喉頭システム 吉村優輝 概要 疾患により声帯を失い通常の発声が不可能となった患者が会話を行う手段として,振動

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Hi-Fi 人工喉頭システム - Osaka Universityoshiro.bpe.es.osaka-u.ac.jp/thesis/bachelor/2016/...Hi-Fi 人工喉頭システム 吉村優輝 概要 疾患により声帯を失い通常の発声が不可能となった患者が会話を行う手段として,振動

2016年度 卒業論文

Hi-Fi 人工喉頭システム

2017年 2月 13日

大阪大学 基礎工学部

システム科学科 生物工学コース

吉村 優輝

主査:           日付:    

Page 2: Hi-Fi 人工喉頭システム - Osaka Universityoshiro.bpe.es.osaka-u.ac.jp/thesis/bachelor/2016/...Hi-Fi 人工喉頭システム 吉村優輝 概要 疾患により声帯を失い通常の発声が不可能となった患者が会話を行う手段として,振動

Hi-Fi 人工喉頭システム

吉村 優輝

概 要

疾患により声帯を失い通常の発声が不可能となった患者が会話を行う手段として,振動

子により外部から声帯振動の代わりになる音源を与える電気式人工喉頭が古くから用いられ

ている.しかし,人工喉頭により生成される人工喉頭音声は無機質な振動が原因で,単調で

聞き取りが困難なことから音質の改善が求められている.従来から,人工喉頭の振動数を時

間的に変化させることにより,抑揚の単調さを改善する研究が行われているが,肉声との差

に未だ課題が残る.

本研究では,統計的声質変換の手法を用いて人工喉頭音声を肉声に近い音声へと変換する

システムの構築を目的とする.人工喉頭音声と肉声それぞれのデータベースを用意し,両者

の対応関係を混合ガウスモデルによって表す.変換には,音声の基本角周波数,周波数スペ

クトル包絡,非周期成分を用いる.ユーザの喉頭部に振動子による音源を提示し,得られた

音声データを変換モデルによる音声処理によって肉声に近い音声へと変換する.

本研究で提案した人工喉頭システムの有意性を確認するため,変換した音声に対し,ケプ

ストラム距離による評価と聴取実験を行った.その結果,作製したシステムは人工喉頭音声

を改善することが確認された.

キーワード 音声解析,電気式人工喉頭,統計的声質変換,音声合成処理,混合ガウスモ

デル

Page 3: Hi-Fi 人工喉頭システム - Osaka Universityoshiro.bpe.es.osaka-u.ac.jp/thesis/bachelor/2016/...Hi-Fi 人工喉頭システム 吉村優輝 概要 疾患により声帯を失い通常の発声が不可能となった患者が会話を行う手段として,振動

High-Fidelity electrolarynx system

Yuki Yoshimura

Abstract

An electrolarynx is a popular device to vocalize for people who have lost vocal cords by

disease. However, the speech by an electrolarynx is unnatural and difficult to hear because

it is monotonous or mechanical-sounding and the improvement of the sound quality is

required. The studies to improve monotonous accent by control of the vibration has been

proposed, but the generated speech is still different from real speech.

The propose of this study is the construction of conversion model from electrolaryngeal

speech to real speech by the approach of statistic voice conversion. The static conversion

model that represents the relation between electrolaryngeal speech and real speech is

constructed by the database of both types of speech. The indices of model construction

for quantitative analysis of speech are fundamental frequency, power spectrum envelope,

and aperiodic components. The electrolaryngeal speech is generated by sound of vibration

on user’s larynx. It is converted to the speech closed to real speech by the conversion model.

In order to confirm the effectiveness of the proposed conversion model from electrola-

ryngeal speech to real speech, the author conducted the experiment. In the experiment,

the author converted the elerctrolaryngeal speech by using the conversion model, and eval-

uated the converted speech by cepstrum distance and listening. In the result, the author

found the improvement of electrolaryngeal speech by the constructed model.

Keywords Speech analysis, Electrolarynx, Statistic conversion model, Speech synthesis,

Gaussian mixture model

Page 4: Hi-Fi 人工喉頭システム - Osaka Universityoshiro.bpe.es.osaka-u.ac.jp/thesis/bachelor/2016/...Hi-Fi 人工喉頭システム 吉村優輝 概要 疾患により声帯を失い通常の発声が不可能となった患者が会話を行う手段として,振動

目 次

第 1章 序論 1

第 2章 発声と人工喉頭 3

2.1 発声 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

2.2 喉頭摘出患者と人工喉頭 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

2.3 音声信号処理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2.4 統計的声質変換 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.5 本研究の位置づけ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

第 3章 Hi-Fi人工喉頭システムの作成 13

3.1 システムの概要 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

3.2 人工喉頭音声の変換 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

3.3 音声の変換モデル . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

第 4章 システム実装と評価 22

4.1 システムの実装 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

4.2 変換モデルの作成 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

4.3 提案システムによる音声の変換 . . . . . . . . . . . . . . . . . . . . . . . . . 24

4.4 評価 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

4.5 考察 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

第 5章 結論 28

謝辞 29

参考文献 30

付 録A 音素バランス文 32

Page 5: Hi-Fi 人工喉頭システム - Osaka Universityoshiro.bpe.es.osaka-u.ac.jp/thesis/bachelor/2016/...Hi-Fi 人工喉頭システム 吉村優輝 概要 疾患により声帯を失い通常の発声が不可能となった患者が会話を行う手段として,振動

図 目 次

1.1 ユーザと他者との自然な会話 . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

2.1 声帯の模式図 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

2.2 声道の模式図 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

2.3 舌と口唇の形状変化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

2.4 健常者 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2.5 喉頭摘出患者 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2.6 食道発声法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2.7 笛式人工喉頭 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

2.8 笛式人工喉頭による発声 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

2.9 電気式人工喉頭 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

2.10 電気式人工喉頭による発声 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

2.11 呼気センサを用いた人工喉頭 . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2.12 首元の表面筋電位計測 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2.13 発声時の表面筋電位計測 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2.14 周期 T0のパルス列 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2.15 周期 ω0のパルス列 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2.16 音声信号/o/の周波数スペクトルと包絡 . . . . . . . . . . . . . . . . . . . . . 10

3.1 Hi-Fi人工喉頭システム . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

3.2 変換システムのブロック線図 . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

3.3 音声の周波数スペクトル . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

3.4 音声のケプストラム . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

3.5 ローパスリフタによる低ケフレンシ抽出 . . . . . . . . . . . . . . . . . . . . 17

3.6 τg(ω)の波形 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

3.7 平滑化と τgs(ω)の波形 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

3.8 τD(ω)の導出 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

4.1 作製したシステム . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

Page 6: Hi-Fi 人工喉頭システム - Osaka Universityoshiro.bpe.es.osaka-u.ac.jp/thesis/bachelor/2016/...Hi-Fi 人工喉頭システム 吉村優輝 概要 疾患により声帯を失い通常の発声が不可能となった患者が会話を行う手段として,振動

4.2 人工喉頭デバイス . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

4.3 システムのブロック線図 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

4.4 振動子の周波数特性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

4.5 音声の周波数スペクトル . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

4.6 音声/a/ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

4.7 音声/i/ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

4.8 音声/u/ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

4.9 音声/e/ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

4.10 音声/o/ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

Page 7: Hi-Fi 人工喉頭システム - Osaka Universityoshiro.bpe.es.osaka-u.ac.jp/thesis/bachelor/2016/...Hi-Fi 人工喉頭システム 吉村優輝 概要 疾患により声帯を失い通常の発声が不可能となった患者が会話を行う手段として,振動

表 目 次

2.1 基本角周波数 ω0と周波数スペクトル包絡の対応関係 . . . . . . . . . . . . . 10

3.1 周波数領域とケプストラム領域における呼称の対応表 . . . . . . . . . . . . . 17

4.1 振動子の仕様 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

4.2 ケプストラム距離 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

4.3 ケプストラム距離の標準偏差 . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

4.4 変換前音声の評価 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

4.5 提案システムによる変換音声の評価 . . . . . . . . . . . . . . . . . . . . . . . 26

Page 8: Hi-Fi 人工喉頭システム - Osaka Universityoshiro.bpe.es.osaka-u.ac.jp/thesis/bachelor/2016/...Hi-Fi 人工喉頭システム 吉村優輝 概要 疾患により声帯を失い通常の発声が不可能となった患者が会話を行う手段として,振動

第1章 序論

音声は人間の最も基本的なコミュニケーション手段であり,古来から言葉を獲得した人間

は会話によって喜びや悲しみを表現し,あるいは自らの意見を主張し議論することで,感情

を共有し意思伝達を行ってきた.近代になると,電話の普及により会話の距離の制限が取り

除かれ,伝達手段としての音声の重要性はさらに高まった.

一方で,疾患により声帯を摘出し通常の発声が不可能になった患者は,他者と会話をする

ことができず日常生活に支障が生じると同時に声を失うことによる多大な精神的負荷を負

う.そのため,声帯を失った患者が発声を行うための手段として,外部から声帯振動の代わ

りとなる音源を振動子によって与える電気式人工喉頭が開発された.多くの場合,声帯を摘

出しても声帯から口腔までの声道は保存されるため,外部からの音源が声道を通して構音

されることで発声することが可能になる.しかし,人工喉頭により生成される人工喉頭音声

は肉声に比べ,単調で聞き取りが困難であることが問題となっている.人工喉頭音声の改善

は,ユーザが他者との自然な会話を楽しみ,円滑な意思伝達を行うために重要であり,従来,

振動に時間的な変化を与えることによって単調さを改善し音声に抑揚をつける手法が提案さ

れている.橋場ら [1]は,ユーザの発話時に呼気センサから得られた呼気圧に応じて振動数

を変化させる人工喉頭を開発した.Stepp ら [2]は,首元の表面筋電位を測定することによ

り,ユーザの意図する抑揚を推定する手法を提案した.しかし,人工喉頭音声の抑揚の単調

さは改善されるが,肉声との声質の違いを改善することはできない.本研究では,統計的声

質変換の技術を用いて人工喉頭音声を肉声に近い音声へと変換するシステムを構築すること

を目的とする.システムの外観を図 1.1に示す.従来の課題であった人工喉頭音声の無機質

さを解決するために,人工喉頭音声と肉声との対応関係を統計的に求め,音声合成処理によ

り音声を変換する手法を用いる.肉声らしさを決めるパラメータを定め,補完することがで

きれば人工喉頭音声の改善が可能であると考えられる.

1

Page 9: Hi-Fi 人工喉頭システム - Osaka Universityoshiro.bpe.es.osaka-u.ac.jp/thesis/bachelor/2016/...Hi-Fi 人工喉頭システム 吉村優輝 概要 疾患により声帯を失い通常の発声が不可能となった患者が会話を行う手段として,振動

・・・

・・・

User

Electrolarynx

図 1.1: ユーザと他者との自然な会話

2

Page 10: Hi-Fi 人工喉頭システム - Osaka Universityoshiro.bpe.es.osaka-u.ac.jp/thesis/bachelor/2016/...Hi-Fi 人工喉頭システム 吉村優輝 概要 疾患により声帯を失い通常の発声が不可能となった患者が会話を行う手段として,振動

第2章 発声と人工喉頭

本章では,発声と人工喉頭について述べた後,統計モデルを用いた声質の変換,本研究の

位置づけについて述べる.

2.1 発声

発声は,肺からの呼気流が声帯を通過し発生した音を声道で構音することで行われる.声

帯は,気道中に存在する対になった弁のような器官であり,筋により開閉する.図 2.1に声

帯の模式図を示す.人間は発声時に声帯を閉じ,隙間に呼気を通過させることで声帯振動を

起こし音を発する.声帯振動の振幅は気道を通過する呼気の流量によって変化し,また振動

数は声帯の張力により変化する.人間は肺から送る呼気の量や声帯の筋を変化させ,発声の

大きさや抑揚を調節する.声帯振動や呼気流による音は声道で構音されて音声として発せら

Sound

Vocal cord Vocal cord

Open Closed

Air Air

図 2.1: 声帯の模式図

れる.構音は声道内での共鳴と,舌や口唇の形状変化により行われる.声道内での共鳴は,

図 2.2のように閉じた声帯側を固定端,開いた口唇側を自由端とした気柱で表される [3].声

帯で発生した音は,声道長 Lの 1/4倍,3/4倍,. . . の波長を持つ正弦波に対応した周波数

成分が共鳴により増幅される.声道長は年齢や性別,体格などによって大きく異なり話者の

声質の特徴を決定する.一方,舌や口唇の形状変化は話者が能動的に行うもので,発声の音

韻を決定する要素である.図 2.3に音声/a/と/u/の発声の違いを示す.音声/a/は発声時に

3

Page 11: Hi-Fi 人工喉頭システム - Osaka Universityoshiro.bpe.es.osaka-u.ac.jp/thesis/bachelor/2016/...Hi-Fi 人工喉頭システム 吉村優輝 概要 疾患により声帯を失い通常の発声が不可能となった患者が会話を行う手段として,振動

口唇が大きく開き口腔内に広い空間があるが,音声/u/は口唇が閉まり舌が口腔内の空間を

狭めることで発声される.

1/4 sine wave

3/4 sine wave

To Vocal cord To lipVocal tract

Amplified

𝐿

Sound

図 2.2: 声道の模式図

a u

Tongue

Lip

図 2.3: 舌と口唇の形状変化

2.2 喉頭摘出患者と人工喉頭

2.2.1 喉頭摘出患者

喉頭を摘出した患者は食物が気道に入らないように弁別する機能が失われるため,気道は

喉元に気管孔を開けて外につなぎ,口腔へつながる通路から分離される.同時に肺から送ら

れる空気で振動する声帯も機能を失うため取り除かれる.そのため,喉頭摘出患者は声帯や

呼気によって発声の元になる音を出すことができず,自力での発声が不可能になる.図 2.4,

2.5に健常者と喉頭摘出患者の違いを示す.

4

Page 12: Hi-Fi 人工喉頭システム - Osaka Universityoshiro.bpe.es.osaka-u.ac.jp/thesis/bachelor/2016/...Hi-Fi 人工喉頭システム 吉村優輝 概要 疾患により声帯を失い通常の発声が不可能となった患者が会話を行う手段として,振動

Lung

Vocal cordAirEsophagus

SoundSpeech

To Stomach

図 2.4: 健常者

Lung

Air

Esophagus

No sound

To Stomach

Hole

図 2.5: 喉頭摘出患者

2.2.2 人工喉頭

喉頭摘出患者は声帯を失っているが,多くの場合,声道の機能は保存されているため,声

帯振動に代わる音源を与えることで発声が可能になる.声帯振動を用いない発声の手段とし

て,食道内に気流をつくることで音を発生させる食道発声法,喉頭摘出患者が呼吸するため

の気管孔から空気を送り,口腔内で笛を鳴らすことで発声する笛式人工喉頭,喉頭部に振動

音を与えて声道に伝えることで発声する電気式人工喉頭があげられる.食道発声法の様子

を図 2.6に示す.食道内に一時的に空気を溜め,放出する際に発生する音を利用して発声す

る.器具を用いずに発声が可能だが,習得には訓練が必要である.図 2.7,2.8に笛式人工

SoundSpeech

EsophagusAir

図 2.6: 食道発声法

喉頭と発声の様子を示す.喉頭摘出患者の喉元にある気管孔より空気を送り込み,口にくわ

えた笛から発生する音により発声する.また,図 2.9,2.10に電気式人工喉頭による発声の

様子を示す.電気振動により発生した音が喉頭部を介して声道へと伝わり,通常の発声同様

5

Page 13: Hi-Fi 人工喉頭システム - Osaka Universityoshiro.bpe.es.osaka-u.ac.jp/thesis/bachelor/2016/...Hi-Fi 人工喉頭システム 吉村優輝 概要 疾患により声帯を失い通常の発声が不可能となった患者が会話を行う手段として,振動

に声道内の共鳴によって音声が発せられる.また,図 2.9,2.10に電気式人工喉頭による発

図 2.7: 笛式人工喉頭 [4]

Sound

Speech

AirWhistle larynx

図 2.8: 笛式人工喉頭による発声

声の様子を示す.電気振動により発生した音が喉頭部を介して声道へと伝わり,通常の発声

同様に声道内の共鳴によって音声が発せられる.

図 2.9: 電気式人工喉頭 [5]

Electrolarynx

Sound

Speech

図 2.10: 電気式人工喉頭による発声

2.2.3 電気式人工喉頭の先行研究

喉頭摘出患者の発声法の中でも,電気式人工喉頭は発声の習得が容易であることから主流

の手段である.しかし,電気式人工喉頭による人工喉頭音声と肉声の相違は大きい.通常の

発声では,声帯振動が肺からの気流や声帯の筋により制御され,音声に時間変化を与えてい

る.一方,電気式人工喉頭による発声は,振動子により発生する均一な音を声道へ与えるた

め,音声が単調で聞き取りが困難になる問題がある.音声の単調さや不明瞭さは他者との会

話において弊害となるため,人工喉頭による発声を改善する研究が行われている.先行研究

6

Page 14: Hi-Fi 人工喉頭システム - Osaka Universityoshiro.bpe.es.osaka-u.ac.jp/thesis/bachelor/2016/...Hi-Fi 人工喉頭システム 吉村優輝 概要 疾患により声帯を失い通常の発声が不可能となった患者が会話を行う手段として,振動

では,人工喉頭の振動子に振動数の変化を与えて音声の単調さを改善する手法が提案され

ている.橋場ら [1]は,喉頭摘出患者の気管孔から放出される呼気を利用して振動を変化さ

せる人工喉頭を開発した.本体に呼気センサが付属しており,ユーザの気管孔から呼気圧を

測定して振動の変化に対応させることで抑揚をつける.図 2.11に呼気センサを用いた人工

喉頭を示す.振動を喉頭へ伝えると同時に呼気センサを気管孔に当て,呼気圧を測定する.

Stepp ら [2]は,首元の表面筋電位 (Surface electromyography,SEMG)を計測し発声時の筋

SensorVibrator

図 2.11: 呼気センサを用いた人工喉頭 [1]

の運動から音声の抑揚を推定する手法を提案した.発声の際に,声の高低に対応して首元の

筋が運動することに着目し,表面筋電位の測定から音声の抑揚の推定が可能であることを示

した.図 2.12に Stepp らによる首元の表面筋電位計測の様子を示す.また,Nagle ら [6]

は,下あご付近にあるおとがい下の表面筋電位の変化に応じて人工喉頭の振動数を変化さ

せ,通常の人工喉頭に比べ音声の抑揚が改善することを示した.図 2.13は,人工喉頭によ

る発声中に SEMGセンサを用いて表面筋電位を計測した様子である.しかし,以上の手法

では音声の単調さは改善されるが,振動子と声帯振動では発する音の特徴が大きく異なるた

め,声質の違いを改善することができない.

2.3 音声信号処理

音声を簡単に表すために,声道に与えられる音源と声道のインパルス応答の畳みこみで音

声を近似するモデルが広く用いられる.音声信号 y(t)は,声帯振動の有無で有声音 y0(t)と

無声音 y1(t)に分けられ,二つの和で表される.

y(t) = y0(t) + y1(t) (2.1)

7

Page 15: Hi-Fi 人工喉頭システム - Osaka Universityoshiro.bpe.es.osaka-u.ac.jp/thesis/bachelor/2016/...Hi-Fi 人工喉頭システム 吉村優輝 概要 疾患により声帯を失い通常の発声が不可能となった患者が会話を行う手段として,振動

図 2.12: 首元の表面筋電位計測 [2]

SEMG sensorElectrolarynx

図 2.13: 発声時の表面筋電位計測 [6]

2.3.1 有声音

有声音 y0(t)は声帯振動音を音源とする音声であり,声帯の振動音 x(t),声道のインパル

ス応答を h(t)として式 (2.2)で表される.記号 ∗は畳みこみ演算を表す.

y0(t) = x(t) ∗ h(t) (2.2)

x(t)は,声帯の振動周期 T0の間隔で並んだパルス列で近似され,式 (2.3)で表される.nは

整数である.図 2.14に x(t)を示す.

x(t) =∞∑

n=−∞δ(t− nT0) (2.3)

式 (2.3)はフーリエ級数展開により式 (2.4)のように変形できる.ω0は ω0 = 2π/T0であり,

0 T0 2T0−T0

𝑥(𝑡)

𝑡

図 2.14: 周期 T0のパルス列

8

Page 16: Hi-Fi 人工喉頭システム - Osaka Universityoshiro.bpe.es.osaka-u.ac.jp/thesis/bachelor/2016/...Hi-Fi 人工喉頭システム 吉村優輝 概要 疾患により声帯を失い通常の発声が不可能となった患者が会話を行う手段として,振動

声帯振動の基本角周波数を示す.kは整数である.

x(t) =∞∑

k=−∞

[1

T0

∫ T02

−T02

δ(t)exp (−jkω0t) dt

]exp (jkω0t)

=1

T0

∞∑k=−∞

exp (jkω0t)

(2.4)

式 (2.2)の両辺をフーリエ変換すると,ωを角周波数として有声音の周波数スペクトル Y0(ω)

は,声帯の振動音と声道の特性それぞれの周波数スペクトルX(ω),H(ω)の積によって,式

(2.5)のように表すことができる.

Y0(ω) = X(ω)H(ω) (2.5)

X(ω)は式 (2.4)の x(t)のフーリエ変換より,式 (2.6)のような周期的パルス列になる.F は

フーリエ変換を示す.図 2.15にX(ω)を示す.

X(ω) =1

T0

∞∑k=−∞

F [exp (jkω0t)]

=1

T0

∞∑k=−∞

2πδ(ω − kω0)

= ω0

∞∑k=−∞

δ(ω − kω0)

(2.6)

0 𝜔0 2𝜔0−𝜔0

𝑋(𝜔)

𝜔

図 2.15: 周期 ω0のパルス列

式 (2.6)は,有声音の周波数スペクトルに声帯振動の基本角周波数 ω0と,その整数倍の

角周波数においてピークが表れることを示しており,ω0の整数倍の角周波数を持つ音を倍

音と呼ぶ.基本角周波数 ω0は音声の高さを決める成分であり,ω0の変化は抑揚を表す.式

(2.5)は声道において,声帯の振動音の特定の周波数成分が共鳴によって増幅されることを

表している.H(ω)は音声の周波数スペクトルの包絡成分に対応し,音声の声質や音韻を決

める成分である.表 2.1に基本角周波数 ω0と周波数スペクトルそれぞれの生成位置と関係

9

Page 17: Hi-Fi 人工喉頭システム - Osaka Universityoshiro.bpe.es.osaka-u.ac.jp/thesis/bachelor/2016/...Hi-Fi 人工喉頭システム 吉村優輝 概要 疾患により声帯を失い通常の発声が不可能となった患者が会話を行う手段として,振動

する成分の対応表を示す.図 2.16に音声信号/o/の一部から得られた,0 Hzから 3000 Hz

までの周波数スペクトルを示す.黒色の波形が音声の周波数スペクトルである.図 2.16の

黒丸で示した等間隔に並んだピークが声帯振動に由来するX(ω)の成分であり,ピークの間

隔が音声の基本角周波数 ω0を表している.また,赤色の曲線は周波数スペクトルの包絡を

示しており,式 (2.5)のH(ω)に当たる成分である.周波数スペクトル包絡の形状は声道の

状態によって異なり,包絡のピークの位置が音声の音韻を決める.図 2.16の白丸で示した

周波数スペクトル包絡に表れる複数のピークをフォルマントと呼ぶ.

表 2.1: 基本角周波数 ω0と周波数スペクトル包絡の対応関係項目 生成位置 関係する成分

基本角周波数 ω0 声帯 抑揚,声の高低

周波数スペクトル包絡 声道 声質,音韻

𝜔0 2𝜔0 3𝜔0 4𝜔0 …

Spectrum Envelope

Frequency spectrum

図 2.16: 音声信号/o/の周波数スペクトルと包絡

2.3.2 無声音

無声音 y1(t)は呼気流のかすれによる音を音源とする音声であり,音声全体に対する無声音

の割合を考慮して h(t)を重みづけした h1(t)とホワイトノイズ r(t)との畳みこみで式 (2.7)

のように表される.

y1(t) = r(t) ∗ h1(t) (2.7)

10

Page 18: Hi-Fi 人工喉頭システム - Osaka Universityoshiro.bpe.es.osaka-u.ac.jp/thesis/bachelor/2016/...Hi-Fi 人工喉頭システム 吉村優輝 概要 疾患により声帯を失い通常の発声が不可能となった患者が会話を行う手段として,振動

h1(t)は周波数領域において式 (2.8)で定義される.F−1は逆フーリエ変換を表す.

h1(t) = F−1[H(ω)ap(ω)] (2.8)

ap(ω)を非周期性指標と呼び,各周波数において音声全体に対し非周期成分を持つ無声音が

含まれる割合を表す.

2.4 統計的声質変換

統計的声質変換は,入力話者と目的話者それぞれの音声から特徴量の対応関係を統計モデ

ルで表し,与えられた入力話者の音声を用いて統計モデルによる目的話者の音声特徴量の条

件付き期待値を求めることで,目的話者に近い音声特徴量を推定する手法である.

2.4.1 統計モデル

統計モデルはデータ群の母集団に推定される確率密度関数であり,P (z|λ)と表される.z

がデータの特徴量を,λが統計モデルのパラメータを示す.λは与えられたデータ群から決

定される.最も基本的な統計モデルの一つとしてガウス分布を示す.ガウス分布N (z;µ,Σ)

は平均ベクトルとµと分散共分散行列Σによって式 (2.9)で表される.T は行列の転置,−1

は逆行列を表す.

N (z;µ,Σ) =1

(2π)d2Σ

exp

(−1

2(z − µ)TΣ−1(z − µ)

)(2.9)

統計モデルのパラメータ λは µとΣである.与えられたデータから µとΣを決定するこ

とで同じ母集団に属する未知のデータを推定することが可能になる.

2.4.2 統計モデルの学習

統計モデルのパラメータは与えられたデータによる学習によって決定される.学習は,最

尤推定によって行われる.与えられたN 個の特徴量ベクトル z1,z2,. . .,zN に対し統計

モデルの対数尤度関数は式 (2.10)で表される.

lnP (z|µ,Σ) =

N∑n=1

lnP (zn|µ,Σ) (2.10)

この対数尤度関数を最大にするパラメータを定めることにより,統計モデルを決定する.

2.5 本研究の位置づけ

本研究では,電気式人工喉頭による人工喉頭音声を統計モデルを用いて変換し,肉声に近

づける手法を提案する.同一の健常者から別々に録音して得た人工喉頭音声と肉声それぞれ

11

Page 19: Hi-Fi 人工喉頭システム - Osaka Universityoshiro.bpe.es.osaka-u.ac.jp/thesis/bachelor/2016/...Hi-Fi 人工喉頭システム 吉村優輝 概要 疾患により声帯を失い通常の発声が不可能となった患者が会話を行う手段として,振動

のデータベースを用意して変換モデルを作成し,人工喉頭音声を変換モデルによる特徴量変

換で肉声に近づけることで従来研究に比べ声質の改善が期待される.

12

Page 20: Hi-Fi 人工喉頭システム - Osaka Universityoshiro.bpe.es.osaka-u.ac.jp/thesis/bachelor/2016/...Hi-Fi 人工喉頭システム 吉村優輝 概要 疾患により声帯を失い通常の発声が不可能となった患者が会話を行う手段として,振動

第3章 Hi-Fi人工喉頭システムの作成

本章では,統計的変換モデルを用いた人工喉頭音声の変換システムについて説明する.ま

ず,システムの構成を示したのち,音声変換の手法を説明し,統計モデルの構築に使用する

混合ガウスモデルの学習について示す.

3.1 システムの概要

システムの構成を図 3.1に示す.人工喉頭による音声を入力とし,マイクで録音された音

声は変換システムによって肉声に近づけられた声となり出力される.

User

Electrolarynx

Microphone

PC

Electrolaryngealspeech

Input System

Speaker

Converted speech

Output

Conversion model

図 3.1: Hi-Fi人工喉頭システム

変換システムのブロック線図を図 3.2に示す.入力された人工喉頭による音声を窓関数で

微小時間幅を持つフレームで分割する.各フレームごとの基本角周波数 ω0,周波数スペク

トル包絡,非周期成分をそれぞれ抽出し変換する.ω0は,揺らぎを与えるために各フレー

ムごとにガウス乱数によって ω0に変換される.周波数スペクトル包絡と非周期成分は,学

習によって得られた混合ガウスモデルにより変換される.変換された三つの特徴量を用いて

音声を再合成し出力する.

13

Page 21: Hi-Fi 人工喉頭システム - Osaka Universityoshiro.bpe.es.osaka-u.ac.jp/thesis/bachelor/2016/...Hi-Fi 人工喉頭システム 吉村優輝 概要 疾患により声帯を失い通常の発声が不可能となった患者が会話を行う手段として,振動

𝜔0

Spectrum Envelope

Aperiodicity

Gaussian Mixture Model

Add Fluctuations 𝜔0

Spectrum Envelope

Aperiodicity

Electrolaryngeal Speech Conversion System Converted Speech

図 3.2: 変換システムのブロック線図

3.2 人工喉頭音声の変換

入力された人工喉頭音声を窓関数によって微小時間幅を持つフレーム毎に切り出し,各フ

レームにおける音声の基本角周波数,周波数スペクトル包絡,非周期成分を求める.それぞ

れの成分を肉声に近づける処理により変換し,変換された成分を用いて音声を再合成する.

3.2.1 基本角周波数の変換

肉声の基本角周波数が声帯の振動数に対応するのに対し,人工喉頭による音声の基本角周

波数は人工喉頭の振動数に対応する.人工喉頭音声の単調さの原因として,与える振動が声

帯に比べ均一であることがあげられる.単調さを改善するために,基本角周波数に時間変化

を与える処理を行う.肉声の基本角周波数は短い時間の間でも一定ではなく,揺らぎを持つ

ことが知られており,人工喉頭の開発にも応用されている [9] [10].図 3.3に,人工喉頭によ

る音声と肉声それぞれによる一秒間の音声波形/o/の周波数スペクトルの一部を示す.周波

数スペクトルにおいて等間隔に表れるピークが基本角周波数 ω0に由来する成分である.人

工喉頭音声では急峻なピークが立っているのに対し,肉声では周波数帯の広がりを持つピー

クが確認できる.この周波数帯の広がりが声帯振動の周波数の揺らぎを表している.音声の

各フレームにおいて,基本周波数を中心の値とした正規分布に従う乱数によって基本周波数

を変化させることで,基本周波数の揺らぎを再現する.基本周波数 ω0は式 (3.1)で示すよ

うに,平均を ω0,標準偏差を表す定数 σとしたガウス分布に従う乱数Rによって,ω0に変

14

Page 22: Hi-Fi 人工喉頭システム - Osaka Universityoshiro.bpe.es.osaka-u.ac.jp/thesis/bachelor/2016/...Hi-Fi 人工喉頭システム 吉村優輝 概要 疾患により声帯を失い通常の発声が不可能となった患者が会話を行う手段として,振動

換される.ただし,0 < R < 1とする.

ω0 = ω0 + σR (3.1)

(a)Electrolaryngeal Speech (b)Real Speech

図 3.3: 音声の周波数スペクトル

(a)Electrolaryngeal Speech (b)Real Speech(人工喉頭音声)

(a)Electrolaryngeal Speech (b)Real Speech(肉声)

3.2.2 周波数スペクトル包絡の変換

通常の発声と人工喉頭による発声では,どちらも声道内での共鳴と構音動作が含まれるた

め,同様の周波数スペクトル包絡が得られると考えられる.しかし実際は,周波数スペクト

ルの急峻なピークにより,人工喉頭による音声の周波数スペクトル包絡は劣化する.また,

人工喉頭による音声の周波数スペクトル包絡は高周波数帯で減衰がみられ,聞き取りづらさ

に影響している.原因としては,外部から声道に振動音が伝わる過程で高周波数の音が伝導

されていないことが考えられる.従って,人工喉頭による音声の周波数スペクトル包絡を肉

声に基づいて変換し,高周波数帯を補完することで肉声に近づくことが期待される.周波数

スペクトル包絡の抽出にはケプストラム分析を用いる.以下に手順を示す.まず,式 (2.5)

で示した有声音の周波数スペクトルを両辺二乗する.

|Y0(ω)|2 = |X(ω)|2|H(ω)|2 (3.2)

式 (3.2)は対数を用いて,二つの成分を和の形で分解できる.

log |Y0(ω)| = log |X(ω)|+ log |H(ω)| (3.3)

15

Page 23: Hi-Fi 人工喉頭システム - Osaka Universityoshiro.bpe.es.osaka-u.ac.jp/thesis/bachelor/2016/...Hi-Fi 人工喉頭システム 吉村優輝 概要 疾患により声帯を失い通常の発声が不可能となった患者が会話を行う手段として,振動

式 (3.3)の両辺を逆フーリエ変換してケプストラムを得る.

F−1[log |Y0(ω)|] = F−1[log |X(ω)|] + F−1[log |H(ω)|] (3.4)

ケプストラムを記号 c(t′)で表す.

cY0(t′) = cX(t′) + cH(t′) (3.5)

音声波形/o/のケプストラムを図 3.4に示す.ケプストラムの変数 t′の次元は時間であるが,

元の時間そのものでないことからケフレンシと呼ばれ,ケプストラムにおけるフィルタ処理

はリフタと呼ばれる.音声の周波数領域とケプストラム領域における呼称の対応表を表 3.1

に示す.ケフレンシは周波数領域における周波数に対応し,周期の長い波を持つ周波数スペ

クトル包絡成分は低ケフレンシ領域に,周期の短い基本周波数成分は高ケフレンシ領域に

表れる.ケプストラムに低ケフレンシ領域を取り出すローパスリフタをかけることにより,

ケプストラムにおいて,声道の共鳴特性である周波数スペクトル包絡に相当する成分 cH(t′)

を抽出することができる.低ケフレンシ抽出の様子を図 3.5に示す.抽出した成分を元の形

に変形しなおすことで周波数スペクトル包絡H(ω)が得られる.人工喉頭による音声と肉声

の周波数スペクトルをそれぞれ抽出し,後述する混合ガウスモデルにより対応関係を求め,

変換に用いる.

-5000

0

5000

10000

0Quefrency(s) 0.25

-2.0

0

2.0

4.0

Cep

strum(dB)

図 3.4: 音声のケプストラム

3.2.3 非周期成分の変換

主に無声音に含まれる,呼気のかすれ等による非周期成分を計算するために群遅延 τg(ω)

を考える.群遅延は式 (3.6)で定義される,音声の周波数スペクトルにおける位相 ϕ(ω)を

16

Page 24: Hi-Fi 人工喉頭システム - Osaka Universityoshiro.bpe.es.osaka-u.ac.jp/thesis/bachelor/2016/...Hi-Fi 人工喉頭システム 吉村優輝 概要 疾患により声帯を失い通常の発声が不可能となった患者が会話を行う手段として,振動

-5000

0

5000

10000

0 Low quefrency

Low –Pass lifter

High quefrencyQuefrency(s) 0.25

-2.0

0

2.0

4.0

Cep

stru

m(d

B)

図 3.5: ローパスリフタによる低ケフレンシ抽出

表 3.1: 周波数領域とケプストラム領域における呼称の対応表周波数領域 (Spectrum) ケプストラム領域 (Cepstrum)

周波数 (Frequency) ケフレンシ (Quefrency)

フィルタ (Filter) リフタ (Lifter)

角周波数 ωで微分して得られる値であり,入力に対する各周波数帯の時間遅れを表す.

τg(ω) = −dϕ(ω)

dω(3.6)

音声の周波数スペクトルには式 (2.6)で示したように,声帯振動に由来する周期 ω0ごとの

ピークが表れるので,群遅延は周期 ω0で周期的な変化を持つ.図 3.6に τgの波形の様子を

示す.τg(ω)に含まれる周期的な成分を周期成分と定義する.周期成分を取り出すために,

𝜔𝜔0 2𝜔0 3𝜔0

𝜏𝑔

𝜏

図 3.6: τg(ω)の波形

τg(ω)に式 (3.7)で表される,幅 ω0/2の平滑化を行うことで τgの周期 ω0を持つ正弦波成分

17

Page 25: Hi-Fi 人工喉頭システム - Osaka Universityoshiro.bpe.es.osaka-u.ac.jp/thesis/bachelor/2016/...Hi-Fi 人工喉頭システム 吉村優輝 概要 疾患により声帯を失い通常の発声が不可能となった患者が会話を行う手段として,振動

を強調した τgsを得る.図 3.7に τg の平滑化と τgsを示す.

τgs(ω) =2

ω0

∫ ω04

−ω04

τg(ω + λ)dλ (3.7)

また,式 (3.8)に示すように幅 ω0で τgsを平滑化すると正弦波成分以外の成分 τgbが取り出

𝜔𝜔0 2𝜔0 3𝜔0

𝜏𝑔

𝜔0 2𝜔0 3𝜔0

𝜏𝑔𝑠

𝜏

𝜔

𝜏

図 3.7: 平滑化と τgs(ω)の波形

される.

τgb(ω) =1

ω0

∫ ω02

−ω02

τgs(ω + λ)dλ (3.8)

τgsから τgbを減算することで,τgから取り出された周期 ω0の正弦波成分 τDが求められる.

図 3.8に τgsと τgbより正弦波成分 τDを求める様子を示す.

τD(ω) = τgs(ω)− τgb(ω) (3.9)

得られた τDを音声の周期成分を表すパラメータとし,全体の群遅延と τDから周期成分と

非周期成分の割合を求めることで非周期成分を取り出す.

3.3 音声の変換モデル

3.3.1 混合ガウスモデル

音声の周波数スペクトル包絡と非周期成分を変換して,人工喉頭音声を肉声に近づける統

計モデルを作成する.モデルの学習には,人工喉頭音声と肉声それぞれで同一の文章を読み

あげた音声のデータセットを用いる.統計モデルは多峰性を持つ音声の特徴量に適した混合

ガウスモデルを採用する [7].混合ガウスモデルは,複数のデータの特徴量の結合ベクトル

18

Page 26: Hi-Fi 人工喉頭システム - Osaka Universityoshiro.bpe.es.osaka-u.ac.jp/thesis/bachelor/2016/...Hi-Fi 人工喉頭システム 吉村優輝 概要 疾患により声帯を失い通常の発声が不可能となった患者が会話を行う手段として,振動

𝜔0 2𝜔0 3𝜔0

𝜏𝐷

𝜔0 2𝜔0 3𝜔0

𝜏𝑔𝑠

𝜏𝑔𝑏

𝜏 𝜏

𝜔 𝜔

図 3.8: τD(ω)の導出

zの確率密度関数 P をM 個の重み付きガウス分布 λの足し合わせによって表した統計モデ

ルである.式 (3.10)に混合ガウスモデルの式を示す.

P (z|λ) =M∑

m=1

wmN (z;µm,Σm) (3.10)

ここで,N (z;µm,Σm)は,平均ベクトルがµm,分散共分散行列がΣmのm番目のガウス

分布であり,式 (3.11)で表される.

N (z;µm,Σm) =1

(2π)d2Σm

exp

(−1

2(z − µm)TΣ−1

m (z − µm)

)(3.11)

wmはm番目のガウス分布の重みであり,式 (3.12)を満たす.

w1, . . . ,wM ≥ 0,

M∑m=1

wm = 1 (3.12)

人工喉頭音声と肉声のデータを用いて,次節で説明する学習を行い,M 個のガウス分布の

重み,平均,分散を定め,混合ガウスモデルを作成する.人工喉頭による音声の特徴量が入

力されたとき,モデルから条件付き確率を計算することで,肉声の特徴量の期待値を推定し

変換に用いる.人工喉頭音声の特徴量ベクトル uと,肉声の特徴量ベクトル vの結合ベク

トル zが式 (3.13)で表されるとき,m番目のガウス分布における,結合ベクトル zの平均

ベクトルµmと分散共分散行列Σmは u,vそれぞれの平均ベクトルµ(u)m ,µ

(v)m ,自己共分

散行列Σ(uu)m ,Σ(vv)

m ,と共分散行列Σ(uv)m ,Σ(vu)

m によって,式 (3.14),(3.15)で表される.

z = [uT ,vT ]T (3.13)

19

Page 27: Hi-Fi 人工喉頭システム - Osaka Universityoshiro.bpe.es.osaka-u.ac.jp/thesis/bachelor/2016/...Hi-Fi 人工喉頭システム 吉村優輝 概要 疾患により声帯を失い通常の発声が不可能となった患者が会話を行う手段として,振動

µm =

[µ(u)m

µ(v)m

](3.14)

Σm =

(uu)m Σ

(uv)m

Σ(vu)m Σ

(vv)m

](3.15)

zの混合ガウスモデル P を用いて,uが与えられたときの,vの期待値 vは以下の式 (3.16),

(3.17),(3.18)で表される.

v = E[v|u]

=

∫P (v|u,λ)vdv

=

∫ M∑m=1

P (m|u,λ)P (v|u,m,λ)vdv

=M∑

m=1

P (m|u,λ)E(v)m

(3.16)

P (m|u,λ) =wmN (u;µ

(u)m ,Σ

(uu)m )

M∑n=1

wnN (u;µ(u)n ,Σ(uu)

n )

(3.17)

E(v)m = µ(v)

m +Σ(vu)m Σ(uu)−1

m (u− µ(u)m ) (3.18)

式 (3.17)は uが与えられたときの, m番目のガウス分布の重みの確率密度関数であり,式

(3.18)はm番目のガウス分布の平均と分散から求められる vの期待値である.

3.3.2 EMアルゴリズム

混合ガウスモデルの学習は,学習データであるN 個の特徴量ベクトル z1, . . . , zN それぞ

れに対し推定される確率の積が最大となるようなパラメータを求めることで行われる.求

めるパラメータはそれぞれのガウス分布の重み,平均ベクトル,分散共分散行列である.式

(3.19)で表される対数尤度関数を,それぞれのパラメータで偏微分して 0と置いた式を立て

ると,m番目のガウス分布の重みwm,平均ベクトル µm,分散共分散行列Σmはそれぞれ

20

Page 28: Hi-Fi 人工喉頭システム - Osaka Universityoshiro.bpe.es.osaka-u.ac.jp/thesis/bachelor/2016/...Hi-Fi 人工喉頭システム 吉村優輝 概要 疾患により声帯を失い通常の発声が不可能となった患者が会話を行う手段として,振動

式 (3.20), (3.21), (3.22)のように求められる.

lnP (z|w,µ,Σ) =N∑

n=1

lnM∑

m=1

wmN (zn|µm,Σm) (3.19)

wm =1

N

N∑n=1

γn,m (3.20)

µm =

N∑n=1

γn,mzn

N∑n=1

γn,m

(3.21)

Σm =

N∑n=1

γn,m(zn − µm)T (zn − µm)

N∑n=1

γn,m

(3.22)

ただし,γn,mは以下の式 (3.23)で定義される値であり,学習データが与えられたときの,混

合ガウスモデルの潜在変数の事後確率を表す.

γn,m =wmN (zn|µm,Σm))M∑l=1

wlN (zn|µl,Σl)

(3.23)

γn,mの定義に,それぞれのパラメータ wm,µm,Σmが使われており,パラメータを解析

的に求めることは難しいため,パラメータを繰り返し計算し,収束した値で定めるEMアル

ゴリズム (Expectation Maximization Algorithm)を用いる.

EMアルゴリズムは以下の手順で行われる.

1. パラメータ wm,µm,Σmに適当な初期値を与える.

2. 現在のパラメータから式 (3.23)の γn,mを計算する

3. 現在の γn,mを両辺 0として偏微分した式 (3.20),(3.21),(3.22)から wm,µm,Σm

を計算する.

4. ある閾値 ϵを設定して γn,mの現在からの変化量が ϵよりも小さいとき収束とし,収束

するまで手順 2.,3.を繰り返す.

5. パラメータ wm,µm,Σmを決定する.

収束したときの wm,µm,Σm を,学習データから推定された混合ガウスモデルのパラ

メータとする.

21

Page 29: Hi-Fi 人工喉頭システム - Osaka Universityoshiro.bpe.es.osaka-u.ac.jp/thesis/bachelor/2016/...Hi-Fi 人工喉頭システム 吉村優輝 概要 疾患により声帯を失い通常の発声が不可能となった患者が会話を行う手段として,振動

第4章 システム実装と評価

本章では,提案システムの実装と,システムによる音声変換の評価について述べる.

4.1 システムの実装

Microphone

Vibrator

Micro computer

To PC

図 4.1: 作製したシステム

Vibrator

Wood chip

Input

図 4.2: 人工喉頭デバイス

USB port

GND

Digital Pin8

PC

MotorVibration

User

Arduino UNO

Microphone

Speech

Converted Speech

Input

Output

Conversion

図 4.3: システムのブロック線図

22

Page 30: Hi-Fi 人工喉頭システム - Osaka Universityoshiro.bpe.es.osaka-u.ac.jp/thesis/bachelor/2016/...Hi-Fi 人工喉頭システム 吉村優輝 概要 疾患により声帯を失い通常の発声が不可能となった患者が会話を行う手段として,振動

図 4.1に作製したデバイスを示す.本システムは振動子とマイクロコンピュータによる人

工喉頭デバイスと PC,マイクロフォンで構成される.人工喉頭には,振動子に振動板とし

て木片を張り付けた図 4.2のデバイスを使用した.図 4.3にシステムのブロック線図を示す.

振動子の仕様を表 4.1に示す.振動子の周波数特性を図 4.4に示す.また,デバイスの振動

を制御するために,プログラムにより入出力の制御が可能なマイクロコントローラ Arduino

UNO [14]を用いた.振動子に与える電圧は 2.5 V,振動子の振動数は 100 Hzとした.音声

の録音には市販のマイクロフォン (SONY社製 ECM-717)を用いた.電源および音声の変

換と出力には PCを用いた.

表 4.1: 振動子の仕様 [13]

項目 仕様内容

メーカー名 Tactile Labs Inc.

製品名 Haptuator Mark II

規格 32×9×9 mm, 9.5×10−3 kg

対応周波数 90~1000 Hz

加速度 7.5g m/s2(3 V,125 Hz)

内部抵抗値 5.5 Ω

図 4.4: 振動子の周波数特性 [13]

23

Page 31: Hi-Fi 人工喉頭システム - Osaka Universityoshiro.bpe.es.osaka-u.ac.jp/thesis/bachelor/2016/...Hi-Fi 人工喉頭システム 吉村優輝 概要 疾患により声帯を失い通常の発声が不可能となった患者が会話を行う手段として,振動

4.2 変換モデルの作成

変換モデルの作成は戸田らの手法 [7]に基づいて行った.変換モデルの学習は,被験者の

肉声,および作製した人工喉頭により発声した音声をそれぞれ録音したデータにより行っ

た.音声の読み上げには,音声分析や音声認識に使われる音素バランス文 [16]80 文を用い

た.録音は量子化レベル 16ビット,サンプリング周波数 16000 Hzにて行い,解析のフレー

ムサイズは 80データ点 (5 ms)とした.入力した人工喉頭による音声の基本周波数 F0は振

動子の振動数と同じ 100 Hzとして考え,各フレームにおいて 100 Hzを平均とした,標準

偏差 1 Hzのガウス分布に従う乱数により揺らぎを与えた.モデル学習の対象となるフレー

ムごとの周波数スペクトル包絡と非周期成分は共に 27次元ベクトルとし,肉声と人工喉頭

による音声の周波数スペクトル包絡と非周期成分それぞれの混合ガウスモデルを作成した.

4.3 提案システムによる音声の変換

以上のように作製した人工喉頭システムにより,人工喉頭による音声を変換した.図 4.5

に一例として,人工喉頭による変換前の音声/o/,変換された音声/o/,変換モデルに使用し

た肉声/o/それぞれの周波数スペクトルを示す.

(b)Converted Speech(a)Electrolaryngeal Speech (c)Real Speech

図 4.5: 音声の周波数スペクトル

24

Page 32: Hi-Fi 人工喉頭システム - Osaka Universityoshiro.bpe.es.osaka-u.ac.jp/thesis/bachelor/2016/...Hi-Fi 人工喉頭システム 吉村優輝 概要 疾患により声帯を失い通常の発声が不可能となった患者が会話を行う手段として,振動

4.4 評価

試作した人工喉頭システムが,人工喉頭音声を肉声に近づけることができるか評価するた

めに,変換音声についてケプストラム距離による客観評価と,文章を読み上げた音声につい

て聴取実験による主観評価を行った.

4.4.1 ケプストラム距離による評価

音声の周波数スペクトルの類似度を示す指標として,周波数スペクトルのひずみを表すケ

プストラム距離が一般的に用いられる [17].音声AとA′のあるフレームmにおける k番目

のケプストラムをそれぞれ cA(m, k),c′A(m, k)として,ケプストラム距離CDAA′は式 (4.1)

で表される.M はフレームの総数,K は各フレームのケプストラムの次元を表す.

CDAA′ =1

M

M−1∑m=0

(1

1 +K

K∑k=1

(cA(m, k)− c′A(m, k))2

)(4.1)

CDAA′が小さいほど,音声AとA′の声質はより近いものといえる.試作した人工喉頭シス

テムによる音声が肉声に近いかを評価するために,入力した変換前音声と提案システムによ

り変換した音声それぞれについて,変換モデルの学習に用いた肉声とのケプストラム距離を

計算し,類似度を計算した.音声/a/,/i/,/u/,/e/,/o/ について肉声とのケプストラム

距離を計算した結果を表 4.2に示す.また,ケプストラム距離の標準偏差を表 4.3に示す.

ケプストラム距離は音声変換により小さくなる傾向にあり,提案システムによる変換によっ

て音声が肉声に近づくことが確認できた.一方,各距離の標準偏差は変換後音声が変換前よ

りも高いことが分かった.

表 4.2: ケプストラム距離

/a/ /i/ /u/ /e/ /o/ 平均

変換前 0.163 0.220 0.221 0.201 0.130 0.187

変換後 0.143 0.132 0.147 0.223 0.123 0.154

表 4.3: ケプストラム距離の標準偏差

/a/ /i/ /u/ /e/ /o/ 平均

変換前 0.0190 0.0277 0.0610 0.0430 0.0341 0.0530

変換後 0.0418 0.0316 0.0510 0.0797 0.0650 0.0667

25

Page 33: Hi-Fi 人工喉頭システム - Osaka Universityoshiro.bpe.es.osaka-u.ac.jp/thesis/bachelor/2016/...Hi-Fi 人工喉頭システム 吉村優輝 概要 疾患により声帯を失い通常の発声が不可能となった患者が会話を行う手段として,振動

4.4.2 聴取実験

試作した人工喉頭システムについて,変換による音声の改善の評価のために,変換前音声

と,提案システムによる変換音声それぞれで文章を読み上げた音声データを 10データずつ

用意し,被験者による聴取実験を行った.読み上げる文章には音素バランス文 [16]を用い

た.評価は被験者に対して音声の聞き取りを実施し,聞き取りやすさと肉声らしさについて

各 7段階の点数をつけてもらうことで行った.被験者計 4名から 80の回答が得られた.表

4.4,4.5に人工喉頭による音声とモデルにより変換した音声の,聞き取りやすさ,肉声らし

さそれぞれの平均点と分散を示す.なお,評価は 1を最低とし,7に近づくほど高い.

表 4.4: 変換前音声の評価

被験者 1 被験者 2 被験者 3 被験者 4 平均

聞き取りやすさの平均 3.5 2.7 4.8 3.4 3.6

聞き取りやすさの標準偏差 0.45 0.61 0.96 1.04 0.92

肉声らしさの平均 3.3 1.6 3.9 3.6 3.1

肉声らしさの標準偏差 0.21 0.24 0.69 1.04 0.93

表 4.5: 提案システムによる変換音声の評価

被験者 1 被験者 2 被験者 3 被験者 4 平均

聞き取りやすさの平均 1.9 1.9 2.0 2.7 2.13

聞き取りやすさの標準偏差 0.49 0.69 0.60 1.41 0.73

肉声らしさの平均 2.3 2.9 2.2 3.9 2.82

肉声らしさの標準偏差 0.61 0.29 0.16 0.89 0.72

4.5 考察

表 4.2より各音声にケプストラム距離の違いがみられる.原因としては口を大きく開いて

発声する音声/a/,/o/と比較して音声/i/,/u/,/e/の発声は音量が小さくなりSN比が増

加している可能性が考えられる.各音声のケプストラム距離の違いを調べるため,各フレー

ムでのケプストラム距離を求める.各音韻についてフレームごとのケプストラム距離を求め

た結果を図 4.6,4.7,4.8,4.9,4.10に示す.赤色が変換前の音声と肉声,青色が変換後の

音声と肉声のケプストラム距離を示す. 図 4.7,4.8より音声/i/,/u/に高周波成分が表れ

ており,SN比が高いことがわかる.また,音声/a/,/u/,/o/ にみられる急峻なピークか

ら音声合成の際に非連続的な音声が生じていることが考えられ,聴取実験の結果において変

換後音声の聞き取りやすさ,肉声らしさが低かった原因と推測される.

26

Page 34: Hi-Fi 人工喉頭システム - Osaka Universityoshiro.bpe.es.osaka-u.ac.jp/thesis/bachelor/2016/...Hi-Fi 人工喉頭システム 吉村優輝 概要 疾患により声帯を失い通常の発声が不可能となった患者が会話を行う手段として,振動

0.5

0.25

00 0.25

BeforeAfter

0.125Quefrency(s)

Cep

strum

Distance(dB)

図 4.6: 音声/a/

0.5

0.25

00 0.25

BeforeAfter

0.125Quefrency(s)

Cep

strum

Distance(dB)

図 4.7: 音声/i/

0.5

0.25

00 0.25

BeforeAfter

0.125Quefrency(s)

Cep

strum

Distance(dB)

図 4.8: 音声/u/

0.5

0.25

00 0.25

BeforeAfter

0.125Quefrency(s)

Cep

strum

Distance(dB)

図 4.9: 音声/e/

0.5

0.25

00 0.25

BeforeAfter

0.125Quefrency(s)

Cep

strum

Distance(dB)

図 4.10: 音声/o/

27

Page 35: Hi-Fi 人工喉頭システム - Osaka Universityoshiro.bpe.es.osaka-u.ac.jp/thesis/bachelor/2016/...Hi-Fi 人工喉頭システム 吉村優輝 概要 疾患により声帯を失い通常の発声が不可能となった患者が会話を行う手段として,振動

第5章 結論

本研究では,統計的変換モデルを用いることにより,人工喉頭による音声を肉声に近い音

声へと変換するシステムを提案し実装した.人工喉頭の音声の不自然さや単調さを改善する

ために,基本周波数,周波数スペクトル包絡,非周期成分の三つの特徴量の変換を行った.

基本周波数について各フレームごとにガウス分布に従う乱数によって揺らぎを与えた.ま

た,周波数スペクトル包絡と非周期成分について,人工喉頭による音声と肉声のデータセッ

トから混合ガウスモデルに基づく統計的変換モデルをそれぞれ作成し,モデルによる音声の

変換を行った.

提案システムの評価のために,変換音声についてケプストラム距離と聴取実験による評価

を行った.その結果,聴取実験では有意な結果は得られなかったが,ケプストラム距離によ

る評価で変換音声が変換前の音声に比べ肉声に近づくことが確認された.

本システムにより,通常の人工喉頭に比べ,より肉声に近い音声によって他者とのコミュ

ニケーションが可能となり,喉頭摘出患者の生活の質の向上が期待される.

28

Page 36: Hi-Fi 人工喉頭システム - Osaka Universityoshiro.bpe.es.osaka-u.ac.jp/thesis/bachelor/2016/...Hi-Fi 人工喉頭システム 吉村優輝 概要 疾患により声帯を失い通常の発声が不可能となった患者が会話を行う手段として,振動

謝 辞

本研究は大阪大学基礎工学部で行った.

大城研究室に配属されてから,多くのことを学び,研究の厳しさ,そしてやりがいを知る

ことができました.本研究において実験環境の提供をはじめ,研究テーマに関する御助言や

本論文の添削など,多大なるご指導をしてくださいました,大阪大学 大学院基礎工学研究

科 大城 理 教授に厚く御礼申し上げます.

本研究に関し幾度となく相談にのっていただき,適切な御助言や御指摘をしていただいた

大阪大学 大学院基礎工学研究科 黒田嘉宏 准教授に厚く御礼申し上げます.

本研究に必要な機材の購入手続きや,研究室の機材の扱いなど本実験に関して適切な御助

言をしてくださった,大阪大学 大学院基礎工学研究科 吉元俊輔 助教に厚く御礼申し上げ

ます.

研究室の事務処理など,実験に必要な環境を整備してくださった,秘書の杉浦延予氏に厚

く御礼申し上げます.

本論文の執筆に対する御助言,本稿の添削など多くの指導をしてくださり,研究の進行

を常に気遣ってくださったスーパーバイザーの原口亮文氏,日夏俊氏に深く感謝致します.

また,実験機器の取り扱いをはじめ,研究生活における様々な御助言をいただきました,

井手口裕太氏に深く感謝いたします.そして,本実験を行うためにご配慮くださいました大

城研究室の先輩方であります,細田椋平氏,加藤弘樹氏,Nadhifa AYUNISA氏,桑谷達之氏,

武村浩志氏,山田恵之氏にお礼申し上げます.最後に,本研究に関して多くの意見を交換しあ

い,共に励ましあった同期の加藤拓実氏,薗田拓哉氏,西田直樹氏,蜂谷俊樹氏,福田和行氏

に感謝します.

本研究における被験者実験は,大阪大学大学院基礎工学研究科 人を対象とした研究に関

する倫理委員会の承認(28-9)を得ており,被験者には実験内容について説明を行い,書面

にて同意を得られた場合にのみ測定を行った.

29

Page 37: Hi-Fi 人工喉頭システム - Osaka Universityoshiro.bpe.es.osaka-u.ac.jp/thesis/bachelor/2016/...Hi-Fi 人工喉頭システム 吉村優輝 概要 疾患により声帯を失い通常の発声が不可能となった患者が会話を行う手段として,振動

参考文献

[1] 橋場 参生. 抑揚制御機能を備えた電気式人工喉頭の製品化とユーザによる評価. バイオ

メカニズム学会誌, Vol. 26, No. 4, pp.182-187, 2002.

[2] Cara Stepp, James Heaton, Rebecca G Rolland, Robert E Hillman. Neck and face

surface electromyography for prosthetic voice control after total laryngectomy. IEEE

Transactions on Neural Systems and Rehabilitation Engineering, Vol. 17, No. 4,

pp.146-155, 2009.

[3] Toshiyuki Arai. The replication of Chiba and Kajiyama’s mechanical models of the

human vocal cavity. Journal of the Phonetic Society of Japan, Vol. 5, No. 2, pp.31-38,

2001.

[4] 阪喉会. http://www.hankoukai.jp/TOP.html. 2017/2/6閲覧.

[5] 株式会社電制. http://www.dencom.co.jp. 2017/2/6閲覧.

[6] Kathleen F Nagle, James Heaton. Perceived Naturalness of Electrolaryngeal Speech

Produced Using sEMG-Controlled vs. Manual Pitch Modulation. IOP Conference

Series Materials Science and Engineering, 2016.

[7] Tomoki Toda, Alan W Black, Keiichi Tokuda. Voice Conversion Based on Maxi-

mum Likelihood Estimation of Spectral Parameter Trajectory. IEEE Transactions on

Audio, Speech, and Language Processing, Vol. 15, Issue 8, pp.2222-2235, 2007.

[8] Masanori Morise, Hideki Kawahara, Takanobu. Nishiura. Rapid F0 Estimation for

High-SNR Speech Based on Fundamental Component Extraction. Trans. IEICE, Vol.

J93-D, No. 2, pp.109-117, 2010.

[9] 株式会社電制. http://www.dencom.co.jp/download/others/y2YURAGI_20150408.

pdf. 2017/1/23閲覧.

[10] 電気式人工喉頭. 伊福部達, 学校法人東海大学, 地方独立行政法人北海道立総合研究機

構, 株式会社電制, 北海道. 特許第 4940408号. 2012/03/09登録.

30

Page 38: Hi-Fi 人工喉頭システム - Osaka Universityoshiro.bpe.es.osaka-u.ac.jp/thesis/bachelor/2016/...Hi-Fi 人工喉頭システム 吉村優輝 概要 疾患により声帯を失い通常の発声が不可能となった患者が会話を行う手段として,振動

[11] Masanori Morise. CheapTrick, a spectral envelope estimator for high-quality speech

synthesis. Speech Communication, Vol. 67, pp.1-7, 2015.

[12] Masanori Morise. D4C, a band-aperiodicity estimator for high-quality speech synthe-

sis. Speech Communication, Vol. 84, pp.57-65, 2016.

[13] Tactile Labs Inc. http://tactilelabs.com/wp-content/uploads/2012/07/

TL002-09-A_v1.01.pdf. 2017/1/18閲覧.

[14] Arduino UNO. https://www.arduino.cc/en/Main/ArduinoBoardUno. 2017/1/18

閲覧.

[15] Masanori Morise, Fumiya Yokomori, and Kenji Ozawa. WORLD: a vocoder-based

high-quality speech synthesis system for real-time applications. IEICE transactions

on information and systems, Vol. E99-D, No. 7, pp.1877-1884, 2016.

[16] 国立情報学研究所. http://research.nii.ac.jp/src/phoneticallybalanced.

html. 2017/1/18閲覧.

[17] Ling Guo, Takeshi Yamaday, Shigeki Miyabez, Shoji Makinox and Nobuhiko

Kitawaki. Performance estimation of noisy speech recognition using spectral dis-

tortion and recognition task complexity. Acoustical Science and Technology Vol. 37,

No. 6, pp.286-294, 2016.

31

Page 39: Hi-Fi 人工喉頭システム - Osaka Universityoshiro.bpe.es.osaka-u.ac.jp/thesis/bachelor/2016/...Hi-Fi 人工喉頭システム 吉村優輝 概要 疾患により声帯を失い通常の発声が不可能となった患者が会話を行う手段として,振動

付 録A 音素バランス文 [16]

あらゆる 現実を すべて 自分の ほうへ ねじ曲げたのだ。

一週間ばかり ニューヨークを 取材した。

テレビゲームや パソコンで ゲームを して 遊ぶ。

物価の 変動を 考慮して 給付水準を 決める 必要がある。

救急車が 十分に 動けず 救助作業が 遅れている。

言論の 自由は 一歩 譲れば 百歩も 千歩も 攻めこまれる。

会場の 周辺には 原宿駅や 代々木駅も あるし ちょっと 歩けば 新宿御苑駅も ある。

老人ホームの 場合は 健康器具や ひざ掛けだ。

ちょっと 遅い 昼食を とるため ファミリーレストランに 入ったのです。

嬉しいはずが ゆっくり 寝ても いられない。

先だって ごく短期間だが 久方ぶりに ヨーロッパへ行った。

大ピラミッド近くに 二つの部屋が 埋まっていたのである。

日本のエスペラントとして やはり標準語は必要だ。

年齢はまだ十四だが 数え切れぬほど 日本の舞台を踏んだので 日本語はぺらぺらだそうだ。

何もかもがたちまちに腐り 指紋でよごれ ぐにゃぐにゃになってしまうようだ。

首相自ら 国民一人一人 百ドル 舶来品を買うようにすすめた。

前者を 普遍文化と呼び 後者を 個別文化と呼ぶことにする。

ユーザーにも責任がある との論理は 暴論と言わざるをえません。

着用中に ダウンやフェザーが飛び出す原因ともなります。

弟子に腕を支えられながら 最後まで引き続けた。

逆境に耐えたこのプロデューサーの作品には ヒューマニズムが 脈々と息づいている。

普通 中距離トラックのドライバーは 中年の人が多い。

気管支ぜんそくや鼻炎も広まっている。

見上げるフジもいいが 路地植え また 鉢植えの花もきれいです。

翌年 父の選挙を手伝って 遊説行脚のマネージャーを勤めた。

パジャマとティーシャツがめくれて 薄い肋骨の下に ぺちゃんこの腹が見えた。

節目に合わせて 本会議場を 半分にちょん切るとするか。

32

Page 40: Hi-Fi 人工喉頭システム - Osaka Universityoshiro.bpe.es.osaka-u.ac.jp/thesis/bachelor/2016/...Hi-Fi 人工喉頭システム 吉村優輝 概要 疾患により声帯を失い通常の発声が不可能となった患者が会話を行う手段として,振動

また 襟や 袖口ポケット口などが 油汚れで変色を起こすこともあります。

ワインと 日本酒とを問わず 原産地 成分表示を急ぐべきではないか。

午前八時 健康な捕虜は 作業所へ トラックで出発する。

やがて 証拠の書類や 物品が押収され 諸君は 取り調べのため 国税局に連行される。

文芸編集者としては 作家たちに 最も信頼されている 名編集者だ。

あの坂をのぼれば 海が見える。

エネルギーを節約するための技術を開発することも大切である。

開放は進むが そのことで 日本の輸入が急増し 貿易黒字が急減するとは思えない。

手抜きがあれば いい布は 生まれない。

生みの親は サンフランシスコに住む日系人たちだった。

現地の発音を重んじて そう呼ぶようになった。

その列車が 大口を開けて 国家秘密法をちらつかせている。

十年前 日本の一人当たりのGDPは 世界で 十六位程度だった。

もう夢中になって 玉ねぎ じゃがいも あらゆる野菜を買い込む。

ぐずぐず考えていたら 三十分も フトンから出られなかった。

一年ほど前からひそかに茶を習い始めている。

水が上がってきたら あとはゆっくりと 上下させればよい。

近くの原野で 乗馬 射撃 狩猟などを楽しむことができる。

しかし そうなるとかえって眠れず寝酒の量もふえてゆく。

夫人名義になっている住宅の半分を わざわざ除いて公表する。

わたしは 安心とあせりがごちゃまぜの 複雑な心境だ。

包丁の手を止めて 流れる涙をエプロンでぬぐったのは タマネギのせいだけではない。

わたしには 約束時間ぎりぎりに 家を出るという 悪い癖がある。

女の子は 以前は パンより御飯が好きで 喜んでお代わりをした。

これは 私よりよほど重症である。

細長い指先で 激しく鍵を叩く。

幼児は しばしば フィクションと 現実とを 混同する。

新聞 週刊誌 雑誌にかぎらず ほとんどすべての取材記者は 自分の予定原稿を持って やって

くるのだ。

世間体を繕い 他人の 自分への評価や印象を いつも気づかう人が多いのも 事実であろう。

汚染は もはや地球規模であり 人類は その 種の存続さえ 危うくされているのだ。

自分を守ってくれる人が欲しくて 必死だった。

収入とは無関係のボランティアであっても 続けると決意した以上 踏み出さねばならない。

主人の仕事は 建築業で 作業服を着て 出勤します。

33

Page 41: Hi-Fi 人工喉頭システム - Osaka Universityoshiro.bpe.es.osaka-u.ac.jp/thesis/bachelor/2016/...Hi-Fi 人工喉頭システム 吉村優輝 概要 疾患により声帯を失い通常の発声が不可能となった患者が会話を行う手段として,振動

歴史家は まるで 純情無垢な調子で 物語を始める。

ご存じの通り 不良クラッチに関する補償は 製造側に原因がある場合のみに限られています。

それで窓をあけると 火傷をしそうな熱風が吹きこんでくる。

舗装という文明の象徴は しばしば 逆流現象を起こして 人間に害をもたらす。

昼から夜まで およそ子供の考えつく ありとあらゆる遊びをやった。

一方で 日本と米国の金融機関のシティ進出は目ざましい。

お偉方がぞくぞくと登場し 恐縮する。

どこへ行っても 彼の周囲には 自然にファンが生まれた。

裏返せば それだけ 事件を重大視している証拠である。

ヒンズー教 チベット仏教にとって ここは 宇宙の中心 神聖侵すべからざる聖域である。

安心して舟をこぐこともできれば やじもとばせる。

このタイプの人間が 一番多量の仕事をする。

三十日間を超える 綿密なインタビューの成果だろう。

結婚も離婚も 他人からは 有無を言わさず 自分から決定した。

人は 手や指先の繊細な動きや 目の表情がすばらしいという。

また 御都合がよろしければ その晩 夕食に御招待したいと存じます。

自然の知恵でよく知っている。

天然記念物級の規模という学者の意見もあった。

これは漁民たちの日常経験である。

山村では 若い力が減り 悩んでいる。

34