スペシャルセッション...

スペシャルセッション

「音楽情報処理と機械学習」

NTT コミュニケーション科学基礎研究所

メディア情報研究部大石康智

歌声情報処理：歌唱スタイルモデル

研究の根底にある興味

響きのある声質，音量変化，

装飾物，音符からの逸脱

★うまさ

★らしさ身体的・心理的な状態

⇒ 意識的に制御しない

★音符の高さと長さ

「きらきら星」

⇒ 意識的に制御する

★歌詞きらきらひかるおそらのほしよ

歌い手の「うまさ」や「らしさ」のモデリング

（記号や文字として，書き起こせない情報）

★うまさ

② 現象の物理的特性の考慮 ①大量データの利用，

アプローチ

機械学習を用いた研究の進展

（1）「歌声と話声の違い」を探る

（2）「音高（F0）の動き」を探る

（3）「F0軌跡の生成過程」を探る

通常の話声と大きく違う，歌声特有

の音響的特徴にこそ，歌い手の

「らしさ」や「うまさ」が隠される！

ガウス混合モデル（GMM）サポートベクターマシン（SVM）

ビブラートをはじめ，様々な動的変動

成分が含まれるF0の動きを可視化

して分析したい！

ガウス混合モデル（GMM）

ビブラートをはじめ，様々な動的変動

成分が含まれるF0の動きを可視化

して分析したい！

発声器官を模擬した物理モデルを

利用して，歌い手の「うまさ」や

「らしさ」を分離して特徴抽出する！

ガウス混合モデル（GMM）

引用：Gaussian processes

for Machine Learning

隠れマルコフモデル（HMM） EMアルゴリズム，ガウス過程

話声と大きく異なる，歌声特有の音響的特徴の調査

⇒ 歌い手の「らしさ」や「うまさ」が隠されている特徴を探す！

声質：メル周波数ケプストラム係数（MFCC），DMFCC

音高：基本周波数（F0），DF0

DF0 [cent / ms] 0 40 80 -80 -40

機械学習の導入

⇒ GMMによる分布の学習

例： DF0の場合

歌声

話声

事後確率に基づく識別

DF0 [cent / ms] 0 40 80 -80 -40

例： DF0の場合

歌声

話声

※人間の歌声／話声の

識別能力と整合する結果

相空間（F0, DF0, DDF0, …で構成される空間）の利用

⇒ 渦（アトラクタ）が「うまさ」や「らしさ」を特徴づける！

4400 4800 5200 5600 4400 4800 5200 5600 F0 [cent]

0 [cent/m

F0 [cent]

4400 4800 5200 5600 4400 4800 5200 5600 F0 [cent]

0 [cent/m

F0 [cent]

4400 4800 5200 5600 F0 [cent]

4400 4800 5200 5600 4400 4800 5200 5600 F0 [cent]

0 [cent/m

F0 [cent]

事後確率に基づく識別

4400 4800 5200 5600 F0 [cent]

F0軌跡の生成モデル（藤崎モデル，齋藤モデル）を参考

⇒ 発声器官の物理制約の下，「うまさ」や「らしさ」の特徴抽出

時間周波数

微細変動成分

F0軌跡

時間

周波数

表現指令

時間 2次系

時間

表現成分

時間

音符発音指令

時間

周波数

2次系

音符成分

⇒ HMMによる指令モデル

EM法によるパラメータ推定

時間周波数

微細変動成分

F0軌跡

時間

周波数

表現指令

時間 2次系

時間

表現成分

時間

音符発音指令

時間

周波数

2次系

音符成分

時間周波数

微細変動成分

F0軌跡

時間

周波数

表現指令

時間 2次系

時間

表現成分

時間

音符発音指令

時間

周波数

2次系

音符成分

うまさらしさ

らしさ音符

らしさ

時間周波数

微細変動成分

F0軌跡

時間

周波数

表現指令

時間 2次系

時間

表現成分

時間

音符発音指令

時間

周波数

2次系

音符成分

うまさらしさ

らしさ音符

らしさ

補足1：トラジェクトリモデルとの関係

静的特徴量系列ベクトルを確率変数としたモデルの尤度最大化

・・・

F0軌跡の確率モデル

・・・

2次系の微分方程式の差分近似

：固定 or 可変

・・・

：固定 or 可変

出力確率分布を単一ガウス分布とするHMMを想定すると，

状態系列 HMMパラメータ状態系列から決まる平均・分散

・・・

：固定 or 可変

出力確率分布を単一ガウス分布とするHMMを想定すると，

状態系列 HMMパラメータ状態系列から決まる平均・分散：カーネル関数を

用いて計算する

ガウス過程

補足2：デモ

「ビブラート」や「こぶし」を単に検出するだけでなく，

表現の意図として詳細に取り出せる

どんなメロディにも「うまさ」や「らしさ」を転写できる

機械学習の効果と限界

効果

大量のデータを用いさえすれば，

潜在する知識や特性をデータに

語らせることができる

予測できる

効果

大量のデータを用いさえすれば，

潜在する知識や特性をデータに

語らせることができる

予測できる

重要なこと

音響学や生理学などの知見に基づいて，

信号の特徴やその背後にある生成過程を考慮すること

人間の知覚と整合する結果が得られるか確認すること

数理的に記述できたからといって，モデルパラメータの学習がうまくいくとは限らない，前処理・初期状態決定も重要

大規模データを扱うため，実装方法にも工夫が必要

今後の展開および

実用化に向けて

今後の展開および実用化に向けて

音韻・音量も含め，「うまさ」のバリエーションの学習

楽譜と歌詞

はれたるあおぞらただようくもよ

・・・

パターン1

歌い手Aの「うまさ」モデル

パターン2

パターンK

曲調1

パターンの遷移行列

曲調 L

楽譜と歌詞

歌声音響信号

・・・

パターン1

パターン2

パターンK

曲調1

曲調 L

楽譜と歌詞

歌声音響信号

・・・

パターン1

パターン2

パターンK

曲調1

曲調 L

パターンの数が未知 ⇒ ノンパラメトリックベイズ法？（モデルの複雑度も大規模データから推定する）

楽譜と歌詞

歌声音響信号

・・・

パターン1

パターン2

パターンK

曲調1

曲調 L

楽譜と歌詞

歌声音響信号

・・・

パターン1

パターン2

パターンK

曲調1

曲調 L

スペシャルセッション...

Documents

7 東京シティ・バレエ団 11 トリプル・ビル2020...笑激!! お笑いカーニバル in こうとう歌って健康!! 歌声コンサート春風亭小朝・清水ミチコの大演芸会

ROCALOID ~中国発のオープンソース歌声合成~

声速输入法推广普通话的输入法€Ž样打字...3 三声（上声） v ≈18.50% 三声，取三声的声调符号v guov=果 4 四声（去声）省略 ≈32.20% 为快速打字，声调字母省略

心に響く、懐かしい、日本のうた』童謡・唱歌・抒情歌・日本歌曲 … · 童謡・唱歌・抒情歌・日本歌曲・歌謡曲の音楽会 “自然で語りかけるような発音”“心に届く澄んだ歌声”に

音声音響行動情報処理特論音楽情報処理音声音響行動情報処理特論 ~ 音楽情報処理~ ... 学位論文：多様な歌唱様式を予測・説明する歌声音響信号の分析合成

让校园充满书声、歌声和笑声epaper.bsyjrb.com/yjrb/page/1/2019-04-24/A06/...责编/版式：农琼校对：蒙怡 2019年4月24日星期三 6 教育环境育人，文化育人。青少年是“拔

《上古情歌》再现上古传奇 - dfcxb.com · 男声小合唱《阿拉木汗》也是王洛宾成功改编的一首著名的维吾尔族民歌，这首歌流传于新疆吐鲁番地区的维族双人歌舞曲，描绘了

天使歌声穿云霄高山响应声飘遥幽雅回音绕大地基督降生佳音报

トピックモデルを用いた歌声特徴量の分析sap.ist.i.kyoto-u.ac.jp/members/yoshii/slides/sigmus...トピックモデルを用いた歌声特徴量の分析 1 中野倫靖,

黄河艺术团带来“秋的旋律” - newworldtimes.us《阿拉木汗》，以及极富有民族色彩的佳作《茶山情歌>和《听泉》。歌曲《音乐之声》是美国电影《The

讨论：这个盲人为什么能用自己的琴声唱响自信之歌？我们又该如何唱响自己的自信之歌呢？

歌声と朗読音声の識別システム構築のための人間の識別能力の … · 歌声と朗読音声の識別システム構築のための人間の識別能力の調査

LEO MANAmantrax.main.jp/top/wp-content/uploads/2014/05/LEO_MANA.pdfLEO MANA 女性声明リスト: ナディアソプラノ歌手: 湯浅桃子ピアニスト: 斎藤久実アジアの声明と説法の二時間アメージンググレイス、世界の伝統曲アベマリア、

德國歌謠曲風的社會理解職工歌曲與漫遊歌曲

歌唱音声モーフィングに基づく声質と歌い回し転写の知覚的検討 · 2007-04-07 · map. In this paper, an extension of STRAIGHT-based morphing, which enables

河北师范大学hbszjs.hebtu.edu.cn/.../1601431092281077523.docx · Web view1.儿童歌曲演唱完整，音准节奏准确，咬字吐字清晰，歌词准确无误；真假声结合自然，声音通畅

令和2年5月22日横浜市立旭中学校第2学年 ...28… · ・「夢の世界を」を各声部歌唱しましょう。 Ⓐ. とⒷとではどんな違いがあるか (声部の動きや伴奏がどう変化してい

仿编儿歌 —— 四季歌（教学设计）

第13回声楽アンサンブルコンテスト全国大会 319 22第13回声楽アンサンブルコンテスト全国大会感動の歌声響け、ほんとうの空に。開催日程等

C3 Jateng 1002 new - guojiribao.comguojiribao.com/pdf/gjrb/20181002/C3.pdf · 华文歌剧，生活欢愉 ——记培民学校三宝垄小学部“培民好声音”华文歌唱比赛