音楽で理解する情報科学のいろは

音楽で理解する

情報科学のいろは

日本大学文理学部情報科学科

准教授北原鉄朗[email protected]

http://www.kthrlab.jp/

Twitter: @tetsurokitahara

平成28年度日本大学文理学部公開講座

mailto:[email protected]

http://www.kthrlab.jp/

自己紹介● 1979年生まれ。37歳

● 札幌→柏→京都→大阪→東京

● 趣味

– 音楽（昔は楽器演奏や作曲、バンド活動など）

● 情報科学に興味を持ったきっかけ

– 中学ぐらいのときにコンピュータに触った

– プログラミングで機械を自由自在に操る楽しさ

1. はじめに

「情報科学」とは?

情報の科学?

「情報」って?「科学」って?

似てそうな言葉

情報処理

IT（情報技術）

便宜上、「価値のあるデータ」とする

数値、文字、画像、音などで表される

情報を収集・蓄積・変換・

伝達・提示・検索する等

コンピュータ

情報処理を実現する技術

※ きちんとした定義はない

「ビッグデータ」って聞いたことある?

● 従来の方法では扱いきれないほどの量のデータ?

● 人間が生産・消費できる範囲をはるかに超えた量のデータ?

● 新たな価値を生み出すほどの量のデータ?


【出典】 http://www.hitachi.co.jp/Prod/comp/soft1/spcon/itbnavi_1205/

http://www.hitachi.co.jp/Prod/comp/soft1/spcon/itbnavi_1205/

「人工知能」って聞いたことある?


人間のような知能を計算機上で実現しようという試み

【出典】 Wikipedia

【出典】松尾豊「人工知能は

人間を超えるか」KADOKAWA

「ニューラルネットワーク」って聞いたことある?

人間の神経回路網にヒントを得て考案された機械学習技術

【出典】甘利俊一「脳・心・人工知能」ブルーバックス、講談社

人工知能は、実は大したことない!?私見

「人間の能力を超える画像認識能力を持つ人工知能を実現」

などと言われるが、基本的には人間が与えたデータに従って

計算式を調整しているだけにすぎない

例題人の後ろ姿の画像が男か女かを識別したい

「男」「女」

例題人の後ろ姿の画像が与えられたときに、

それが男か女かを識別したい

身長と髪の長さを入力すると、男なら「1」、

女なら「0」が出力されるようにする

168

81

155

230

たくさんデータを集めてみよう

x （身長）

y （髪の長さ）

男

男

男女

女女

女

こんな直線が引けそう

このときx （身長）


男

男

男女

女女

女

y < x – 100 なら z = 1 を出力3

2

y > x – 100 なら z = 0 を出力3

2

この式はどう作るの?

y = x – 100 3

2あらかじめ用意したデータで識別誤りが

なくなるように、ココの部分を調整する

y = x – 100 32

たとえば、

としよう

問題点1 直線では、うまく識別できないかもしれない

問題点2 もっと多彩な手がかりが必要

顔の骨格

服の特徴

体つき

どうやって数値化するの?

x （身長）


男

男

男女

女女

女

女

男

男

女

男

…

各画素の色の濃さを

　　　　そのまま入力

ここに手がかりとなる値が自動的に得られるかも

（実際は　もっと複雑）

人工知能の現状● ちまたで「人工知能」と呼ばれているものは、

ほとんどが「機械学習」のこと

● 機械学習は、与えられた入力に対して決まった値を

出力するように計算式を調整するにすぎない

● 最近能力が急にあがったのは、識別の手がかりを

計算によって自動的に見つけられるようになったから

● それが可能になったのは、データの増加と計算機の

計算能力の向上による

計算機がスゴイことを行うには次の2つを人間が教える（プログラミングする）必要がある

表現計算

計算機は数値しか扱えない。

文字も画像も音も、すべて数値

として表現しなければならない。

計算機は計算しかできない。

顔の認識も会話も作曲も、すべて

計算として教えなければならない。

本講座では、これを「音楽」を題材に説明

2. 音楽と情報科学

そもそも「音楽」って何?

音の組み合わせで感動を生み出す芸術表現

「音」とは

スピーカーが空気を押す

押された空気が隣の空気を押す

これが連鎖的に繰り返される

鼓膜が押され人間が音を知覚する

押した側は押した反動で戻ってくる

空気の振動

このような、ものが行ったり来たりする運動が、遠くまで伝わる現象を波動（または波）という

スピーカーが空気をどのぐらい押すのかを波形として表す

y

t

音の組み合わせにはルールがある

そのルールの土台となっているのが「離散性」

とびとびの値しか取らないこと音の高さ

262Hz

ド

277Hz

ド#

293Hz

レ

311Hz

レ#

329Hz

ミ・・・・・・

音の長さテンポ=120の場合

0.5秒

1秒

2秒

0.25秒

0.125秒

なぜとびとびの値しか使わないのか（音の高さの場合）

1つに聞こえる音も、実はいくつもの音が重なってできている

同時に鳴らすと・・・

周波数

振幅紫の部分が重なる周波数

振幅 440Hz（ラ）の音

基本周波数

周波数

振幅 660Hz（ミ）の音

基本周波数

もしも、片方の周波数がずれていたら・・・

周波数

振幅

440Hz（ラ）の音同時に鳴らすと・・・

周波数

振幅

うなりの原因になる

基本周波数

周波数

振幅

620Hz（ミ♭）の音

基本周波数

基本周波数が 2:3 とか 3:4 だと「うなり」が起きない

周波数を選んでみよう

ドレミファソラシド

2つの音の周波数比が次のようになるように周波数を選ぼう

264Hz

ド : ソ = 2 : 3

ド : ミ = 4 : 5

ソ : レ = 2 : 3

ソ : シ = 4 : 5

ファ : ド = 2 : 3

ファ : ラ = 4 : 5

※ 実際の周波数は少し異なる場合がある

× 3/2

396Hzレ

× 3/2

594Hz297Hz

÷2

× 5/4

330Hz

× 5/4

495Hz

× 5/4

×2

528Hz

× 2/3

352Hz 440Hz

ドレミができたら和音を作ろうド～シのそれぞれに2つ上の音を乗っけて、

さらにその2つ上の音を乗っけると和音ができる

音楽用語では「3度上」という

ドレミファソラシ　

ミファソラシドレ　

ソラシドレミファ

主和音属和音下属和音

簡単のため、以下ではこの3つの和音のみ考える

※ハ長調の場合

和音の遷移には傾向がある主和音（ドミソ）解決感を与える

曲の最後によく出てくる

下属和音（ファラド）属和音に移りやすい

属和音（ソシレ）主和音に移りやすい※括弧内はハ長調の場合

ドミソ

ファラド

ソシレ

オートマトン

オートマトン入力に応じて機械の状態変化を表したもの

停止中再生中一時

停止中

再生ボタン

停止ボタン

一時停止ボタン

一時停止ボタン

停止ボタン一時停止ボタン

再生ボタン

例音楽プレイヤーの場合

0円投入中

例 100円ジュースの自動販売機の場合

10円投入中

20円投入中

…

50円投入中

100円投入中

90円投入中

80円投入中

…

10円投入

10円投入 10円

投入

10円投入

10円投入

10円投入

10円投入

10円投入

50円投入

50円投入

100円投入ジュース購入

和音の遷移は一通りではないどの和音からどの和音にも飛べるが、飛ぶ確率が異なる

非決定性オートマトン

ドミソ

ファラド

ソシレ

0.40.2

0.4

0.6

0.2

0.8

0.2 0.2

※ 確率の値は　適当です

こうすると何ができる? その1与えられたコード進行がもっともらしいかがわかる

ドミソファラドソシレドミソ

0.4 0.6 0.8× ×

もっともらしさ＝0.192

ドミソドミソドミソドミソ

0.2 0.2 0.2× ×

もっともらしさ＝0.008

ドミソソシレファラドドミソ

0.4 不可 0.2

この進行は不可

こうすると何ができる? その2

ドミソ

確率が最も高くなるようにコード進行を決めよう

ドミソ

ここに何を入れる?

見方を変えてみよう● 和音を場所（都市、駅など）だと思おう● 遷移確率を移動コストだと思おう

– 0% → 100円

– 10% → 90円

– 20% → 80円

……

– 100% → 0円

ドミソ

ファラド

ソシレ

0.40.20.4

0.6

0.2

0.8

0.2 0.2

東京

金沢

大阪

60円８０円

60円

40円

80円

20円

80円 80円

東京から出発して8回目に最小コストで東京に戻る経路を考えるのと同じ

東京東京東京東京

1 2 3 8

80円

金沢

大阪

60円

60円

80円

20円

80 円金沢

大阪

ここまでの最小コスト

80円（大阪経由）

80円

60円

140円（東京または金沢経由）

40円

60円

80円

100円（金沢経由）

東京金沢大阪東京大阪東京大阪東京

結果

ドミソファラドソシレドミソソシレドミソソシレドミソ

同じ考え方でメロディも作れる

ドレミファソラシド

※ すべてに遷移確率が付与されている（「ド」から以外も）

ドド

0.08

0.23

0.110.07

0.08 0.030.01

0.02

確率が最大になるように（移動コストが最小になるように）

空欄をうめていく

ここまでのまとめ● 機械の状態変化を表したものを「オートマトン」という

● メロディの音の変化や和音の変化の仕方は、

オートマトンとして表すことができる

● 音や和音の遷移のしやすさ（しにくさ）を移動コストと

考えれば、メロディや和音進行を作る処理は、

カーナビの経路探索や乗換検索と同じこと

3. この考え方の応用事例

ソプラノパートにアルト・テノール・バスを付ける

C F Em G G7 C GC C C Am C CF

PLAY

【事例1】

基本的な考え方

ソラソシソプラノ

アルト

テノール

バス

音の遷移が適切か

同時に鳴らして変じゃないか

基本的な考え方● さきほどの考え方に「縦の関係」が加わる

● 「音Xの次に音Yに移って変じゃないか」、

「音Xと音Yを同時に慣らして変じゃないか」を

確率として表して経路探索問題として解く

● 確率は、既存の楽曲約250曲から学習する

【出典】讃美歌第二編ともにうたおう、日本キリスト教団出版局

別の実行例

自動作曲● 歌詞を入力すると、その歌詞のイントネーションに

沿ったメロディを自動生成（ここまでは東大の成果）

● メロディを編集したら和音進行を、和音進行を編集し

たらメロディを、それに合うように再生成

※ 嵯峨山茂樹氏（東大、現在明治大）、　深山覚氏（東大、現在産総研）との共同研究

【事例2】

線を書いて作曲気分● メロディのおおまかな流れを一本の線として書くと、

その流れに沿ったメロディを自動生成

● 音楽の知識なしに作曲気分を味わえる

【事例3】

4. 議論

ここからは、あくまで私見です

現状の作曲能力は?● 人間がルールを教え込めば、かなりのものも

● データから自動的にルールを学ぶのはまだまだ

● 理由：（整った）データがまだまだ足りない

今後はどうなる? 人間を超える?● データから学ぶのは、平均的なパターンにすぎない

● 音楽を聴いて感動する「心」は持っていない

人間の作曲家はいなくなる?● 感動を生む本質的な部分は人間が作る

● その他の部分のほとんどは、機械が代行

機械の作曲家のあるべき姿は?● 人間のプロデューサを助ける、よきパートナー

● 究極は、ゴーストライター!?

5. まとめ

まとめ● 今、流行りの人工知能も、基本的には

データに従って計算式を調整しているにすぎない

● 音楽は、計算機上でデータ表現がしやすい

● 和音進行やメロディの生成は、カーナビの経路探索

や乗換検索と同じ考え方で実現できる

数学って大事

Science

音楽で理解する情報科学のいろは