Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
Copyright © Policy Alternatives Research Institute
工学系研究科技術経営戦略学専攻教授
坂田一郎
データ活用と社会システム上の論点
1
2018年12月21日(第11回)、25日(第12回)
研究室の活動(データサイエンスによる意思決定支援)
大興水産(株)
(株)七星社宮城県漁協
(株)女川魚市場
(株)丸本組新東総業(株)丸山商事(株)若生工業(株)宮城県石巻市
遠藤興業(株)日本製紙石巻テクノ(株)
日本製紙(株)
(株)ヤマニシ宮城ヤンマー(株)(株)守平商店
石巻魚市場(株)
漁業 食品
食品運輸 電機・電子
建設等
建設
建設
水産加工
建設
東北電子工業(株)(株)堀尾製作所アルプス電気(株)
(株)向陽エンジニアリング
南光運輸(株)
青バラ運輸(有)
(株)石巻青果石川食品(株)(株)大沼製菓いしのまき農協
東日本フーズ(株)(株)大地フーズ
(株)シンコー(株)山大
北上電設工業(株)
(有)亀谷工業
(株)鈴勇商店(株)荒川七衛商店
(株)丸雄組(株)櫻井建設
石巻合板工業(株)
(株)アミックス
1.地域経済のネットワーク研究(コネクターハブ、インフルエンサー)
●NHK スペシャル“震災ビックデータⅡ,2013年 9月12日”
2.科学技術の未来予測システム開発
●NHK スペシャル “どうすんのよ 日本!AIに聞いてみた, 2018年3月3日 ”
4.日本からの知見の世界への発信
●”Five years on from Fukushima”,
Nature Vol. 531, Issue 7592, March 3, 2016
Copyright@Ichiro SAKATA, The University of Tokyo
3.ソーシャルメディアや経済・社会情報を用いた社会の把握に関する研究群
上記1~4等に共通する基盤的な技法として、機械学習、ネットワーク解析、テキスト分析等
運用中の「学術・特許俯瞰分析システム」
3
①Log in to the system
④Meta analysis
②Creating a data set
⑦Detecting emergingresearch fronts
Upload of bibliographic information(Scopus etc.)
Input of account information
③Execution of analysis
Analytical Tools
⑤Heat map ⑥Co-author net
Selection of the toolsInput parameters
I.Sakata, "Knowledge structuring tools for decision support service: an overview of citation-based approach", in chapter 17 ofGlobal Perspectives on Service Science: Japan (2016), pp.261-276. Springer
データサイエンス計量書誌学
戦略立案等へのサポート
有機・無機のナノナノ複合
Data scribing
Data mining
Text mining
Link mining
Machine Learning
Visualization
Fiber supercapacitor (2018)Supercapacitor (2017)Photocatalyst (2017)CNF/PB absorbents (2016)Bio sensor etc.
データサイエンスによるイノベーション支援
AI活用の3つの事例と論点
未来投資会議での議論 (2016年9月~)
高度経済成長時の成長ロードマップ
しかし、➢ 進まない一次産業の集約化➢ 都市と地方の格差拡大➢ 第三次産業の生産性が低い➢ 超高齢化、少子化、労働力減少・・・
6
第一次産業
[労働集約型] [資本集約型]
第二次産業工業立国
高度経済成長
今、何に先行投資をすべきか?
(首相官邸ウェブサイトより)
首相官邸にて 平成28年9月以降、21回開催
AI ブーム
7
ビッグデータ活用、ディープラーニング、
音声認識、画像認識、ベイズ統計、
アルファ碁が世界最強棋士に勝利(2017)
25.7%
2.3%
2011 2012 2013 2014 2015 2016 2017
ディープラーニングの登場
2015年に人間の精度(5.1%)を
超えた
画像認識のエラー率の劇的改善
東京大学 松尾豊特任准教授作成資料より
自然言語処理の黎明期、人工対話システム、
ニューラルネットワーク甘利俊一先生 (理化学研究所)
(ニューラルネットワークに関する理論の先駆者)
第1次
第2次
知識ベース、音声認識、データマイニング
第3次
「探索・推論」 1950年代後半~60年代
「知識表現」 1980年代
「機械学習」 2010年代~
(参考)平成28年版情報通信白書
25.7%
2.3%
なぜ今なのか①~コンピュータの進歩~
8
スパコン
パソコン
スマホ
CPU性能 メモリ容量 CPU性能 メモリ容量
1980年代 2018年現在
200 PFLOPS
5 MFLOPS相当
1.3 GFLOPS
640KB
256MB
18 GFLOPS相当 6 GB
10 PB
8 GB27 GFLOPS相当
― ―
(5400倍) (1.3万倍)
(1.5億倍) (4千万倍)
(※1) スマホ:Sony SO-04K(※2) パソコン:PC-9801 (1982年)とNEC Lavie Direct HZを比較(※3) スパコン:NEC SX-2 (1983年) とIBM Summitを比較
(※1)
(※2)
(※3)
(1980年代比の性能)
なぜ今なのか②~Big Dataの蓄積~
9
日本の企業が活用するビッグデータ(※)の推移
日本のインターネット平均トラヒックの推移(推定)
(総務省2017.2.7) (総務省「 2015年版情報通信白書」)
(※)企業が受信する業務データ、販売記録、顧客等とのコミュニケーション、GPS等データ等の自動的に取得するデータ。データ形式はテキスト、音声、画像、動画。
0
2,000,000
4,000,000
6,000,000
8,000,000
10,000,000
12,000,000
14,000,000
16,000,000
(TB)
9年間で約9.3倍
知識集約型社会がもたらす社会
10
デジタル革命
✓ 地方と都市の格差解消
✓ 老若男女、障害のあるなしを問わず、すべての人が意欲を持って社会に参加
✓ 多様性を活力として発展する社会
✓ 一部の企業や国家がデータを独占
✓ データを持つ者と持たざる者に決定的な断絶や格差が生まれる
Society 5.0インクルーシブな社会
データ独占社会、デジタル専制主義(※)
(※)経済同友会小林喜光代表幹事へのインタビュー記事より(2018.2.27Diamond Online)
メリット デメリット
Copyright @ ICHIRO SAKATA The University of Tokyo
AIに関する7つの原則
12
〇AIは人間の基本的人権を侵さない
〇だれもがAIを利用できるよう教育を充実
〇個人情報を慎重管理
〇AIのセキュリティの確保
〇公正な競争環境の維持
〇AIを利用した企業に決定過程の説明責任
〇国境を越えてデータを利用できる環境を整備
(出典)「人間中心のAI社会原則検討会議」
Copyright @ ICHIRO SAKATA The University of Tokyo
AI活用の3つの事例と論点
13
事例1:知・情報を用いた判断支援(科学技術ビックデータを用いた「予測」)
メリット :膨大な知・情報を有効に活用、判断の質・スピードの向上デメリット:情報の森に隠れていた傾向、好み等が他者に認知される
判断・選択の画一化・意図せざる連動
事例2:ソーシャルメディア、ウエブ情報のマイニング(ソーシャルメディアを用いたアメリカ大統領選挙の分析)
メリット :従来よりも正確な社会調査、効果的マーケティングデメリット:世論の戦略的な操作の余地、プライバシーへの侵入拡大
事例3:ビックデータを用いた予測モデル利用の課題
メリット :予測による取引の効率化、投資の効率化、収益の拡大等デメリット:多くみられるモデルの誤りや予測結果の誤用
ビックデータ解析と予測(ナノカーボン分野の学術ビックデータの例)
1414
0
5000
10000
15000
20000
25000
30000
35000
40000
45000
50000
年度
19
90
19
91
19
92
19
93
19
94
19
95
19
96
19
97
19
98
19
99
20
00
20
01
20
02
20
03
20
04
20
05
20
06
20
07
20
08
20
09
20
10
20
11
20
12
20
13
20
14
ナノカーボン分野の全論文数
論文数
1991年カーボンナノチューブ
発見
1994年フラーレン発
見
2004年グラフェン発
見
2010年グラフェンノーベル賞受
賞
(備考)Web of Scienceを用いた計算
事例1
大規模な知識の構造化手法
学術論文の「引用」という著者のボトムアップの意思表示の情報を活用。その意思表示を集約することで、知識領域を俯瞰的に理解。
(ナノカーボン:50万論文、サステナビリティ: 237万論文、超高齢化:7万論文)
論文引用・被引用
内容的に近い論文群のグループ化
各論文のトポロジカルな位置取り情報の生成(例えば、各種の中心性)
ハブ
クラスター
クラスター
他分野とのリンク
サステナビリティに関する世界の学術知マップ
Note: 2.3 Million Papers from Web of Science (2017)Source: Sakata & Mori Lab, UTokyo
Soil Forest
超高齢化社会に関する世界の学術知マップ(ジェロントロジー)
from 69,403 papers(1956-2008, connected component = 25,625 papers)
# Rank, Cluster name(Cluster size, Average years publication)
#1 身体的機能の低下(5,468 papers; 1998.8)
#2心情 & 社会ネットワーク(4,966; 1996.8)
#4 認知機能の低下(3,254; 1996.7)
#3 看護と介護(4,961; 1995.8)
#5 生活環境による影響
(1,305; 1984.6)
#6 老人学(962; 1991.3)
#7 エイジングのメカニズム(585; 1994.9)
#8 うつ
(547;1996.9)
Copyright @ ICHIRO SAKATA The University of Tokyo
戦略的な投資の位置取り評価(太陽電池)
18
• 詳細なクラスタリングによりエマージングな7分野を特定• その上で、主要な取り組みの立ち位置や競争環境を特定
ナノワイヤ太陽電池文科省「革新的エネルギー研究開発拠点形成事業」“FUTURE-PV Innovation”
理論的には75%の変換効率(東大先端研 岡田研究室)
ナノ結晶2005年にNEDOが着目(NEDO海外レポート NO.966)阪大(Prof. Fukuzumi)
ペロブスカイトを用いており、容易に大型化可能日本発( 桐蔭横浜大学 宮坂 )NIMS, NEDOなどが取り組み
実用化に向けたポリマー型太陽電池の安定性向上
Π電子系骨格による高い変換効率論文数4位(理化学研究所 瀧宮)
民間を中心に開発(ソーラーフロンティア社等)
Cluster1: Compounds
N of Papers: 6,863
Average Year: 2002.5
Cluster2: Organics
N of Papers: 6,799
Average Year: 2001.0
Cluster3: Silicon
N of Papers: 5,525
Average Year: 2000.4
Cluster4: Dye-sensitized
N of Papers: 4,142
Average Year: 2005.7
太陽電池のアカデミックランドスケープ
クラスタ(方式)別の国別論文数、引用数に基づくアジア諸国の位置
アジアによる科学的キャッチアップ(太陽光)
ヒートマップ分析(内容的な類似性を計測)
20縦軸・横軸にクラスタ番号、色が言語的関係性の強さを表す
クラスタ(デ
ータセット1=
超高齢化)
クラスタ(データセット2=ロボット技術)
関連性大
高齢化社会の知 ロボット技術
がん(肺、結腸、前立腺) 手術支援ロボット
パーキンソン病関節炎、脊髄損傷
リハビリ支援ロボット
うつ埋め込み型補聴器等の認知機能補完
孤独疎外感
人間型ロボットペットロボット歩行支援技術
(自動抽出された関連性)
高齢化とロボットに関する知のつながり
テキスト群(クラスタ)間の内容的な類似性が高い関係を抽出
(出典)Vitavin Ittipanuvate, Yuya kajikawa, Ichiro Sakata et al., Journal of Engineering and Technology Management vol.32 (2014), pp.160-184
機械学習を用いた萌芽の予測への展開
22
学習期間
t0 t0+3 t1
(=t0+4) t1+3
学習用特徴量
評価期間
1年間の
データ
モデル構築
対象期間
現在
t
学習用被引用データの確定
学習用特徴量データの確定
▲ ▲ ▲ 予測モデル評価の確定
「モデル構築対象期間」を中心にした前後のデータ「過去のデータによる学習」と「3年後※の実際の被引用数による検証」によってモデルを構築。 ※:3年は可変パラメータ。目的や対象分野によって適切な数字を設計する。
活用
構築したモデル を現在手元にある最新の論文データ に活用
学習用被引用数
(出典)H. Sasaki, T. Hara and I. Sakata, Identifying Promising Research Papers Related to Solar Cells Using a Machine Leaning Approach,Journal of Sustainable Development of Energy, Water and Environment Systems, Vol.4(4) pp.418-429
萌芽分析:萌芽予測モデル
23
学習期間
t0 t0+3 t1
(=t0+4) t1+3
学習用特徴量
評価期間
1年間の
データ
モデル構築
対象期間
現在
t
学習用被引用データの確定
学習用特徴量データの確定
▲ ▲ ▲ 予測モデル評価の確定
「モデル構築対象期間」を中心にした前後のデータ「過去のデータによる学習」と「3年後※の実際の被引用数による検証」によってモデルを構築。 ※:3年は可変パラメータ。目的や対象分野によって適切な数字を設計する。
活用
構築したモデル を現在手元にある最新の論文データ に活用
学習用被引用数
2008 2012 2015 2018 e.g.
予測結果の例ソーラーセル領域(2012年発表論文)
クラスタ
論文名 雑誌 現被引用数
3 Recent advances in solution-processed
interfacial materials for efficient and stable
polymer solar cells
ENERGY &
ENVIRONMENTAL SCIENCE 320
3 Morphology characterization in organic
and hybrid solar cells
ENERGY &
ENVIRONMENTAL SCIENCE180
3 Recent progress and future aspects of
organic solar cells
PROGRESS IN
PHOTOVOLTAICS 68
3 Solid-state dye-sensitized and bulk
heterojunction solar cells using TiO2 and
ZnO nanostructures: recent progress and
new concepts at the borderline
POLYMER INTERNATIONAL
50
3 Rational Design of High Performance
Conjugated Polymers for Organic Solar
Cells
MACROMOLECULES
584
2 Photophysical and Electrochemical
Properties, and Molecular Structures of
Organic Dyes for Dye-Sensitized Solar Cells
CHEMPHYSCHEM
104
3 Small Molecule Organic Semiconductors on
the Move: Promises for Future Solar
Energy Technology
ANGEWANDTE CHEMIE-
INTERNATIONAL EDITION 529
2 Characterisation of electron transport and
charge recombination using temporally
resolved and frequency-domain techniques
for dye-sensitised solar cells
INTERNATIONAL REVIEWS
IN PHYSICAL CHEMISTRY35
3 Tandem polymer solar cells featuring a
spectrally matched low-bandgap polymer
NATURE PHOTONICS865
2 The Electrochemistry of Nanostructured
Titanium Dioxide Electrodes
CHEMPHYSCHEM36
データセットにおける上位5%内論文(正例)
#1. シリコン型高効率かつ安定したポリマー型太陽光発電における界面材料
色素増感系太陽光発電における、光物性、電気化学特性
最も研究が盛んなクラスタ「#1シリコン型」から、「#2.色素増感型」や「#3高分子・有
期型」へ注目が集まっていること示唆される。
#2. 色素増感型
#3. 高分子・有機型
(出典)H. Sasaki, T. Hara and I. Sakata, Identifying Promising Research Papers Related to Solar Cells Using a Machine Leaning Approach, Journal of Sustainable Development of Energy, Water and Environment Systems, Vol 4.(4)pp.418-429
トレンドの先端にあるペーパーとトピックData: Paper of Nanocarbon published in October 2013 – December 2013
Predicted cutting edge paper and future citations
Material and technology:Nanocarbon networkGraphene nano sheetFingerprinting photoluminescenceGraphene electrodesGraphene-Rich catalystsgraphite oxide nanocomposites
Target and applicationLithium-ion batteriesSupercapacitorElectromagnetic absorptionLithium-O-2 Battery CathodesEnergy storage
(Source)K. Asatani, J. Mori, M. Ochi, I. Sakata, ”Detecting trends in academic research from a citation network using network representation learning”PLOS ONE 13(5) e0197260. (2018)
W. Gong, B. Fugetsu, Z. Wang ,I. Sakata, Mingda Li et al., “Carbon
nanotubes and manganese oxide hybrid nanostructures as high
performance fiber supercapacitors”, Communications Chemistry 1
(2018): s42004-018-0017-Z
“Nanocarbon (CNT) Network” “Supercapacitor”
@Springer-Nature Tokyo Office
2013に予測されたトレンド上にある我々の研究
データ分析の社会応用例
ホライゾン・スキャニング 成長・地域牽引企業の特定
予測と開発戦略の策定
Start-up Readinessの測定
技術コンバージェンス支援
#1Robo csfundamentals19,427papers,2008.5yearsKeywords:robot,system,control,based,model
#2Robotcontrolsystems14,112papers,2005.4yearsKeywords:manipulator,control,controller,force,joint
#3Surgey9,203papers,2011.4yearsKeywords:ssurgery,pa ent,laparoscopic,prostatectomy,cancer
#4Rehabilita on6,059papers,2009.6yearsKeywords:rehabilita on,stroke,motor,p ent,movement
#5AIapplica ons4,013papers,2005.1yearsKeywords:neuralnetwork,neural,schedule,fuzzy,network
#6AI&automa oninbio&chemistry3,178papers,2002.5yearsKeywords:protein,throughput,sample,highthroughput,automated
AcademicLandscapeofRobo cs&AIResearch
Ref. T. Kose et al., TFSC, 2018 in pressH. Nakamura et al., TFSC vol.94, 2015
Ref. T. Goji et al., PICMET 2018
Ref, N. Shibata et al.. TFSC vol.78, 2011H. Sasaki et al., JSDEWES vol.4(4), 2016K. Asatani et al., PLOS One vol.13, 2018
Ref. Y. Kajikawa et al., TFSC vol. 79, 2012
Ref, I. Sakata et al.. TFSC vol. 80 , 2013
論点(事例1)
データへのアクセスが広く可能な時、多くの市場参加者が同種の予測を導入すると、どのような状況(課題)が生じる可能性があるか?
(1)予測から逆算することで、学術コミュニティがサイテーションが多く得られそうな論文研究にシフトする効果が生じ、本来自由であるべき、学術が歪むのではないか?
(2)多くの事業者が同種の予測モデルを採用することで、「共同」することなく、近い対価の提示、取引相手の類似の選択といったことを行うことになるのではないか?(※word2vec, paragraph2vec等、主要な技法は公開され、共用されている)
(3)予測モデルを自己に有利にするために、本来、社会的な価値の無い行動を誘発するのではないか?
(参考)独占禁止法(第2条第6項)より抜粋この法律において、不当な取引制限とは、事業者が(中略)他の事業者と共同して対価を決定し、維持し、若しくは引き上げ、(中略)等相互に事業を拘束・・・競争を実質的に制限することを言う。
論点(事例1)付録 電子化と知財・アクセス
ジャーナルの電子化が急速に進展。現在では、主要ジャーナルはほぼ100%電子化。また、電子化されたメガオープンジャーナル(Scientific reports, PLOS ONEなど)が成長。Web of science, Scopus, PubMedのような学術データベース以外に、様々なサイトも登場してきている。 (Cf. Research Gate, Semantic Scholar, Google Scholar)国際出版社協会のマベ会長は、”Digital is different”と発言。電子化された知の権利は守れるのか?保護と利用のバランスは?
また、電子化と並行して、成果の公開の早期化が進展。Open Journalによる出版までの期間の短縮、Preprint方式による事前出版、アーカイブスへのアップロードなど。人間が捉えられないような速さで知が更新されていく時代へと進むのではないか。Reprintやアーカイブスなどでの公開が進むと、何を確かな知と考えればよいのか?そうしたものも、特許の先行研究の調査対象となりうるのか。
学術雑誌のデジタル化とアクセスの変化
デジタル化と知財
オープンアクセス
オープンデジタルツール
ORCID等のインフラ整備
データ事前共有、Preprint
オープンサイエンス、コモンズ
選挙前の全ツイート(2016/10/27-2016/11/06:英語)データ量:869,435
Trump or どちらでもない or Hilary
POS or NEU or NEG (感情値)
sameoriginal
Trend
類似度
リツイート(RT)等の内容の類似度の高いTweet (same)を除いたoriginalなTweetはユーザ個人の意見を述べており議論の活発さを表していると考えられる。
アメリカ大統領選挙時のツイートの分析例事例2
total:11108
Trump-pos + Hilary-neg > Trump-neg + Hilary-pos との視点からは、Trump支持が高いと考えられる。
トランプとヒラリーを対象としたツイートの分類
total:661
total:4566 total:1022
total:2449
ex)ニュースからの自動ツイート
ex)RT,同内容のリプライ
ex)一般的なつぶやき
ex)リプライ内での議論
Trump支持のコミュニティ内では盛んに議論あり
エコーチェンバーの発生
選挙前 選挙後
Hillary G: 0.69 → 0.46Trump G: 0.89 → 0.65
ポジチィブな意見を持つグループ
ネガティブな意見を持つグループ
異なる意見(ポジティブとネガティブ)を持つ者の間でのコミュニケーションの発生確率は、選挙後に顕著に低下。社会におけるコミュニケーションの分断が一層進んだのではないか?
(備考) 発生確率は、ツイートをランダムにサンプリングした場合の確率を1とした場合の数字(出典)與島・大知・浅谷・森・坂田「感情分析を用いたショック前後における会話ネットワーク上の
コミュニティに変化」、人工知能学会第31回全国大会(2017)予稿集(事例2)
より深刻となったエコーチェンバー
ポジチィブな意見を持つグループ
ネガティブな意見を持つグループ
論点(事例2)
ソーシャルメディアのマイニングにより、従来、把握が困難だった個人間の会話が広く捕捉されるようになると、どのような状況(課題)が生じる可能性があるか?
(1)対話を促進するツールであるソーシャルメディアの普及により、かえって社会の分断(意見の異なる者間の対話の比率の減少)が生じるのではないか?
(2)個人単位の情報ではないが、集団としての意見や好みが外部に把握されてしまうことになる。集団を通して、個人の意見等が透けてみえることになるのではないか。
(3)ソーシャルメディア内での対話の大局的な構造が明らかになることにより、サイバー空間における世論への戦略的な介入が行いやすくなるのではないか。
(参考1)分布仮説ある人物やものごとの特性は、その周囲を見ることによってわかるという仮説。
(参考2)プライバシープライバシーは、私生活上の事柄をみだりに公開されない法的な保障と権利である。個人情報保護の文脈では、他者が管理している自己の情報について訂正・削除を求めることが出来る権利(積極的プライバシー権)を指す。(Wikipedia より)
ビックデータと機械学習を政策決定や経営判断に使用する際に、論文は、どのような点を問題提起しているのか?
Prediction と Causal effectの違い
Vs.
(参考)Susan Athey, ”Beyond prediction:Using big data for policy problems”, Science vol.355, 483-485(2017)
予測の誤りや因果推定との誤解事例3
一泊の室料
部屋の稼働率
ある一つのホテル又はホテル群の平均を、365日続けて観察した時に得られるデータ(参考文献本文のイメージ)
なぜ、ホテルでこうしたことが起こるのか?
「供給」力に天井があるから(供給の増減での調整能力が小さい)
部屋の稼働率と室料の関係
「ホテルの部屋の利用率」と「室料」の関係
みかけの予測:
室料が高い⇒利用率が高い
しかし、人間は同じものについて、高い方が買いたがるの?
典型的な経済学の需要曲線に従うと、すべてのホテルが値段を5%上げたら、部屋の利用率は下がるはず。
単純に読み取った結果
一泊の価格
部屋の稼働率
日本の同じホテル又はホテル群を1週間観察した時に得られそうなデータ どうして?
1週間だけの観察結果
宿泊日
部屋の稼働率
ある一つのホテル又はホテル群の平均について、昨年と今年(5%値上げを行った)とを比較したデータ(予想)
昨年
今年
価格効果
稼働率が低い⇒高い順に日を並べる
正しい分析と結果に関する理解
論点(事例3)
予測手法の活用は、生産の効率化、市場の変化の理解、トランズアクションコストの低減などを通じて、社会に多くの便益をもたらしている。
一方で、十分な知見なく予測手法を用いると、誤った知見を社会に発信することになってしまうのではないか。また、政府が十分な理解なく、予測手法を用いた場合、企業や個人の行動を歪めることになるのではないか。
予測手法の活用には、データサイエンス(手法)だけでなく、予測対象(先ほどの例では、ホテル業界)に対する理解や関心が欠かせないのではないか。
我が国では、データサイエンスと分析対象となる専門分野の双方に通じた人材が過小なのではないか。
(参考)東京大学では、消費インテリジェンス寄付講座のGCI講座やDL講座が合計で毎年1000人規模まで拡大。