40
ビビビビビビビビビビビビビビビビビビビビビビビ ビビビビビビビビビビビビビビビビ ビビビビビビビビビビビビ -- ビビビビビビビビビビビビビ ビビビビビビビ ビビビビ

演繹データベースと相関ルール発見 -ゲノム情報処理への応用-

Embed Size (px)

DESCRIPTION

演繹データベースと相関ルール発見 -ゲノム情報処理への応用-. 北陸先端科学技術大学院大学 知識科学研究科 佐藤賢二. 自己紹介. 略歴:九州大学~東京大学(医科研 HGC )~ JAIST 研究:知識ベースや知識発見の技術を応用した ゲノム情報処理(特にタンパク質関係). 宣伝:人工知能学会第二種研究会・ 分子生物情報 研究会 ( SIG ー MBI ) http://www.hgc.ims.u-tokyo.ac.jp/sigmbi/. 宣伝: JAIST 知識科学研究科 (4月にスタートした新学科) - PowerPoint PPT Presentation

Citation preview

Page 1: 演繹データベースと相関ルール発見 -ゲノム情報処理への応用-

ビジネス応用におけるデータマイニングと知識発見

演繹データベースと相関ルール発見-ゲノム情報処理への応用-

北陸先端科学技術大学院大学知識科学研究科

佐藤賢二

Page 2: 演繹データベースと相関ルール発見 -ゲノム情報処理への応用-

ビジネス応用におけるデータマイニングと知識発見

自己紹介

略歴: 九州大学~東京大学(医科研 HGC )~JAIST

研究: 知識ベースや知識発見の技術を応用したゲノム情報処理(特にタンパク質関係)

宣伝: 人工知能学会第二種研究会・分子生物情報

研究会( SIG ー MBI )http://www.hgc.ims.u-tokyo.ac.jp/sigmbi/

宣伝: JAIST 知識科学研究科(4月にスタートした新学科)

http://www.jaist.ac.jp/ks/紹介用の CD-ROM あります

Page 3: 演繹データベースと相関ルール発見 -ゲノム情報処理への応用-

ビジネス応用におけるデータマイニングと知識発見

講演内容

ゲノムデータベースの概要( GenomeNet)

タンパク質立体構造解析のための演繹データベースシステム PACADE

相関ルール発見を用いたゲノム情報処理

統合システム WebPACADE

Page 4: 演繹データベースと相関ルール発見 -ゲノム情報処理への応用-

ビジネス応用におけるデータマイニングと知識発見

主に分子生物学の実験の結果得られるデータを世界各国で集積・配付している

•核酸配列情報   GATC…•タンパク質配列情報   SER ALA PRO …•タンパク質立体構造情報•遺伝病などの疾病に関する情報•文献情報…

実験技術の進歩とともにデータの産出速度が加速

ゲノムデータベース

Page 5: 演繹データベースと相関ルール発見 -ゲノム情報処理への応用-

ビジネス応用におけるデータマイニングと知識発見

指数的に増え続けるゲノムデータ

Page 6: 演繹データベースと相関ルール発見 -ゲノム情報処理への応用-

ビジネス応用におけるデータマイニングと知識発見

京大化研スパコンラボ

東大医科研ヒトゲノム解析センター

JAIST でもミラーサーバ立ち上げ中

ゲノムネット( GenomeNet)

Page 7: 演繹データベースと相関ルール発見 -ゲノム情報処理への応用-

ビジネス応用におけるデータマイニングと知識発見

ゲノムネットがサポートするデータベース

タンパク質の配列データ

タンパク質の構造データ

Page 8: 演繹データベースと相関ルール発見 -ゲノム情報処理への応用-

ビジネス応用におけるデータマイニングと知識発見

一次構造 …MSTPARKRLMRDFKRLQQDPPAGISGAPQDNN…

二次構造α-helix coil β-strand

超二次構造

タンパク質に関するデータの階層

立体構造

Page 9: 演繹データベースと相関ルール発見 -ゲノム情報処理への応用-

ビジネス応用におけるデータマイニングと知識発見

PDB ( Protein Data Bank )

X 線結晶回折や NMR などの手法で測定したタンパク質の構造データを格納したもの。現在 8000 個ほどのエントリを持つ(個々のエントリが1分子に対応する)。テキストファイルの形で配布されている。立体構造の可視化や、新しい分子を設計する時の下敷きとしてよく使われる。

キーワードなどの情報で検索することは容易だが、実際には構造に基づいた検索がしたい(例えば特定の条件を満たす部分構造がどのタンパク質のどこにあるかなど)。

演繹データベースを使ってみてはどうか?

Page 10: 演繹データベースと相関ルール発見 -ゲノム情報処理への応用-

ビジネス応用におけるデータマイニングと知識発見

論理プログラミングシステム+関係データベース論理プログラミングシステム+関係データベース

ファクト par(a,b). par(b,c). par(c,d).ルール anc(X,Y) :- par(X,Y).

anc(X,Y) :- anc(X,Z), par(Z,Y).質問 :- anc(a,Y).解 anc(a,b). anc(a,c). anc(a,d).

フリーウェアの処理系:フリーウェアの処理系: CORALCORAL (( Wisconsin Univ.Wisconsin Univ. ))

ftp://ftp.cs.wisc.edu/coral/coral-1.5 (オリジナル)ftp://ftp.jaist.ac.jp/pub/dbms/coral/coral-1.5 (ミラー)

森下真一著「知識と推論」共立出版

書籍書籍

演繹データベースとは

Page 11: 演繹データベースと相関ルール発見 -ゲノム情報処理への応用-

ビジネス応用におけるデータマイニングと知識発見

関係データベースに比べると、再帰検索や否定の記述が容易な分、検索能力が高い。検索に用いるルールは宣言的に記述されるため、モジュール性が高い。

Prologのような論理プログラミングシステムに比べると、ユーザが推論を制御しなくてもすべての解を探索し停止する分、扱いやすい。大量データ処理に向いているため、データベース検索向き。

応用がちょっと少ない?

演繹データベースの特徴

タンパク質立体構造解析のための演繹データベースシステム PACADE の開発

Page 12: 演繹データベースと相関ルール発見 -ゲノム情報処理への応用-

ビジネス応用におけるデータマイニングと知識発見

二次構造のジオメトリ情報を PDBPDB からから抽出し、ファクトデータとして演繹データベースに格納

DBMS としてウィスコンシン大学で開発されたフリーウェア(Coralおよび EXODUS) に少し手を加えたものを用いている

length

distanceangle

PACADE

Page 13: 演繹データベースと相関ルール発見 -ゲノム情報処理への応用-

ビジネス応用におけるデータマイニングと知識発見

2種類の 4-strandedGreek Key

5-strandedGreek Key

2種類の 6-strandedGreek Key(jerry roll)

相互再帰的に定義できる構造

PACADE を使った超二次構造の検索例( Greek Key)

Page 14: 演繹データベースと相関ルール発見 -ゲノム情報処理への応用-

ビジネス応用におけるデータマイニングと知識発見

greek_even_r(A,L,D,4,P) :- hairpin(B,C,P), hairpin(C,D,P), not_coils(A,B,P),neighbour(A,D,P), double_anti_parallel(A,D,P), L=[B,C].

greek_even_r(A,L,D,Num1,P) :- greek_odd(B,L1,D,Num,P), not_coils(A,B,P), neighbour(A,D,P), double_anti_parallel(A,D,P), append([B],L1,L), Num1=Num+1.

greek_even_l(A,L,D,4,P) :- hairpin(A,B,P), hairpin(B,C,P), not_coils(C,D,P),neighbour(A,D,P), double_anti_parallel(A,D,P), L=[B,C].

greek_even_l(A,L,D,Num1,P) :- greek_odd(A,L1,C,Num,P), not_coils(C,D,P),neighbour(A,D,P), double_anti_parallel(A,D,P), append(L1,[C],L), Num1=Num+1.

greek_odd(A,L,D,Num1,P) :- greek_even_r(A,L1,B,Num,P), greek_even_l(C,L2,D,Num,P),append(L1,[B],L), append([C],L2,L3), L=L3, Num1=Num+1.

:- greek_even_r (A,L,D,6,P).

ルール集合 ( 一部 )

質問 (6個の二次構造から成る Greek key の場合 )

Greek Key の検索ルール

Page 15: 演繹データベースと相関ルール発見 -ゲノム情報処理への応用-

ビジネス応用におけるデータマイニングと知識発見

greek_even_r(4,[6,8,10,12],14,6,”1gcr”).解

414 12 610

8

検索結果: γ2-cristarin(1gcr)内の jerry roll

Page 16: 演繹データベースと相関ルール発見 -ゲノム情報処理への応用-

ビジネス応用におけるデータマイニングと知識発見

類似構造検索

特定の部分構造に似た部分構造を探す

Page 17: 演繹データベースと相関ルール発見 -ゲノム情報処理への応用-

ビジネス応用におけるデータマイニングと知識発見

類似構造検索のメカニズム

ユーザの入力: 類似元(タンパク名、チェイン名、領域)許容誤差範囲(角度、距離、 etc. )探索空間(全エントリ、一部のエントリ)

システムの動作:1)類似元自身を検索し、推論中に使用した束縛値を 記憶する(類似元の特徴抽出)2)記憶した束縛値に基づいて、 ±αの誤差を許容し ながら、指定された探索空間内で類似部分構造を 探すようなルールと質問を自動的に生成3)生成したルールと質問を使って検索

システムの出力: 類似部分構造を解として返す

Page 18: 演繹データベースと相関ルール発見 -ゲノム情報処理への応用-

ビジネス応用におけるデータマイニングと知識発見

類似構造検索の例

コマンドsimilar -p 5tnc -s 131 -e 159 -a 30 -d 6 -sp pacade_nr

16.00 sec. for the 1st search, 26.00 sec. for the 2nd search.経過時間

131 159 _ 5tnc 2.51000 40 64 _ 1rro131 159 _ 5tnc 3.30035 40 64 _ 5pal131 159 _ 5tnc 3.30971 40 64 _ 1rtp131 159 _ 5tnc 3.50223 40 64 _ 1cdp131 159 _ 5tnc 4.61469 130 159 a 2scp

解集合

類似元 許容誤差範囲 探索空間

一次検索 二次検索

類似元 類似度 類似部分構造

131 159 _ 5tnc 2.51000 40 64 _ 1rro131 159 _ 5tnc 3.30035 40 64 _ 5pal131 159 _ 5tnc 3.30971 40 64 _ 1rtp131 159 _ 5tnc 3.50223 40 64 _ 1cdp131 159 _ 5tnc 4.61469 130 159 a 2scp

解集合

Page 19: 演繹データベースと相関ルール発見 -ゲノム情報処理への応用-

ビジネス応用におけるデータマイニングと知識発見

グラフィック表示

類似元TROPONIN-*C (5tnc)131 ~ 159

類似部分構造RAT ONCOMODULIN (1rro)40 ~ 64

Page 20: 演繹データベースと相関ルール発見 -ゲノム情報処理への応用-

ビジネス応用におけるデータマイニングと知識発見

大量かつ多様なゲノムデータ

CCGCATAGTCGATCGG…自動的な知識発見自動的な知識発見有用な知識

(e.g. 相関ルール )

fact par(1,2). par(2,3).…rule anc(X,Y) :- par(X,Y).    anc(X,Y) :- anc(X,Z), par(Z,Y).query :- anc(1,Y).

answer anc(1,2). anc(1,3).…

演繹推論による検索

PACADE

検索から発見へ

Page 21: 演繹データベースと相関ルール発見 -ゲノム情報処理への応用-

ビジネス応用におけるデータマイニングと知識発見

・ IBM の Agrawal らが 1993 年に提案。商品の販売記録を分 析し、商品間の相関関係を把握するために使用された。

・1回の商品購入で一緒に買われる頻度が高い商品集 合を検索し、ルール化する。

・ルールの価値はサポートおよび確信度という2つの パラメータで定量的に評価される。

・サポートがある値以下の組合せは計算途中で捨てる。 同様に確信度がある値以下の相関ルールは生成しない。

2段階処理2段階処理

相関ルール発見

Page 22: 演繹データベースと相関ルール発見 -ゲノム情報処理への応用-

ビジネス応用におけるデータマイニングと知識発見

相関ルール発見( Apriori )

最小サポート = 1最小確信度 = 60%

パン , バター => ミルクサポート = 2確信度 = 66.6%

コンビニエンスストアの例

レシート番号 パン バター 米 ミルク 醤油1 1 1 0 1 02 0 1 0 0 13 1 0 0 0 14 1 1 0 1 15 1 1 1 0 0

顧客の購買データ

アイテム

Page 23: 演繹データベースと相関ルール発見 -ゲノム情報処理への応用-

ビジネス応用におけるデータマイニングと知識発見

機能構造配列

これらの情報にまたがる相関ルール

proteaseleu-pro-glu-ser-……-pro-ile-lys-asn

配列モチーフ

特徴的な部分構造

機能上の分類

折れ畳み 機能発現

ゲノムデータからの相関ルール発見の例

Page 24: 演繹データベースと相関ルール発見 -ゲノム情報処理への応用-

ビジネス応用におけるデータマイニングと知識発見

タンパク質名 モチーフ1 モチーフ2 部分構造1 機能1 機能2

タンパク1 1 0 1 0 1タンパク2 0 0 1 1 0タンパク3 1 0 0 1 0タンパク4 1 0 1 1 1タンパク5 1 1 1 0 0

タンパク質に関する種々のゲノムデータ

相関ルール発見( Apriori )

最小サポート = 1最小確信度 = 60%

モチーフ1 , 部分構造1 =>機能2サポート = 2確信度 = 66.6%

異種ゲノムデータを関連付ける

Page 25: 演繹データベースと相関ルール発見 -ゲノム情報処理への応用-

ビジネス応用におけるデータマイニングと知識発見

配列の特徴

構造の特徴

機能の特徴

PROSITEモチーフ

類似部分構造

4桁の EC番号 (酵素の機能分類 )

SWISS-PROT のキーワード

PACADE の類似構造検索機能を用いる

データの準備(使用する特徴)

Page 26: 演繹データベースと相関ルール発見 -ゲノム情報処理への応用-

ビジネス応用におけるデータマイニングと知識発見

pdb {1187, …,699} SPPR=UBIQUITIN_ EC3= EC2= SPKW= …code CONJUGAT H6.3.2 4.2 SIGNAL …1aaj 0 0 1 0 0 …1aak 0 1 0 0 0 …1abe 1 0 0 0 0 …… … … … … … …

類似部分構造の集合

SWISS-PROTキーワード

EC番号による分類

( 第 1~第 3レベル )

EC番号による分類

( 第 1~第 2レベル )PROSITEのモチーフ

部分構造の ID

データの準備(ビットベクターの表)

Page 27: 演繹データベースと相関ルール発見 -ゲノム情報処理への応用-

ビジネス応用におけるデータマイニングと知識発見

実験条件

相関ルールの例

最小サポート =4, 最大サポート =30, 最小確信度 =65%

ヘッドのサポート ヘッドのサポート > > ボディのサポートボディのサポートであるようなルールは生成しない(ヘッドのほんの一部分しか説明しないようなルールを抑制するため)

{596,…,9965}, {1361,…,9459}, SPPR=ASP_PROTEASE=> SPKW=ASPARTYL PROTEASE, EC3=3.4.23

構造の特徴 配列の特徴

機能の特徴

ルールはマルチヘッド可とする

以下のような背景知識から自明なルールは生成しない   EC3=1.2.3 => EC2=1.2

機能の特徴

構造の特徴

実験結果

Page 28: 演繹データベースと相関ルール発見 -ゲノム情報処理への応用-

ビジネス応用におけるデータマイニングと知識発見

見つかった相関ルール(一部)

構造の共起のみ

{1477,…,9811}, {1718,…,9998} => {6714,…,7062}, {6874,…,7206}

ASPARTYL PROTEASE 関連

カルシウム結合タンパク関連

{186,…,9310}, SPPR=EF_HAND => SPKW=CALCIUM-BINDING, {1994,…,7532}

{596,…,9965}, {1361,…,9459}, SPPR=ASP_PROTEASE=> SPKW=ASPARTYL PROTEASE, EC3=3.4.23

Page 29: 演繹データベースと相関ルール発見 -ゲノム情報処理への応用-

ビジネス応用におけるデータマイニングと知識発見

ASPARTYL PROTEASE に共通かつ特有な部分構造

Page 30: 演繹データベースと相関ルール発見 -ゲノム情報処理への応用-

ビジネス応用におけるデータマイニングと知識発見

カルシウム結合タンパクに共通かつ特有な部分構造

Page 31: 演繹データベースと相関ルール発見 -ゲノム情報処理への応用-

ビジネス応用におけるデータマイニングと知識発見

機能が異なるタンパクで共通かつ特有な部分構造

Page 32: 演繹データベースと相関ルール発見 -ゲノム情報処理への応用-

ビジネス応用におけるデータマイニングと知識発見

どちらも記号処理ベースなので可視化システムと連動しないと使いにくい(特に立体構造の可視化)

できればネットワーク経由でサービスしたい

PACADE に可視化機能を付けて、ゲノムネットが提供するサービスともリンクし、ついでに簡易データマイニング機能を付けて、 Webブラウザからアクセスできるようにしてはどうか?

2つの事例に共通する問題

相互に関連があるようでない

Page 33: 演繹データベースと相関ルール発見 -ゲノム情報処理への応用-

ビジネス応用におけるデータマイニングと知識発見

類似部分構造検索機能( PACADE)http://pacade.genome.ad.jp/pacade.html

可視化機能( PDB highlight )http://pacade.genome.ad.jp/pdb_highlight.html

簡易データマイニング機能http://pacade.genome.ad.jp/cgi-bin/mining_form.pl

統合システム WebPACADE

これらのサービスは相互呼び出しを行っておりゲノムネット上でサービスされている(可視化機能を提供する PDB highlight から入れる)

Page 34: 演繹データベースと相関ルール発見 -ゲノム情報処理への応用-

ビジネス応用におけるデータマイニングと知識発見

システムの構成と動作

WebPACADE

PACADE PDB highlight data mining module

input forms result ofsim. search

result ofmining

structuralsim. search

visualizationassoc. rulediscovery

visualwindow

links to foreign services

links to foreign services

user

Page 35: 演繹データベースと相関ルール発見 -ゲノム情報処理への応用-

ビジネス応用におけるデータマイニングと知識発見

PACADEPDB rel.80 から選んだ 4842エントリのタンパク質の二次構造に関するジオメトリ情報をファクトとして格納している(約170万ファクト)

PDB highlightゲノムネットでの最新 PDB ( rel.84)を全てサポート( 7688 エントリ)

簡易データマイニングゲノムネットが提供する LinkDB (異なるゲノムデータベースのエントリ間の参照関係)を用いている参照関係の総数は約600万件

WebPACADE がサポートするデータ

Page 36: 演繹データベースと相関ルール発見 -ゲノム情報処理への応用-

ビジネス応用におけるデータマイニングと知識発見

PACADE による類似部分構造検索

可視化で使うプラグイン

(フリーウェア)

類似元を可視化

類似部分構造を可視化

簡易データマイニング

Page 37: 演繹データベースと相関ルール発見 -ゲノム情報処理への応用-

ビジネス応用におけるデータマイニングと知識発見

PDB highlight による可視化

一次構造

立体構造

二次構造

他のデータベースの参照

プラグインを操作することにより拡大縮小/回転/平行移動などが可能

他の解析サービスの呼び出し

Page 38: 演繹データベースと相関ルール発見 -ゲノム情報処理への応用-

ビジネス応用におけるデータマイニングと知識発見

1aa31ab01ac11ady1ae51afp1ag21ahe1aid

A1 B1 B2 C1 C2 C3 D1 E10 0 0 1 0 1 0 10 1 0 1 1 0 0 00 1 0 0 0 0 0 11 0 0 0 1 0 0 01 0 1 0 0 1 1 00 0 0 0 0 0 1 00 0 0 0 0 1 1 00 1 0 1 0 0 0 10 0 0 0 1 1 0 0

ユーザ指定011010010

ユーザが指定した PDB エントリ集合に対してビットが立っているような特殊なアイテムを動的に生成し、そのアイテムに関する相関ルールだけを効率よく求める。他のアイテムは LinkDB から供給される参照関係データのサブセット(ユーザが別途指定したゲノムデータベースに関するアイテムだけを使用)。

WebPACADE における簡易データマイニング機能

ユーザ指定 A1 B1 B2 C1 C2 C3 D1 E11aa3 0 0 0 0 1 0 1 0 11ab0 1 0 1 0 1 1 0 0 01ac1 1 0 1 0 0 0 0 0 11ady 0 1 0 0 0 1 0 0 01ae5 1 1 0 1 0 0 1 1 01afp 0 0 0 0 0 0 0 1 01ag2 0 0 0 0 0 0 1 1 01ahe 1 0 1 0 1 0 0 0 11aid 0 0 0 0 0 1 1 0 0

結局、ユーザは「指定した PDB エントリ集合と他のデータベースエントリとの相関」を求めることができる。

Page 39: 演繹データベースと相関ルール発見 -ゲノム情報処理への応用-

ビジネス応用におけるデータマイニングと知識発見

簡易データマイニングの模様

簡易データマイニング

PDB のエントリ集合

対象のゲノムデータベースを指定

見つかった相関ルール

Page 40: 演繹データベースと相関ルール発見 -ゲノム情報処理への応用-

ビジネス応用におけるデータマイニングと知識発見

PACADE の類似検索は並列処理による高速化が必要

簡易データマイニングはまだプロトタイプレベル各種精練手法の実装や発見した相関ルールの再利用( e.g.相関ルールを使った推論)などを行い、ゲノムデータベースからの実用的データマイニングサービスに発展させたい

タンパクの設計や創薬などの役に立つ機能があれば積極的に追加して行きたいので、興味がある方はぜひ御相談ください

おわりに

PDB highlight はさらに高機能化が必要