2010/12/17 B4 真境名　郁

先端論文紹介ゼミ「A fuzzy self-organizing map algorithm for biological pattern recognition」（生物学的パターン認識のための曖昧な自己組織化マップアルゴリズム）

2010/12/17B4 真境名　郁

目次：• Abstract （要約）• Introduction （紹介）• Method （方法）• Clustering quality measurements　（クラスタリング性質測定）• Experimental results and discussion （実験結果と議論）• Conclusion （結論）

Abstract

• データクラスタリングは連続分析とパターン認識を含む様々な過程のための主要課題。

• 本論文では、 DNA 配列のような生物学的データに働くとき、精度と感度を増加させることを目指したクラスタリングアルゴリズムを研究。

• 提案するアルゴリズムが SOM と FCM(Fuzzy-C-Means) よりクラスタリングと分類精度能力に関して優れる可能性を示す。

Introductionグループへのパターンの教師無し分類はクラスタリング

と定義され、データセットのデータグループ、またはクラスタは相似概念の使用で特定される。

これより、データクラスタリングはデータセットの同じ、または異なったパターンを発見することを目指している。

クラスタリングアルゴリズムは、パターン分析などの多く分野で応用の範囲が広く、広く使用されるクラスタリングアルゴリズムには、 SOM 、 fuzzy C-means(FCM) 、 K-means （ K 平均法）等がある。

この研究では、 FCM の不可欠な局面と SOM アルゴリズムを取り入れた「 fuzzy organizing map(FOM) 」を紹介する。

Method• SOM 　 algorithm

　 SOM(Self Organizing Maps) 多次元データを低い次元のマップに変える

ニューラルネットワークベースのクラスタリング技法。

SOM の一般的な構造体は、相互接続されたニューロン、ノードの格子であり、二次元格子位相が広く使用される。

SOM の目的は、ランダムに初期化されたノードの重みベクトルから成る格子に関する入力データを表すこと。

Method

Method• FCM clustering algorithm

Fuzzy C-means(FCM) FCMは、入力値により近いクラスターの中心を徐々に動かすための反

復演算。（式(1),(2)）

　　　　　　　　　　　　　　　　　　　　　　：メンバーシップ値の計算

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　：クラスターの中心

を更新　　　　　　　　　　　　　　　　　　　　　　　　 7

Method

Method• Fuzzy organizing map(FOM)

FOM アルゴリズムは、２つのクラスタリングアルゴリズム、 SOM および FCM を利用している。

SOM の主な欠点：近隣ノードの更新をするのに計算上高価な操作を必要とする。

この点 SOM と異なり、 FCM は交互に最適化手法を利用する

　比較的速いアルゴリズム。 FOM アルゴリズムの基本的な訓練周期は SOM と同じで

ある。

Method

Clustering quality measurements• 様々なクラスタリング基準はクラスタリング性質

を測定するために提案されている。• この研究では、３つの一般的なクラスタリング性

質測定法を利用している。（ Table 1 ）①Quantization error( 量子化誤差 )②Graph-based cohesion error( グラフベースの結

合誤差 )③Prototype-based cohesion error( 原型ベースの結

合誤差 )

Clustering quality measurementsx: 各入力n: 入力要素の数c: グリッド上のノー

ドm: ノードの数p: 特定のノードの

データ　ベクトル数

dist(distance function):ユークリッド距離

Clustering quality measurements①Quantization error( 量子化誤差 )

ネットワークがどのくらい上手く与えられた入力に反応することができるのかを示している。

これはデータセットにおける全ての入力の勝利距離の平均とみなす。

② Graph-based cohesion error( グラフベースの結合誤差 )

クラスター分析の１つの主要な目的は、同じクラスタのデータベクトル間の距離を最小にすることであり、これがどのくらい優れるかを示す。

同じクラスタで各入力を他のものと比較することで計算。

Clustering quality measurements③Prototype-based cohesion error( 原型ベースの結

合誤差 ) 同じクラスタでの入力の間の距離がどれくら

いよく最小にされるかを測定。入力とクラスタの中心の間に平均距離誤りを

取ることによって計算。

Clustering quality measurements3.1.Performance-based quality

クラスタリング性質測定のみでの使用は、クラスタリングアルゴリズムの性能を示すのに十分ではないため、他にいくつかの測定基準を追加して使用する必要がある。

Table2 に最もよく利用される一般的な測定基準を示す。TP(true positive);TN(true negative);FP(false positive) FN(false negative)

Experimental results and discussion

• ここでは異なるデータセットを用いて、FOM アルゴリズムの性能を示し、 SOMと FOM の比較を行う。

• FOM を SOM と FCM と比較するために、計７つのデータセット（４つの DNAモチーフデータと３つの生物学的データセット）を利用している。

Experimental results and discussion4.1.Genomic pattern discovery data setsこの研究で用いている DNA 配列は、 S.cerevisiae-DNA 配列の一部

であり、 Table3 に４つのデータセット (GAL4;RFX1;GCN;CBFI)を示す。

Experimental results and discussion4.1.Genomic pattern discovery data sets 正確にアルゴリズムの性能を測定するため、様々な長さ、大

きさ、異なる数のパターン例を用いている。これらのデータセットに関して、３つのアルゴリズムの性能

の違いを以下の３つの異なる指標で示す。① Clustering quality measures(Table 4)② Classification accuracy measures(Table 5)③ Sequence logos(Table 6)

Experimental results and discussion4.1.Genomic pattern discovery data sets 指標： Clustering quality measures クラスタリング性能の値は低い値程良い。１２つの性能の値中、９つで FOM が優れている結果となっ

た。

Experimental results and discussion4.1.Genomic pattern discovery data sets 指標： Classification accuracy measures

Experimental results and discussion4.1.Genomic pattern discovery data sets 指標： Sequence logosゲノムパターン発見のための別の最も一般的な方

法は、系列ロゴを用いた視覚により結果を提示することである。

系列ロゴは、様々な長さの文字の系列から構成される。

Table 5 より、ゲノム系列パターンの発見においても FOM は SOM と FCM の両方より更に効率的であることが示されている。

Experimental results and discussion4.1.Genomic pattern discovery data sets

4.2.Biomedical data sets• この生物学的データセットを用いた実験では、次の３つ

のデータセットを用いる。 (Table 7参照 )• これらのデータセットは、様々なデータセットからの信号の特徴を抽出することにおいて FOM の性能を示すために役に立つ。

4.2.Biomedical data sets 指標： Clustering quality measures クラスタリング性能の値は低い値程良い。９つの性能の値中、６つで FOM が優れている結果となっ

た。

4.2.Biomedical data sets 指標： Classification accuracy measures

4.2.Biomedical data sets

4.3.Comparison of FOM with other hybrid algorithms このセクションでは、２つの高度なアルゴリズムとの比

較を行っている。 (Table 10参照 ) Fuzzy Kohonen clustering networks(FKCN) Improved FKCN Fuzzy-self organizing map(FSOM)

4.4.Discussion• FOM アルゴリズムはグリッド上のクラスタの中心を更新

するノードを特定する性能のために、 SOM と FCM よりクラスタリング性能と分類精度において優れる可能性を持っている。

• FOM はグリッドを SOM のようにグリッドを視覚マップに変換しようせず、代わりにグリッド上の必要な信号を強化して、データ入力を表そうとする。これは FOM アルゴリズムの強みであり、

　　このアプローチはより良いクラスタリング結果につながる。

• FOM はクラスタリング性能が想像より重要である問題に適している。

Conclusion• この研究において、提案した FOM アルゴリズム

は SOM と FCM との比較により有望なクラスタリングアルゴリズムであることを示した。

• FOM アルゴリズムは DNA 配列などのゲノムデータセットによって明確に役に立ち、また他のアプリケーション部においてもよく振る舞うと予想される。

ご清聴ありがとうございました。

2010/12/17 B4 真境名　郁

Documents

B4 microscópio

Lengua B4 adivinanzas

Portefólio b4 ilust_design_2016

B4 – ερευνητική εργασία

mechanika gruntów - B4

B4 geo analitica

B4 II Spanish

嚴郁翔 10 26_firefox簡報

skenario 6- B4

B4 - EJ.pdf

[B4] PENG Yan

Die Mauttabelle 4.2 (Bundesstraßen) · 4 - AN B4 Kieswerk Altspringhirsch - AN B4 Parkplatz 2 1,6 4 - AN B4 Parkplatz 2 - AN B4 Parkplatz 3 1,3 4 - AN B4 Parkplatz 3 - AN B4 Barmstedter

Exhibition/Meeting Organizers 洪郁真江依璇饒宜姍黃馨瑩朱祐廷魯繼寬

B4 membrana

20150503 b4

製作 : 黃郁閔 . 李涓綺

TUTORIAL B4 Preeklamsia

B4 reguler

B4 lipidos pdf1

999B0001 簡順禧 999B0017 邱郁婷

2010/12/17 B4 真境名 郁

2010/12/17 B4 真境名　郁