國立中山大學資訊工程學系碩士論文image.cse.nsysu.edu.tw/2006student/%A5%C8/%A5%C8%AA%BA%BD%D7%A4%… · 人畢業學校圖書館，為學術研究之目的以各種方法重製，或為上述目的再

國立中山大學資訊工程學系

碩士論文

影片資料庫擷取系統

Video Database Retrieval System

研究生：林家玄撰

指導教授：蔣依吾

中華民國 95 年 6 月

博碩士論文授權書

(國科會科學技術資料中心版本93.2.6)

本授權書所授權之論文為本人在國立中山大學大學(學院) 資訊工程系所

＿＿＿＿＿＿組 95 學年度第 2 學期取得碩士學位之論文。

論文名稱：影片資料庫擷取系統

□同意不同意

本人具有著作財產權之論文全文資料，授予行政院國家科學委員會科學技術

資料中心(或其改制後之機構) 、國家圖書館及本人畢業學校圖書館，得不

限地域、時間與次數以微縮、光碟或數位化等各種方式重製後散布發行或上

載網路。

本論文為本人向經濟部智慧財產局申請專利(未申請者本條款請不予理會)

的附件之一，申請文號為：＿＿＿＿＿＿，註明文號者請將全文資料延後

半年再公開。

--------------------------------------------------------------------------

同意 □不同意

本人具有著作財產權之論文全文資料，授予教育部指定送繳之圖書館及本

人畢業學校圖書館，為學術研究之目的以各種方法重製，或為上述目的再

授權他人以各種方法重製，不限地域與時間，惟每人以一份為限。

上述授權內容均無須訂立讓與及授權契約書。依本授權之發行權為非專屬性發行

權利。依本授權所為之收錄、重製、發行及學術研發利用均為無償。上述同意與不同

意之欄位若未鉤選，本人同意視同授權。

指導教授姓名: 蔣依吾博士

研究生簽名: 學號: M933040050

(親筆正楷) (務必填寫)

日期:民國 95 年 6 月 27 日

學年度 : 95

學期 : 2

校院 : 國立中山大學

系所 : 資訊工程研究所

論文名稱（中） : 影片資料庫擷取系統

論文名稱（英） : Video Database Retrieval System

學位類別 : 碩士

語文別 : 中文

學號 : M933040050

提要開放使用 : 是

頁數 : 102

研究生（中）姓 : 林

研究生（中）名 : 家玄

研究生（英）姓 : Lin

研究生（英）名 : Chia Hsuan

指導教授（中）姓名 : 蔣依吾

指導教授（英）姓名 : John-Y Chiang

關鍵字（中） : 碎形正交基底編碼

關鍵字（中） : 支援向量分類

關鍵字（英） : Fractal orthonormal bases

關鍵字（英） : Support vector clustering

關鍵字（英） : Multiple-Instance Learning

i

摘要

在數位時代中，影片資料在生活中也越來越普及。當使用者與影

片資料量越來越多時，對於影片資料之管理也越來越重要。因此影片

資料庫系統之實現，提供使用者查詢並擷取影片資料。

本論文使用碎形正交基底編碼(Fractal orthonormal bases)技術結合支援向量分

類(Support vector clustering)找出場景變化處，在從各場景中找出各別的關鍵影格

作為資料庫索引，建立影片資料庫，每張資料庫內影像之特徵均由對碎形正交基

底之投影向量值表示。正交基底是由碎形迭代函數透過 target 及 domain blocks 比

對所訓練導出，可證明相似影像具相似碎形函數，而且不相似影像具相異碎形特

徵向量；換言之，特徵點相距越遠，保證其對應影像內容一定不相似，然而特徵

點較靠近，則保證其影像內容相似。因此，使用碎形正交基底函數線性組合所得

係數為搜尋資料庫索引鍵值，可取得相似影像，並避免找出不相似影像。

由於欲搜尋之影像很難根據單一張搜尋影像(query image)代表所有可能之

形狀、大小或方位，為使搜尋條件更為明確，藉由輸入多張與目標影像正、負相

關搜尋影像，透過 Multiple-Instance learning 法則自動地找出與正相關影像

(positive examples) 相似且與負相關(negative examples)不相似之碎形正交基底投

影向量特徵，使搜尋條件更為明確，將使用者最有興趣之部分，結合具有良好索

引檔之碎形正交基底之技術。

影像比對時，方法是依據 MIL 所擷取之特徵，找尋資料庫哪些影像具有相

似特徵，計算相似度，依此作排名輸出。詳細比對時，將資料庫中有著搜尋特徵

之影像，找出該所屬區域，將擷取之特徵群正規化，求得每個特徵群佔所有搜尋

特徵群之比例關係，再以依正相關特徵群之比例和資料庫影像特徵群比例，類似

計算 histogram 之方式求得特徵比例相似度之外；另外還加入計算所求得特徵群

i i

之間結構關係，與正相關範例影像之特徵群結構關係亦計算特徵結構相似度；在

加入每個特徵群區域之分散程度，及簡單計算其區域變異數亦和正相關範例做比

較，於上述三者加入相似性量測中。

i i i

目錄摘要.................................................................................................................................i

目錄.............................................................................................................................. iii

圖目錄...........................................................................................................................vi

表目錄............................................................................................................................x

第 1 章簡介............................................................................................................1

1.1 相關研究(shot detection)...........................................................................9

1.1.1 以相鄰影格差值進行分析............................................................9

1.1.2 以色彩直方圖 (color histogram)進行分析................................12

1.1.3 以邊緣像素(edge pixel)進行分析 ..............................................14

1.1.4 以相似度比對(Likelihood ratio)進行分析 .................................16

1.1.5 以線性回歸方法偵測..................................................................16

1.2 相關研究(retrieval) ..................................................................................18

1.2.1 以顏色為基礎之擷取概念..........................................................19

1.2.2 以形狀為基礎之擷取概念..........................................................22

1.2.3 以內容為基礎之擷取概念..........................................................25

1.3 影片搜尋之相關研究..............................................................................27

1.3.1 JUST A CONTENT-BASED QUERY SYSTEM FOR VIDEO

iv

DATABASES..............................................................................................27

1.3.2 Fast Image/Video Retrieval On Compressed Image And Video

Databases .....................................................................................................30

第 2 章理論基礎..................................................................................................34

2.1 碎形理論..................................................................................................34

2.1.1 轉換之收歛性..............................................................................37

2.1.2 迭代函數系統 (iterative function system)......................37

2.1.3 影像分割......................................................................................38

2.1.4 迭代函數......................................................................................39

2.1.5 碎形在影像搜尋的應用..............................................................42

2.1.6 Orthogonal Basis IFS..............................................................44

2.2 支援向量分類 ( Support vector clustering ) ..........................................49

2.3 Multiple-Instance Learning..............................................................57

2.3.1 定義..............................................................................................58

2.3.2 MIL 應用於影像搜尋...................................................................58

2.3.3 Diverse Density Algorithm....................................................61

2.3.4 Diverse Density definition..................................................62

2.3.5 計算 )|( ir BtP ...............................................................................63

v

2.3.6 計算 )|( ijr BtP ..............................................................................65

2.3.7 Finding the maximum................................................................65

第 3 章研究方法步驟及結果..............................................................................67

3.1 特徵分析及資料庫建立..........................................................................69

3.1.1 空間轉換......................................................................................69

3.1.2 資料分類......................................................................................72

3.1.3 資料庫建立..................................................................................80

3.2 影像搜尋..................................................................................................83

3.2.1 使用 MIL 找出共有特徵 ............................................................83

3.2.2 比對方法......................................................................................85

3.3 實驗結果..................................................................................................88

參考文獻......................................................................................................................92

vi

圖目錄圖表 1-1 劇烈場景變化 ..............................................................................2

圖表 1-2 (a)淡入 (b)淡出 ............................................................................3

圖表 1-3 溶解 ..............................................................................................3

圖表 1-4 非線性變換之溶解 ......................................................................5

圖表 1-5 轉換函式 ......................................................................................5

圖表 1-6 抖動變換過程 ..............................................................................7

圖表 1-7 水平擦視 ......................................................................................7

圖表 1-8 對角線擦視 ..................................................................................7

圖表 1-9 推擠過程 ......................................................................................8

圖表 1-10 不同轉換過程 ............................................................................9

圖表 1-11 Fernando[1]實驗數據圖............................................................11

圖表 1-12 (a)(b)鏡頭從房子高處一道低處之過程 (c)(d)對應之色彩值

方圖......................................................................................................12

圖表 1-13 採用高低門檻 ..........................................................................13

圖表 1-14 ρin、ρout 變化整體架構如圖 1.15。 ...................................15

圖表 1-15 邊緣像素分析之整體架構圖 ..................................................16

圖表 1-16 (a)溶解 (b)劇烈場景變化 (c)動作量小 (d)動作量大 ...........17

vii

圖表 1-17 相關係數趨勢圖 ......................................................................18

圖表 1-18 影格差值和計算線性相關度之比較圖 ..................................18

圖表 1-19 影像搜尋模型 ..........................................................................19

圖表 1-20 RGB 彩色模型 ..........................................................................20

圖表 1-21 (a)正常影像 (b)色調偏紅影像 ................................................21

圖表 1-22 沿一特定斜率切割 ..................................................................23

圖表 1-23 (a)一個曲線軸角度 (b)將一形狀分割成數個部分 ................24

圖表 1-24 金字塔由前方及俯看分別得到三角形及正方形 ..................25

圖表 1-25 記錄物件相對位置 ..................................................................26

圖表 2-1 特製影印機 ................................................................................35

圖表 2-2 使用特製影印機三次所得結果 ................................................35

圖表 2-3 相同初始影像，不同碎形函數，得到不同結果 ....................36

圖表 2-4 使用 Fractal 產生楓葉 ...............................................................38

圖表 2-5 於同一張影像中找到結構相似方塊（紅色與藍色兩組） ....39

圖表 2-6 將 Domain 縮小成 Range 大小 ............................................40

圖表 2-7 Range 方塊去尋找圖中與之相似之 Domain 方塊 ...................43

圖表 2-8 碎形搜尋結果 ............................................................................44

圖表 2-9 步驟 2 示意圖............................................................................48

viii

圖表 2-10 步驟 3 示意圖..........................................................................48

圖表 2-11 峰值效應 ..................................................................................50

圖表 2-12 最佳超平面，o 為 support vector ...........................................50

圖表 2-13 線性不可分割 ..........................................................................51

圖表 2-14 支援向量分類示意圖 ..............................................................52

圖表 2-15 採用高斯型態之核心函式進行分類，C=1，支援向量為以圓

圈圈住之點 q = (a)0.005 (b)0.05 (c)0.2 (d)0.5 ..................................56

圖表 2-16 有離群值(outlier)和沒有離群值之支援向量分類，q=0.08

(a)C=1 (b)C=0.4...................................................................................57

圖表 2-17 密度函數示意圖 ......................................................................57

圖表 2-18 Multiple-Instance Learning Algorithm: Diverse Density..........62

圖表 2-19 每個 instance DD 之分佈圖 ....................................................66

圖表 3-1 Y,U,V 之正交基底 .....................................................................71

圖表 3-2 影像在特徵空間上之分佈圖 ....................................................73

圖表 3-3 球體半徑變化圖，虛線範圍代表影片正確場景變化處 ........74

圖表 3-4 (a)球體起始半徑約 0.01 (b)球體起始半徑約 0.6 ..................76

圖表 3-5 帶有突然場景變化之影片片段 ................................................76

圖表 3-6 一階微分圖 ................................................................................77

ix

圖表 3-7 滑動窗口 ....................................................................................78

圖表 3-8 )(iDiff 之曲線圖 ........................................................................79

圖表 3-9 YUV 座標圖,Y=0.5.....................................................................81

圖表 3-10 Lena 標準影像 RGB 轉換為 YUV 之影像 ........................82

x

表目錄表 1 主要顏色對照表..............................................................................21

表 2 不同組成物有不同特徵..................................................................25

表 3 八個基本轉換..................................................................................41

1

第1章簡介

近年來,多媒體資訊已經成為日常居家生活資訊傳遞中不可或缺的一種形

式，而視訊檔案與影片資料則屬其中應用度頗高的一種資料，這類型資料如:電

影影片、電視節目…等。由於影片資料內容包含影像與聲音資料，所以往往影片

資料檔案大小十分驚人，對於這些大量視訊資料保存與處理，若能使用一種有效

率的方法來協助我們對這些影片資料管理與搜尋，將會使得這些資料在應用上更

方便且應用範圍也會更廣。

由於影片資料量龐大，而且不容易以目前電腦內部的方式描述其內容。因此

建立索引與資料庫將會是管理這些資料的好方法之一，唯有妥善管理的資料才會

成為有價值的資訊。

影片資料庫研究應可以視為影像資料庫的延伸，而在過去，影像資料庫之相

關研究不勝枚舉，諸如使用色彩分佈（Color Histogram)、形狀、材質等特徵資

訊來處理影像資料，都有其代表性，也因此當我們在設想影片資料庫設計時，這

方面資訊就成了參考的依據。而影片資料中，連續的資訊算是影片與影像之間最

大的差異性，也因為影片有連續性的特徵，在設計影片資料庫時可以借重這方面

的資訊，幫助我們找出代表性的特徵資訊，來作為搜尋依據。由於影片資料量十

2

分龐大，如何有效地對影片資料作分類、索引與比對，都是我們所著重的要點。

而在一個6分鐘短片就包含了將近一萬張靜態圖片，如果使用者想從一段影

片中找尋特定內容，必須耗費大量時間，且結果不一定正確。然而影片具有連續

性之特性，根據這個特性可以將影片分割成許多片段，稱之為場景(shot)，每一

個場景各自代表著不同含意，像是一個人演講了3分鐘，雖然包含了幾千張影像，

但屬於相同事件，所以是同一個場景。以場景為單位來作影片資料庫檢索，不但

使資料量大幅下降，也容易作索引檔。

現存方法都是以偵測景物改變來分割影片，而從一個場景跳到另一個場景之

過程，在編輯影片時最常使用下列二大類方法：

(1) 劇烈場景變化(Abrupt cut): 從一個場景直接進入另外一個場景，沒有

任何變化過程，如圖1.1。

圖表 1-1 劇烈場景變化

3

(2) 緩慢場景變化(Gradual transition): 從一個場景慢慢變換到另外一

個場景。這個類別普遍使用下列方法：

1. 淡入、淡出 (fade in、fade out)：

淡入: 從一單色影格逐漸顯示出影像，

淡出: 從一張影像逐漸變成單色影格，如圖1.2。

圖表 1-2 (a)淡入 (b)淡出

2. 溶解(dissolve)：淡入和淡出同時進行，原始影像淡入，目標影像淡出，

如圖1.3。

圖表 1-3 溶解

4

上面兩個範例，其變換過程都是屬於線性，也就是隨著時間來調整顏色比

例，使其RGB值慢慢增加或減少。定義如下：

Definition ：給定兩個場景A、B，從A 場景轉換成B 場景之過程，如果滿

足等式(1.1)，則稱為溶解。

At(x,y)：在A場景中之第t張影格(frame)，其(x,y)座標上像素顏色值

Bt(x,y)：在B場景中之第t張影格，其(x,y)座標上像素顏色值

Dt(x,y)：在變換場景中之第t張影格，其(x,y)座標上像素顏色值

α(t)、β(t)：轉換函式 (transition function)

而在At(x,y) = 0和Bt(x,y) = 0 這2種特殊狀況下，分別代表淡入、淡出。

但也有些變換過程屬於非線性，如圖1.4，

5

圖表 1-4 非線性變換之溶解

其轉換函式如圖1.5。

圖表 1-5 轉換函式

另外通常在定義溶解之數學式時，轉換函式α(t)、β(t)加總為1，但在少

6

數情況下，如圖1.5，轉換函式α(t)、β(t)加總就不為1。

3. 抖動(dither)：在影像變換過程中，原始影像會以某圖形樣式消失，而

顯示出目標影像，定義如下：

Definition ：給定兩個場景A、B，從A 場景轉換成B 場景之過程，如果滿足等

式(1.2)，則稱為抖動變換過程。

At(x,y)：在A場景中之第t張影格(frame)，其(x,y)座標上像素顏色值,

Bt(x,y)：在B場景中之第t張影格，其(x,y)座標上像素顏色值,

Dt(x,y)：在變換場景中之第t 張影格，其(x,y)座標上像素顏色值,

α(t)、β(t)：轉換函式 (transition function)

St 為圖形樣式

如圖1.6 之圖形樣式為隨機。

7

圖表 1-6 抖動變換過程

4. 擦視(wipe)：在影像變換過程中，其邊界會有所移動，邊界可能是水平、

垂直或是對角線移動，當然邊界移動可以任意變化，不限於水平、垂直，如圖1.7

為水平擦視(horizontal wipe)，圖1.8 為對角線擦視(diagonal wipe)。

圖表 1-7 水平擦視

圖表 1-8 對角線擦視

5. 推擠(push)：擦視之變形，如圖1.9，跟擦視最大差別在於原始影像是被

推擠出去，不像擦視是被目標影像慢慢取代。

8

圖表 1-9 推擠過程

在緩慢場景變化之類別中，還有非常多變換過程，如圖1.10，這些變換過程不容

易以數學形式表示。

9

圖表 1-10 不同轉換過程

1.1 相關研究(shot detection)

1.1.1 以相鄰影格差值進行分析

在影片編輯過程中，溶解是最常被用來從一個場景轉換到另一個場景之方法，而

且通常是線性過程，因此可以利用此特性來偵測場景變換。

溶解之定義如下:

10

fn 和gn 分別為兩組不同場景之影像序列，L1 為Fn 之時間長度，L2 為gn 之時間長

度，F為溶解過程之時間長度。[1][2]假設這兩組影像序列都有各自之平均值m 和

變異數σ2，所以溶解變換過程中，平均值和標準差會如下所示：

而淡入(fade in)和淡出(fade out)同樣會有相似情形，可以觀察出在淡入淡出或是

dissolve過程中，平均值和變異數分別會有線性(linear)和二次式(quadratic)之情

形，因此對平均值作一次微分和對變異數作二次微分之值都為常數，根據這兩個

值之間比率(ratio)就能偵測出場景變換，如圖1.11。

11

圖表 1-11 Fernando[1]實驗數據圖

12

1.1.2 以色彩直方圖 (color histogram)進行分析

影片分割最簡單方法就是將影片中相鄰影格之RGB 值相減，差值越小代表這兩

個影格屬於同一個場景之機率越高，但影片動作(可能來自於物體移動、人物或

是鏡頭本身動作等等)越激烈，RGB 差值也會跟著越大，導致本來應在同一個場

景畫面被誤認為是屬於不同場景。

因此以色彩直方圖來進行分析，降低動作所造成之影響，如圖1.12。

圖表 1-12 (a)(b)鏡頭從房子高處一道低處之過程 (c)(d)對應之色彩值方圖

13

但在緩慢場景變化時，相鄰影格之色彩直方圖差值 (color histogram difference)雖

然比在同一個場景中相鄰影格之色彩直方圖差值大，但還是不足以大到被認為有

場景改變，所以Zhang [3]用兩個門檻( threshold )，高門檻用來偵測劇烈場景變

化，低門檻用來偵測緩慢場景變化，如圖1.13。

圖表 1-13 採用高低門檻

當色彩直方圖差值超過高門檻 Th，就被認為發生了劇烈場景變

化，而當個別色彩直方圖差值在低門檻 Tl 和高門檻 Th 之間，但是經

過一段時間加總之色彩直方圖差值卻超過高門檻時，就判斷有場景變

化。

14

1.1.3 以邊緣像素(edge pixel)進行分析

此方法是建立在一個簡單觀察上[4]：在劇烈場景變化或是溶解發生時，新影格

之邊緣像素會出現在距離舊影格之邊緣像素較遠位置，稱為進入邊緣像素

(entering edgepixels)；舊畫面之邊緣像素會在距離新影格之邊緣像素較遠位置消

失，稱為離開邊緣像素(exiting edge pixels)。

給定兩張相鄰影像I 和It+1，在I 影像中，每個邊緣像素和It+1 影像中離自己本身

最接近之邊緣像素計算距離，統計距離超過r 之邊緣像素佔整體比例 (ρout)，在

劇烈場景變化、淡出或是溶解一開始時，ρout 會很大。同樣方法，在It+1 影像中，

每個邊緣像素和影像I 中離自己本身最接近之邊緣像素計算距離，統計距離超過

r 之邊緣像素佔整體比例 (ρin)，在劇烈場景變化、淡入或是溶解結束時，ρin 會

很大。

藉著ρin 和ρout 變化，就能偵測出劇烈場景變化、淡入、淡出、溶解，如圖1.14。

15

圖表 1-14 ρin、ρout 變化

整體架構如圖 1.15。

16

圖表 1-15 邊緣像素分析之整體架構圖

1.1.4 以相似度比對(Likelihood ratio)進行分析

相似度比對方法[5]是利用在一特定區域中之二階統計量來進行分析。一張影格

分成多個互不重疊區塊，分別計算各個區塊間之統計量來偵測場景變化。

μ i 和μ i +1 為連續兩張影格相對應區塊之像素平均亮度，σ i 和

σ i +1 為其變異數，並計算有哪些區塊之λ 超過門檻值 t，如果超

過門檻值 t 之區塊數目超出一特定門檻值，就斷定有場景變換。

1.1.5 以線性回歸方法偵測

由於溶解變換過程通常是線性，第k 個影格與第k+1 個影格之間每一個像素顏色

差值FD(k)，和第k+1 個影格與第k+2 個影格之間每一個像素顏色差值FD(k+1)會

有線性關係，如圖1.16(a)，而(b)、(c)、(d)則分別對應劇烈場景變化、畫面有小動

17

作影響、畫面有大動作影響。經由計算這兩者之相關係數可以來偵測場景變化，

如圖1.17。

但是在有雜訊影響下，效果不是很明顯，因此Han[6]先將每個影格中可能會產生

雜訊部分濾除掉，得到如圖1.16 之分佈圖，再計算兩者之相關係數和線性相關

度R 來處理場景分割，圖1.18 為直接利用相鄰影格差值方法和線性回歸方法之

比較圖。

圖表 1-16 (a)溶解 (b)劇烈場景變化 (c)動作量小 (d)動作量大

18

圖表 1-17 相關係數趨勢圖

圖表 1-18 影格差值和計算線性相關度之比較圖

1.2 相關研究(retrieval)

隨著科技進步，資料類型不再僅限於文字，取而代之，為大量多媒體影音資訊，

因此，近年來有許多人投入關於影像搜尋研究，其研究模式離不開分析影像、特

徵比對，如圖。其中，影像特徵主要為顏色、形狀、紋理、移動物體等。

19

圖表 1-19 影像搜尋模型

1.2.1 以顏色為基礎之擷取概念

大自然中，許多物體都有自己顏色，因此人們喜歡在種種物體前加上屬

於它的顏色作為形容，如：藍天、白雲、紅花、緣葉、黃牛、黑炭等，但顏

色是一種很不明確形容詞，以紅色而言，又可分為許多種：深紅、粉紅、桃

紅、棗紅…等等，以這種不明確特徵為影像搜尋關鍵，必需有一套方法依顏

色對影像分析。

在影像處理上，常將每個像素顏色以 RGB 模式表示，如圖 1.20，R 為

紅色，G 為綠色，B 為藍色，由這三個原色，依不同比例產生各種顏色。

20

B

G

R

綠

藍

紅黃

青

紫紅

黑

白灰階

(0,1,0)

(1,0,0)

(0,0,1)

圖表 1-20 RGB 彩色模型

在此模型中，灰色位於從黑到白之間線段上，彩色位於立方體頂點或內

部，在此假設所有彩色值已經正規化，所以上圖所示立方體是一個單位立方

體，也就是說，所有 R、G、B 值都假定在[0,1]範圍內。

將顏色以 RGB 模型量化後，便可規劃出一套以顏色對影像分析方法，

在[7]中，提出了這樣方法：

⎪⎭

⎪⎬⎫

⎪⎩

⎪⎨⎧

BB

GG

RR ,, ， R ， G ， B 分別為紅、綠、藍三個色帶平均值，

利用顏色所佔比例分析影像。先對影像中顏色分類，從中選出 27 種主要顏

色，如表 1，再將影像中所有顏色以這些主要顏色取代，計算主要顏色比例，

以此為影像搜尋特徵，因為是以顏色比例來作搜尋特徵，影像顏色比例不會

因為尺寸、位移及旋轉而改變，所以可以做到搜尋結果不因搜尋影像尺寸、

21

位移及旋轉改變而改變。

表 1 主要顏色對照表

現實生活中，有許多事物不相似卻有相似顏色，相對地，也有許多相似

事物卻有不同顏色，因此，使用顏色建立影像資料庫索引，無法滿足良好索

引應具之性質，以此方法建立之影像資料庫，必有其缺點存在。例如，1.21(a)

與(b)皆為同地所拍攝得夕陽，由於使用不同輸入裝置，造成(b)顏色偏紅，若

僅使用顏色分析法搜尋，將發生搜尋失敗。

(a) (b)

圖表 1-21 (a)正常影像 (b)色調偏紅影像

22

1.2.2 以形狀為基礎之擷取概念

一物體形狀是一個重要特徵點，但因形狀複雜性，無法經由文字表示，

形狀雛形通常以簡單二維幾何實體表示，像正方形 (squares) 、矩形

(rectangles)、圓形(circles)等。傳統表示形狀為藉由影像處理工具來粹取其特

徵集(set of features)。特徵(features)不僅能夠描繪形狀整體形式，就像面積、

瘦肥外形、主要軸線定位等，而且亦能表示形狀邊界（shape boundary）區域

元素，像形狀尖角、邊的獨特點等，因此，在這種方法上是考慮找出形狀特

徵空間(feature space)上有效點。找出兩形狀間相似(similarity)程度，可以經

由數學距離公式計算出形狀上兩點間距離。

2)( yxd −= ，x,y 為 Rn 中兩點，d 為兩點之距離

於擷取形狀之研究方法中[8,9]，為求能順利將物體形狀求出，必須先將

不相關之影像背景去除，在取得物體形狀後，再求出能代表此形狀函數，但

要以一簡單函數描述一物體形狀相當困難，需將形狀分割成許多部分，再將

每個部分特徵記錄下來。

將形狀分割成數個部分，最常使用方法如圖 1.22，先求出反曲點斜率，

再沿這個斜率將形狀切開。

23

圖表 1-22 沿一特定斜率切割

在圖 1.23 中，將一匹馬形狀分成數個部分，再分別計算出每個部分主

要曲線曲率及軸線角度，以此為特徵，記錄在資料庫中，因為有每個部分主

要曲線曲率及軸線角度，可以將這些特徵正規化，以這樣之方法將可以很容

易做到搜尋結果不因搜尋影像尺寸、位移及旋轉改變而改變。

(a)

24

(b)

圖表 1-23 (a)一個曲線軸角度 (b)將一形狀分割成數個部分

使用形狀建立影像資料庫索引，發生之問題與使用顏色建立索引相似，

同一物體由不同角度觀察，將得到不同形狀，如錯誤! 找不到參照來源。，

若拍攝者站在金字塔正前方拍攝，將可得到三角形形狀，但若由金字塔正上

方，由空中俯拍，將得到正方形；或是不同物體有相當形狀，如橘子與球形

狀皆是圓形，因此，以形狀建立影像資料庫索引，亦無法滿足良好索引應具

備之性質，比對搜尋結果造成錯誤，將是可預期。

25

圖表 1-24 金字塔由前方及俯看分別得到三角形及正方形

1.2.3 以內容為基礎之擷取概念

以影像內容組成元素為搜尋特徵資料庫，是以影像中各式組成物比例來

判定影像相似度，若有兩張影像具有相似比例組成，意味著這兩張影像相

似。在影像中，可依人類對事物地瞭解，將組成物分成了背景，紋理，及物

體，其判定方法如表 2，背景有較少量邊緣存在，有較高顏色相似度；紋理

有較少或正常顏色數目，但卻有較高比例邊緣存在，較低顏色相似度；物體

有一般或較多顏色數，包含邊緣數目普通，但顏色相似度較低。

表 2 不同組成物有不同特徵

1.2.3.1 類

別

背景紋理物件

顏色數目正常少或正常正常或多

邊資訊較少長的線較多短的線或較少長的

線

正常

顏色相似度高低低

有了各式組成物的比例關係後，可再以組成物相對位置來增加影像的判

26

別度。如錯誤! 找不到參照來源。，分別存在 1，2，3，4 四個部分，先計

算出每個部分的中心，再分別以自己的中心為原點，以逆時針方向，依序將

尋找的部分記錄下來，如區域 1，以區域 1 的中心為原點，逆時針方向掃瞄，

先發現區域 4，將區域 4 記錄下來，接著發現區域 2，區域 3，於是得到 4-2-3

的結果。

圖表 1-25 記錄物件相對位置

加入更多不同類地特徵，將使建立之資料庫索引更具判別力，但加入更

多地特徵，也將造成系統更大負擔，再者，現實生活中對許多事物並無明確

定義，對人類而言，可以依感覺來處理或判斷，但這些資訊交由電腦處理前，

需先量化，多少比例邊可稱為多，顏色數目多少才能歸類為背景？這些問題

成了首先需要解決地問題，若無法處理這類問題，要以內容物建立索引，便

成為一項艱鉅任務，且以這樣之方法，若要做到搜尋結果不因搜尋影像尺

寸、位移及旋轉改變而改變，更是困難。

27

1.3 影片搜尋之相關研究

1.3.1 JUST A CONTENT-BASED QUERY SYSTEM FOR

VIDEO DATABASES

在 Ardizzone 與 Gascia[10]研究中提出一套 JACOB（ Just A

Content-Based system for indexing and retrieval of images and video）

系統，該系統可以自動地對於影像資料及其對應之影片資料建立索

引。我們討論 JACOB 架構之設計，在結構上依功能之區別分為兩

種，分別為資料庫總體（ database population）與資料庫查詢（ database

querying)兩部份，其中前者為該系統中對於特徵值如色彩、材質及移

動（ motion）等資料之處理，所以亦被稱為特徵資料庫，後者則是與

使用者互動部份。在特徵系統分靜態與動態兩種討論。靜態的部分，

先將影片切割為簡短之連續畫面（ sequence），稱為鏡頭（ shot），再

以顏色與材質等靜態特徵描述子描述些許由分鏡中取出並具有代表

性之畫面（稱之為 representative frames，r-frames）。而動態的特徵描

述子，移動，則為九個連續畫面組成之鏡頭，或是將 r-frames 結合成

動態並具有涵義之影片片段。下圖為 JACOB 系統之特徵值選取架構

圖。

28

影片經過切割成鏡頭，分別取出 r-frames 與動態部份，r-frames 再

依色彩、材質與形狀等取出特徵值，而由鏡頭取出動態部份結合

r-frames 之組合，成為動態之特徵值。其中，鏡頭與 r-frames 儲存

於原始資料資料庫，而特徵值內容則儲存於特徵值資料庫（ feature

DB），當查詢指令啟用時，比對引擎會與特徵值資料庫中之資料項進

行比對，並找出 n 個最相似之鏡頭，在該系統中 n 值可由使用者設

定之。在 JACOB 的架構中，將特徵資料庫與原始資料庫分開建置，

這也影響到我們在實作時對於我們的系統的規劃，因此我們採用類似

的架構設計我們的系統，將影片與特徵資訊分開存放。

實驗結果 :

direct query: 給特徵找圖

query by example: 以圖找圖

29

Query by example :(a) color information only was used (b) texture information and in (c)

both of them.

Direct query :(a) find the four mainly brown images (b) find the four mainly brown and

coarse-textured images (c) find the four mainly brown and fine-textured images”.

30

1.3.2 Fast Image/Video Retrieval On Compressed Image

And Video Databases

[11]利用Q-metric來量測query image與target image之間在頻率域的相似度。

I1,I2,..,IN: 表示存在資料庫的影像

Q: 檢索的影像

Image size: X*Y

In00(i,j): 第(i,j) block的DC係數

Inlk(i,j): 第(i,j) block的第(l,k) channel的係數

DC-image IDCn: 每個block的DC係數

Query影像和Target影像的Visual distance 定義如下:

Wlk: 權重函式s

δ: δ(Q,I)=1 => Q>T and I>T with threshold T.

δ(Q,I)=0 => otherwise.

)),(),,(()),(),,((, ,,, , ,

,**

0,0 jiIjiQjiIjiQIQ klm

klji ji kl

klm

DCDCm δϖδϖ∑ ∑∑+=

31

使用 Q-metric 作影像相似擷取:

使用 Q-metric 作影片相似擷取:

◎只有MPEG視訊片段的I-frames會被擷取

◎計算出query影像和每個MPEG視訊片段的I-frame的Q-distanc

◎在視訊片段中，要是有一個或多個I-frameS , 將經由Q-distance相似度計算後，

將排名前k名的回傳給使用

系統:

32

實驗結果:

34

第2章理論基礎

2.1 碎形理論

碎形觀念早在二十世紀初就被提出，直到 70 年代才由 Mandelbrot 再度提出

來[12]，啟始了一陣研究浪潮。Barnsley 是第一個使用碎形技術做影像壓縮學者

[13]，但 Barnsley 並沒有將演算法公開，目前所接觸到碎形壓縮法主要是由其學

生 Jacquin[14]所發表出來，而後又有 Fisher 等人提出許多改良研究[15,16]，至今

碎形仍多應用於影像壓縮而較少應用於影像索引方面。

Fisher 在[16]提出一個例子來解釋碎形壓縮。假設有一台特製影印機能將輸

入影像小一半，並且複製三份，如圖 2.1，左方為輸入影像，右方為輸出影像，

反覆使用這部影印機，將輸出影像，當做輸入影像，經多次操作，可得如圖 2.2

結果。由圖 2.1 觀察不難發現，不管輸入影像為何，經特製影印機多次操作後，

最後得到相似影像，而且操作次數越多，所得之影像越相似。換言之，只要使用

這部影印機操作夠多次，不管起始影像是什麼，最後都將收歛至一張歸結影像，

而決定歸結影式像樣者，為複製方向與位置．

35

圖表 2-1 特製影印機

圖表 2-2 使用特製影印機三次所得結果

由於決定特製影印機最後歸結影像者為轉換方式，因此只要描述這些轉換便

足夠代表歸結影像，而與起始之原始影像無關，這些轉換另需滿足收縮性

(contraction)，

),())(),(( 2111 ppsdptptd ≤ ，其中 s

36

收縮性為任兩點經轉換後，距離必須較原來小，如果複製後兩點間距離變大，則

經許多次操作後，歸結影像將變得無限大。所以只有要求轉換方式符合收歛性

質，才能得到歸結影像。

圖 2.3 所示為一些仿射轉換及其歸結影像。第一個例子就是前述特製影印

機，第二個例子將第一個例子上方圖形做了水平鏡射，觀察第一和第二個例子，

發現歸結圖出現了改變。第三個仿射轉換包含了四個轉換，其歸結影像為一株蕨

類植物。

圖表 2-3 相同初始影像，不同碎形函數，得到不同結果

37

2.1.1 轉換之收歛性

令 d 為計算兩點距離函數，t 為一轉換，及空間中兩個點 1p ， 2p 。若 t 滿足：

),())(),(( 2111 ppsdptptd ≤ ，其中 s

38

重複地使用迭代函數系統T ，最後將收歛至一張固定影像。因此，T 決定了一張

最後收歛之影像。

2.1.3 影像分割

由於一般影像比人造影像複雜，無法以一簡單碎形迭代函數表示，必須將影

像分割，使分割所得之區塊有較低複雜度，低複雜度區塊，易於從同一張影像中，

找到相似方塊，如圖 2.4，大方塊經過處理（縮小、旋轉、位移等）後，與小方

塊相似。

圖表 2-4 使用 Fractal 產生楓葉

39

圖表 2-5 於同一張影像中找到結構相似方塊（紅色與藍色兩組）

Jacquin 在[17]中將影像分割成數個大小為 BB× 、不重疊方塊，稱為 Range；

同一張影像，又分割為數個重疊方塊，大小為 DD× ，稱為 Domain，且使得 D>B。

為便於計算，Jacquin 取 BD 2= 。經分割後，對於每一個 Range， iR ，可在影像

中找到一個 Domain， jD ，及一迭代函數， it ，使得： )( ji Dt 與 iR 最相似，即

))(,( jii DtRd 最小。

2.1.4 迭代函數

將迭代函數分成幾何縮小， g ，及方塊旋轉， m ，兩部份 iii gmt o=

即 ))(()()( jiijiiji DgmDgmDt == o

40

第一部分幾何縮小，g，使 Domain 方塊縮小為與 Range 方塊相同大小，如

圖 (26)，令μ 為一影像，μ 上之 Range 方塊，大小為 BB× ，以 ),,( BjiS rr 表示，

Domain 方塊，大小為 DD× ，以 ),,( DjiS dd 表示，其中， ),( rr ji 與 ),( dd ji 別

為 Range 及 Domain 方塊之左上方座標，因 Domain 方塊原大小為 Range 方塊四

倍，以其縮小方法為：

4)( 1)(,1)(1)(),()(,1)()(),(,

++++++

+++= jJiIjJiIjJiIjJiIjjiiu rrg

μμμμ

}1,,0{, −∈ Bji L

其中

iiiI d 2)( += ， jjjJ d 2)( +=

圖表 2-6 將 Domain 縮小成 Range 大小

第二部分方塊旋轉 m，Jacquin 提出八個基本轉換函數，介紹如下：

41

表 3 八個基本轉換

轉換運算式原始影像結果

不做改變 jijiv ,,0 )( μμ =

垂直翻轉 jBijiv −−= 1,,1 )( μμ

水平翻轉 jiBjiv ,1,2 )( −−= μμ

沿右上左下對

角線翻轉 iBjiBjiv −−−−= 1,1,3 )( μμ

沿左上右下對

角線翻轉 ijjiv ,,4 )( μμ =

順時針 90 度 iBjjiv −−= 1,,5 )( μμ

42

順時針 180 度 jBiBjiv −−−−= 1,1,6 )( μμ

逆時針 90 度 jiBjiv ,1,7 )( −−= μμ

2.1.5 碎形在影像搜尋的應用

近年來有人試著將碎形應用到影像搜尋領域[18]，先把原影像分割成數個

Range 方塊，對於每一個 Range 方塊，在原影像中找到一個 Domain 方塊，如圖

2.6，及一轉換函數 W，Domain 方塊之長寬各為 Range 方塊 2 倍，使得 Domain

方塊 D 經此一函數 W 處理後，會與 Range 方塊 R 相似，

R≅ W(D)=W⎥⎥⎥

⎦

⎤

⎢⎢⎢

⎣

⎡

zyx

，x,y 為 Domain 方塊上之點座標，z 為點(x,y)上能量之維度。

W 可以矩陣之方式表示為

W⎥⎥⎥

⎦

⎤

⎢⎢⎢

⎣

⎡

zyx

=⎥⎥⎥

⎦

⎤

⎢⎢⎢

⎣

⎡

sdcba

0000

⎥⎥⎥

⎦

⎤

⎢⎢⎢

⎣

⎡

zyx

+⎥⎥⎥

⎦

⎤

⎢⎢⎢

⎣

⎡

gfe

，a,b,c,d 表示點(x,y)之幾何轉換，s 控制

對比，e, f,g 控制亮度差。

43

結合所有方塊轉換函數成為一個函數集，然後利用這些迭代函數集之係數

（a,b,c,d,e,f,g）當作搜尋鍵值，搜尋結果如圖 2.7。

圖表 2-7 Range 方塊去尋找圖中與之相似之 Domain 方塊

[18]中所紀錄轉換函數皆由原影像所訓練出來，所以只有在原影像中不同

的影像方塊去比對才有意義，不同影像中的方塊去比對將會導致錯誤的產生，所

以要利用碎形去搜尋影像，首先要先在相同定義域（影像）中去訓練出每一張影

像的轉換函數集，再利用這些轉換函數集去比對才有意義。

44

圖表 2-8 碎形搜尋結果

2.1.6 Orthogonal Basis IFS

目前碎形編碼技術研究主要以 Jacquin 排出之方法[17]為主軸，其它研究則

是改良 Jacquin 提出之方法為主，在[19,20,21]中，Vines 提出了 Orthogonal Basis

IFS，不同於 Jacquin 的編碼方法，Vines 在 Range 方塊編碼方法並不是在同一張

圖中去搜尋單一近似之 Domain 方塊，而是利用複數個之 Orthonormal basis

vectors 去產生 Range 方塊之近似方塊，這個方法將可以使 Range 方塊之近似更

加彈性，不會發生在同一張圖中找不到較為近似之 Domain 方塊之情形，對於任

何 Range 方塊都可以利用相同之 Orthonormal basis vectors 來生成，由於此方法能

使不同的 Range 方塊有著相同的 Domain 方塊集（Orthonormal basis vectors）來

做近似，也就是說不同的 Range 方塊得到之碎形函數有著相同之定義域，不會發

生如 [18]中，用來當作索引鍵值之碎形函數有著不同定義域之情形，所以這個

45

方法所建立出來之碎形函數，用來搜尋影像也將有較為正確之結果，以下將對此

一方法做一詳述。

要進行壓縮之前，首先要決定 code book，也就是 Domain 方塊集，因為 Range

方塊是由數個 Domain 方塊合成的，為了要使計算快速，找出之 Domain 方塊集

要兩兩互相垂直且單位向量為 1，也就是 Orthonormal basis vectors，至於

Orthonormal basis vectors 之數目，取決於 Range 方塊大小，假設一個 LxL 之 Range

方塊，就需要 L2 個 LxL 之 Domain 方塊，設 Range 方塊左上角之元素（xRi，yRi）

可以表示為 r xRi，yRi[x，y]，對每一個在邊長 L 的 Range 方塊之元素可以由左上

至右下連續被表示為一個長度為 L2 之向量 ri，

ri＝[r xRi，yRi[0，0]，r xRi，yRi[1，0]，…，r xRi，yRi[LR-1，LR-1]]T

所以一個 LxL 之 Range 方塊可以視做一個 1xL2 之向量 R，L2 個 LxL 之 Domain

方塊可以視做一個 L2x L2 之矩陣 D，可以得到一個 1x L2 之權重向量 W，使得 R

＝WD，而 W 就是壓縮檔之資訊，利用 W 與 D 做內積即可得到 R。

接下來要找一張複雜度較高之訓練圖片，利用這張圖片來找出 Orthonormal

basis vectors，假設 Range 方塊大小為 LxL，則就是要找出 L2 個長度為 L2 之向量

來組成 L2x L2 的矩陣 B＝[v1，v2，v3，b1，…， 32−Lb ]，其中 v1 為所有元素都為 1

的向量，

v1＝[1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1…1 1 1 1 1 1 1 1]T

46

v2＝[0 1 2 3 4 5 ..L 0 1 2 3 4 5 ..L…0 1 2 3 4 5 ..L]T

v3＝[0 0 0 0 0 0 0 ..0 1 1 1 1 1 1 1..1…L L L L L..L]T

v1 在 RGB 平面上是一個均勻方塊（Uniform block）之分量，v2 是一個由左至右

水平漸層方塊之分量，v3 是一個由上至下垂直漸層之方塊之分量，有了這三個事

先給定之 Domain 方塊，可以輕易地去判斷一些特殊方塊，例如 Range 方塊 R 是

一個均勻方塊，則只要判斷此 Range 方塊是否皆由 v1 所構成，即 R=k v1，k∈N

，因為 v1 在 RGB 平面上是一個均勻方塊（Uniform block）之分量，所以若一個

Range 方塊之分量皆由 v1 構成，可知此 Range 方塊是一個均勻方塊，同理 v2、v3

亦然，且 v1 更代表著亮度之資訊，若 Range 方塊在 v1 之分量越大，表示此方塊

上像素 ),( yxf 之 RGB 三原色強度 ),( yxf r ， ),( yxf g ， ),( yxfb 越大，亮度也就

越大，所以若不考慮 Range 方塊在 v1 之分量，就是不考慮 Range 方塊亮度之資

訊，只單獨考慮 Range 方塊紋理之資訊。

{bi} 312 −=

Li 是從訓練圖片中決定出來，在這張訓練圖中長度為 LxL 之 Range 方塊，

每一個方塊都可以視為長度為 2L 之向量 ri，以下說明如何在訓練圖片中找出

{bi} 312 −=

Li ，

步驟 1.

在 Range 方塊集中找出 rs 使得 Ci 有最大值，則 rs 就決定出第一個方向

向量 t1。

47

Ci＝ ∑≠=

Ns

ijjji RR

,1|),(|

步驟 2.

將 Range 方塊集除去 rs 後，再將剩下之 Range 方塊集投影到 rs 上，產

生新的 Range 方塊集，再利用 Ci 決定出新的 rs。

步驟 3.

重複步驟 1 及步驟 2，如此遞迴找出 32 −L 個方向向量{ti} 312 −=

Li 。

步驟 4.

有了這些方向向量{ti} 312 −=

Li ，再將訓練圖片上的 Domain 方塊對這些方向

向量做投影，找出每一個方向向量上有最大投影量之 Domain 方塊，依序決

定出{bi} 312 −=

Li 。

有了矩陣 B＝[v1，v2，v3，b1，…， 32 −Lb ]後，就可以利用 Gram-Schmidt 程

序[22]，由矩陣 B 得到矩陣 Q＝[q1，q2，q3，… 2Lq ]，矩陣 Q 是一個有2L 個長度

為 2L 之 Orthonormal basis vectors，Gram-Schmidt 程序敘述如下。

步驟 1. 令 q1＝v1.

步驟 2. 如圖 2.8 所示，平面 W1 是向量 q1 所生成的，可以得到一個向量 q2

垂直於 W1，q2 是 v2 垂直於平面 W1 之分量

q2＝v2－projW1 v2＝v2－ 21

12

||||,

qqv >< q1

48

圖表 2-9 步驟 2 示意圖

步驟 3. 如圖 2.9 所示，平面 W2 是向量 q1 及 q2 所生成的，可以得到一個向

量 q3 垂直於 W1，q3 是 v3 垂直於平面 W2 之分量

q3＝v3－projW2 v3＝v3－ 21

13

||||,

qqv >< q1－ 2

2

23

||||,

qqv >< q2

圖表 2-10 步驟 3 示意圖

以這樣步驟進行下去，經過 2L 個步驟後，可以得到矩陣 Q＝[q1，q2，

q3，… 2Lq ]，Q 為 Orthonormal basis vectors，也就是用來合成 Range 方塊之

Domain 方塊集。

49

壓縮部分就是將要壓縮之影像 R，用這些 Orthonormal basis vectors 來做線性

組合，使得 R=∑=

2

1

L

i

iiqw ，換言之，影像即使用 Domain 方塊之線性組合係數

（w1,w2,… 2Lw ）代表，作為搜尋之鍵值，設一個臨界值 T，大於 T 的 Wi 都將之

儲存起來，T 設的越大，壓縮比越高，但 PSNR 越低，T 越小，壓縮比越低，PSNR

越高。解壓部分，則是計算 QWi，即可將影像還原。

2.2 支援向量分類 ( Support vector clustering )

在資料分類方法中，通常希望能夠儘可能使用越多特徵，使分類結果越好，

但是大部分分類法都遭遇到同一個困難：峰值效應 (peaking effect)，也就是會有

一個最佳特徵數目使得分類效果最好，而其他特徵數目只會使分類效果變差。原

因是當特徵空間維度增加，對有限樣本數要正確計算其密度 (density)，會越來越

困難，只有對於無限之樣本數，計算誤差值才會逼近於貝氏誤差 (Bayes error)，

才能達到最小誤差，如圖 2.11

50

圖表 2-11 峰值效應

因此 Vapnik[22]提出以找尋最佳超平面( hyperplane )來分類資料，不用估計其機率

密度，且超平面只由一小部分資料點決定，如圖 2.12 中之 o，稱為支援向量( Support

vector )。

圖表 2-12 最佳超平面，o 為 support vector

51

但此方法只適用於線性可分割例子上，在圖 2.13 中，就無法完全分離兩種不同

類別資料。

圖表 2-13 線性不可分割

為了解決這個問題，所以將資料點所在空間轉換成更高維度空間來進行處理，以

利分類進行，而轉換函數為非線性。

BenHur[23]延伸以上所述方法而成支援向量分類( SVC )，圖 2.14 為 SVC 之

示意圖，

52

圖表 2-14 支援向量分類示意圖

下面介紹此一分類方法：

令 X 為一群未分類資料，xi 是 X 中之一組資料，定義一非線性轉換函數 Φ，

使得 X 從原本空間轉換至較高維度空間，在此高維度空間中，找尋一最小半徑 R

之圓球來包住所有資料點，如式(2.1)所示

iRaxi ∀≤−Φ22)( (式 2.1)

a 為此圓球中心，並加入一可調變數 ξi，ξi≥ 0，得到下列式子(2.2)

ii Rax ξ+≤−Φ22)( (式 2.2)

式(2.2)其實是二次規劃問題( quadratic programming )，可以看作是欲使 R2 最小，

53

且其限制條件為 0)( 22 ≥−Φ−+ axR iiξ 和 iξ ≥ 0，引入 Lagrangian

∑ ∑ ∑+−−Φ−+−=j

jjjjjj CaxRRL ξμξβξ ))((222 (式 2.3)

βj ≥ 0 和 μj ≥ 0 為拉格朗日乘數( Lagrangian multiplier )，C 為常數，分別取 L 對

R、a 和 ξj 之偏微分 0RL=

∂∂

， 0aL=

∂∂

， 0εL=

∂∂

，得到下列三式，

∑ =j

j 1β (式 2.4)

∑=j

jj )Φ(xβa (式 2.5)

jj μCβ −= (式 2.6)

且根據 Karush-Kuhn-Tucker (KKT) complementarity conditions

0μξ jj = (式 2.7)

0))((22 =−Φ−+ jjj axR βξ (式 2.8)

分成下列兩種情況討論

1. βj > 0，由式(2.8)可知 0a)Φ(xξR2

jj2 =−−+ ，如果 ξj > 0，

2

j a)Φ(x − 一

定大於 R2，且由式(2.7)得知 μj = 0，從式(2.6)得 βj =C，也就是在 βj = C 時，xj

經過轉換所位於高維度空間之點會在球體外，稱作 bounded support vector (BSV)。

2. 從情況 1.知道 ξj = 0 時，xj 經過轉換所位於高維度空間之點，會在球體表面

或是內部，且當 0 < βj < C，2

j a)Φ(x − 等於 R2，也就是位於球體邊界上，稱作

支援向量 support vector (SV)。

SV 位於球體邊界上，BSV 位於邊界外，剩下點則位於球體內部。值得注意

54

是當 C≥1，由情況 1 和式(2.4)可得知不會有 BSV 存在。

利用(2.4)~(2.6)式，將 L 中之 R、a 和 μj 消除，如式(2.9)

∑ ∑ ∑+−−Φ−+−=j

jjjjjj CaxRRL ξμξβξ ))((222

∑ ∑ ∑ ∑∑ +−−Φ+−−=j j

jjjjjj

jjj CaxRR ξμξββξβ222 )(

∑ ∑ ∑ ∑+−−Φ+−−=j j

jjjjjjj CaxC ξμξβμξ2

)()(

∑ −Φ=j

jj ax β2

)(

∑ ∑ Φ⋅Φ−Φ=j ji

jijijj xxx,

2 )()()( βββ (式 2.9)

式(2.9)中之 Ф(xi)‧Ф(xj)，用一適當核心函式 K(xi, xj)取代，常見核心函式( Kernel

function )有多項式型態( polynomial )和高斯型態( Gaussian )，但根據[24]，多項

式型態之核心函式無法得到緊密外圍輪廓，因此使用高斯型態之核心函式，如式

(2.10)

)exp(),(2

jiji xxqxxK −−= (式 2.10)

對每一組資料點 xj，定義其在高維度空間上之點和距離圓球球心為

22 )()( axxD −Φ= (式 2.11)

利用式(2.5)和(2.10)，算出距球心距離

∑ ∑+−=j ji

jijijj xxKxxKxxKxD,

2 ),(),(2),()( βββ (式 2.12)

球體半徑為當 xj 是支援向量(SV)時，離球心之距離，如式(2.13)

ii xxDR |)({= 為支援向量} (式 2.13)

55

下面是關於 BSV 之特性：

從前文可得知 BSV 之 βj = C，所以如有 n 個 BSV，其加總之 βj = nC

由式(2.4)之限制，可得

∑ ∑−

−

=+nj

1

j

njjj 1ββ (式 2.14)

因此

∑−

=+nj

1j 1nCβ (式 2.15)

所以 nbsvC < 1，而 BSV 總數佔全體資料比例上限為

NC1p = (式 2.16)

N 為全部資料個數，當 N 值很大時，BSV 總數佔全體資料比例會趨近於 p。

下面為一些範例圖，從圖 2.15 中可以看出，隨著 q 值改變，其邊界曲線之

輪廓也會跟著改變。

56

圖表 2-15 採用高斯型態之核心函式進行分類，C=1，支援向量為以圓圈圈住之

點 q = (a)0.005 (b)0.05 (c)0.2 (d)0.5

但如果資料中有雜訊，可能會因此影響到分類效果，利用 BSV 即可改善此現象，

如圖 2.16：圖 2.16 為一原始資料像月亮分佈之圖形，並帶有些許雜訊，圖 2.16(a)

未採用 BSV 來分類，可以看出資料不能有效分離出來，圖 2.16(b)利用些許 BSV，

分類效果明顯改善，原因如圖 2.17 所示：如果兩類資料個別之密度分佈函數有

重疊之部分，如圖 2.17(b)，對於分類效果會有所阻礙，若將重疊部分當作是離

群值(outlier)，即可有效分離兩類資料。

57

圖表 2-16 有離群值(outlier)和沒有離群值之支援向量分類，q=0.08 (a)C=1

(b)C=0.4

圖表 2-17 密度函數示意圖

2.3 Multiple-Instance Learning

Multiple-Instance Learning 是從大量具有 ambiguity 性質之資料，依所給予

58

之標誌訓練這些資料，從中學習的一個理論，類似於 Supervised Learning ，每個

範例都事先給予標誌；但不同之處在於每一個範例不僅只為一個特徵向量，是多

個特徵向量之集合，以下稱之為 bag。此理論亦是分類的其中一種方法，只是它

只將範例資料分成正相關 Positive 與負相關 Negative 兩類別，只標示 bag 所屬

之類別，並不詳細對 bag 裡的 instance 做標誌。

2.3.1 定義

每個範例(Example)都可經由使用者給予正或負相關之標誌，範例資料是由

instance 為基本元素；一範例即是 instance 之集合，亦可說為它為一 bag ，而每

個 instance 即是個向量點。

如何標誌 bag，在此理論中，將 bag 標示為正相關 positive 或者是負相關

negative：

正相關(positive)，即其中有一個 instance 是和使用者有興趣之向量點相似；

負相關(negative)，則沒有任何 instance 是和使用者想要之向量點相似。

其中，像和不像之標準為使用者定立。認定 bags 的標示後，則經由

MIL(Multiple-Instance Learning) 法則嘗試由這些 bags 找出理想之向量點。

簡單以集合論說，目標是找出標有正相關 bags 之交集再扣除負相關 bags 之

聯集部分。

2.3.2 MIL 應用於影像搜尋

影像因具 ambiguous 特性，若要描述一張影像，其描述值不僅止於一個，而

是對影像有多方面描述詞，例如：一張風景畫包括藍天、白雲、樹木，或者是瀑

布等等，所以使用影像分析進行搜尋資料庫因不是使用文字當作搜尋值，是直接

以整張影像搜尋，當然會混淆所欲尋找之物體，單純輸入影像，所給予的線索不

59

多，即對同一影像中非搜尋目標之部分很有可能對欲搜尋之特徵干擾，所以本論

文使用 MIL 此法目的是選取多張影像，提供較多資訊，找出各影像集合間相似

特徵，而排除非共同之特徵，使搜尋條件更為明確。故使用 MIL 法則，由一些

範例資料進而找出共同之理想向量點，將搜尋特徵明顯化，對之後比對工作是有

明顯幫助的。

MIL 此架構中，使用者可為選取之範例影像做標誌，假設該影像中含有所欲

搜尋之特徵時則標示為正相關影像；若影像中無有其特徵則標示為負相關影像。

透過使用者所選取之正相關與負相關等之範例影像集合中，學習訓練出

concepts，再使用學習所得之 concepts 特徵搜尋資料庫。

Multiple-Instance Learning 法則應用於影像搜尋，先要清楚定義 instance 與

bag 個自對應於哪裡，每一影像中的特徵稱為 Instance；單張影像中所有 instance

之集合稱為 bag，若影像被標示為正相關(positive, +)，即其中有一個 instance 是

和使用者有興趣之特徵相似；被標示為負相關(negative, -)，則沒有任何 instance

是和使用者想要之特徵相似。對於每張正相關影像至少要有一 instance 相似於使

用者有興趣之特徵。而負相關影像是使用者認定 bag 中沒有一個 instance 是有興

趣的。從正相關及負相關影像中得到多個 instance，最終目的則是從這些 instance

集合中自動找出使用者有興趣之特徵。

舉例說明，輸入 3 個正相關(+)範例影像, 1 個負相關(-)範例影像,

3 正相關範例影像:

3 張正相關影像特徵有：

60

1. {藍天、白雲、樹木、岩石、瀑布}

2. {岩石、瀑布、河流}

3. {樹木、岩石、瀑布}

其此三張正相關影像共有的特徵為：瀑布、岩石。

1 負相關範例影像:

負相關影像特徵有：藍天、白雲、草原、岩石。

Concept = {瀑布 , 岩石} – {藍天 , 白雲 , 草原 , 岩石} ={瀑布}

正相關所共有之特徵扣除負相關所有之特徵：最後學習訓練的共有特

徵是瀑布。

由上例，希望使用 Multiple-Instance Learning 可找出 positive bags 間共有之

特徵，同時扣除 negative bags 之特徵，進而找出共有特徵，即是使用者有興趣之

部分。

Multiple-Instance Learning 即是在解決前述問題，找出和 positive bag 最為相

近且與 negative bag 完全相異，即最接近使用者所欲之理想特徵。

61

2.3.3 Diverse Density Algorithm

Multiple-Instance Learning 可能遭遇問題為，影像特徵可能含有一些較不重

要之資訊，例如雜訊或背景等，故找不出理想特徵，可能情況如下：

1. 找不出 positive bags 之間共有之特徵，即 positive bags 間無交集。

2. 找出 positive bags 之間共有之特徵，但和 negative bags 中某特徵是相似

的。

以上這兩個問題，會導致系統無法從這些影像中找出最佳理想特徵。

為了解決這問題，將使用 Maron (1998)所提出 Diverse Density 之方法[25]。

此法是找出空間上一特徵點 t 距離 positive bags 較近，且盡量和 negative bags 距

離得較遠，計算 t 靠近 bags 之機率，找出最大機率即為符合特徵，故以結果論

來說，Diverse Density 不會有找不出理想之特徵來，透過計算 t 點機率，距離

positive bags 較近，且離 negativebags 較遠，故可解決上述之問題。

如圖 2-18，有五張影像是正相關影像，標示為 1~5；有三張負相關影像，

標示為 6~8，找出和每個 positive bag 中有一個以上 instance 相似且完全和 negative

bags 不相似之理想特徵點。此時理想之 t 點即位於座標平面左下方處。

62

圖表 2-18 Multiple-Instance Learning Algorithm: Diverse Density

2.3.4 Diverse Density definition

Positive bags 表示成： +++ nBBB ,...,, 21 ， +iB 為被標示 Positive 之第 i 個 bag

Negative bags 表示成： −−− nBBB ,...,, 21 ，−iB 為被標示 Negative 之第 i 個 bag

+ijB : 為

+iB bag 中第 j 個 instance

−ijB : 為

−iB bag 中第 j 個 instance

每個 bag 中包含許多 instance, 而每個 instance 為 k-dimensional vector， ijkB

為向量 ijB 中第 k 維度。

為了要找出最為理想之特徵，要計算所有 positive bags 及 negative bags，

對於空間上一點 t ，它靠近正相關影像，遠離負相關影像之機率值為，

( ) ),...,,...,,...,|( 11 −−++= mnr BBBBtPtDD (3.1)

63

若此點為理想之特徵點，即 ),...,,...,,...,|(maxarg 11−−++mnrt

BBBBtP

3.1 式，根據 Bayes’ rule

�),...,,...,,...,(

)()|,...,,...,,...,()(11

11−−++

−−++

=mnr

rmnr

BBBBPtPtBBBBPtDD (3.2)

( ) )|,...,,...,,...,( 11 tBBBBPtDD mnr −−++= (3.3)

由於每個 bag 對於所給予之 concept t 之機率是獨立的，所以

∏∏ −+=i

iri

ir BtPBtPtDD )|()|()( (3.4)

而 maximizing Diverse Density:

∏∏ −+i

iri

irtBtPBtP )|()|(maxarg (3.5)

2.3.5 計算 )|( ir BtP

(1) Noisy-or

Noisy-or [Pearl,1988]是使用單一個 bag 選定一可能之 concept 點。

此想法是源自於 Bayesian Networks，用來使用計算於多個不同路徑之

binary event 機率。在此模式中，於 bag 中，對於 the concept t 若和某一 instance

相似，則 )|( ir BtP 此機率就會相當高；若沒有和一個 instance 相似，則 )|( ir BtP

機率就相當靠近於零。

∏ =−−= ++j

ijrir tBPBtP ))(1(1)|( ; ∏ =−= −−j

ijrir tBPBtP ))(1()|(

)||||exp()( 2tBtBP ijijr −−== ,

22 )(|||| ∑ −=−k

kijkij tBtB , 其中 ijkB 為向量 ijB 中第 k 維度。

64

Diverse Density 法則為 Multiple-Instance Learning 其中一個方法，於

1998 年為 Maron 所提出，同年隨即應用在影像搜尋上，但僅使用顏

色為影像特徵，但其所使用索引皆無法證明具有良好索引檔之性質，

雖然使用 Multiple-Instance Learning 自動找出使用者有興趣之特

徵，但是相近索引並不代表其影像相近，影像相近但又不一定索引相

近，故所搜尋結果之影像不一定是使用者真正有興趣部分。因此提出

是以碎形正交基底為基礎所建立特徵作為索引，再使用

Multiple-Instance Learning 自動訓練出使用者所選取多張影像中最符

合之理想特徵，進行比對。

(2) Most-likely-cause

此法類似於 noisy-or 但是需要一些假設， )|( ir BtP 即是指找出 bag 中機率最

高的 instance 當作整個 bag 之機率。

ZcBPBtP tijrjir /)}({max)|( ∈=++

ZcBPBtP tijrjir /)})({max1()|( ∈−=−−

(3) All-or-nothing

{ /10

)|(tij cBthatsuchjifZ

otherwiseiBtrP

∈∃=+

+

{ 0/1

)|(tij cBthatsuchjif

otherwiseZiBtrP

∈∃=−

−

利用 Multiple-Instance Learning 找出與正相關影像相似且完全和負相關

影像不相似之特徵，再以這些特徵搜索資料庫，可提高搜尋效果，以期找出

使用者所需求之影像。

65

2.3.6 計算 )|( ijr BtP

concept tc 為 k-維度向量點 tkt cc ,...,1 ，透過 Gaussian-like distribution 計算

instance 和 tc 之相似度。

ZcBcBPkl

tlijltijr /)(exp()(2

1∑≤≤

−−=∈

機率從 0 到 1 不等，0 代表 ijB 此 instance 和 tc 完全不相似，機率越達 1 則相似

程度越高。

2.3.7 Finding the maximum

為了找出理想特徵點，t ，可從 Positive bags 之 instance 找起，因理想之特

徵一定至少和每個 Positive bag 中一個以上的 instance 相似，所以，相似理想特徵

點可在 Positive bags 集合中找到，由 Diverse Density 去計算其中之機率，找出最

大機率，為理想之 concepts。

在此要介紹兩種方法，以期從範例影像中找出 concept。

1. maxDD (maximizing Diverse Density )

計算每個 instance 為理想特徵點之機率，直接套入(3.4)式，所得機

率值最高者，則為理想之特徵點。但如果範例 bags 數過多，每個 bag

之 instance 亦多時，或者 instance 維度過高，利用此法是非常耗時的。

故又提出一方法，我們可帶入一點初始值 t，藉由計算(3.4)式之梯度，

得到梯度值，再循此方向越逼近機率最大值，可避免計算每一個 instance

計算公式之時間。但利用此梯度法雖可節省大量時間之計算，但可能會

遭遇一個困難，他所計算岀最高機率值會侷限於初始值此分佈之最高

峰，以圖 2-19 解釋。若初始值是 +12B 則找到的最大值是在左邊高峰；但

若是 +32B 則是找到右邊之高峰點。故依據初始點之不同，無法保證使用

66

梯度法能找到最大值，只能確定所找出的點為局部之最高峰點。但假使

將初始點不限定一個，而是多個，也是有機會能找出最大之機率值。

圖表 2-19 每個 instance DD 之分佈圖

2. PWDD (Pointwise Diverse Density)

此法是先將每個 positive bag 先分成 negative or positive instances。

每個 bag +iB 個別測量每個所屬於該 bag 的 instance+ijB 中 Diverse Density

)(tDD ，找出所屬於自己 bag 中之 concept 即 )}({max +ijj BDD 。之後依據

找出之 concepts 們在去計算對於所有 bags 之機率，找出最大值

)}}({max{max +ijji BDD ，即理想之特徵點。

對於每個 positive bag 亦可使用梯度法各自找出所與之最大值，

他的優點是相較於 maxDD，時間複雜度低，亦無法保證找出最大值，

但的確地，所找出之特徵點，是靠近最高之點。

67

第3章研究方法步驟及結果

為了建立一個良好搜尋影片資料庫，主要可分為兩大部分，

一、特徵分析及資料庫建立；二、影片搜尋比對。

(1) 特徵分析及資料庫建立:

本論文是採用碎形正交基底投影向量為特徵，保證相似索引，有著相似

影像，具良好索引檔鍵值之條件。

首先將影像經碎形正交編碼，紀錄投影至正交基底之投影向量，再來找

出在多維空間中足以代表每個影格的特徵向量，有了這些特徵向量接下

來要考慮的就是如何準確的下刀將資料分類,找出各個場景轉換之處。

本篇論文所採用之資料分類方法為支援向量分類 (SVC) 。找出了各個

場景變化處之後，再從各場景中找出一張關鍵影格做為資料庫的索引。

(2) 影片搜尋比對:

而比對方法是依據 MIL 所擷取之特徵，找尋資料庫哪些影像具有相似特

徵，計算相似度，依此作排名輸出。詳細比對時，將資料庫中有著搜尋

特徵之影像，找出該所屬區域，將擷取之特徵群正規化，求得每個特徵

群佔所有搜尋特徵群之比例關係，再以依正相關特徵群之比例和資料庫

影像特徵群比例，類似計算 histogram 之方式求得特徵比例相似度之外；

另外還加入計算所求得特徵群之間結構關係，與正相關範例影像之特徵

群結構關係亦以 histogram 方式計算特徵結構相似度；在加入每個特徵群

區域之分散程度，及簡單計算其區域變異數亦和正相關範例做比較，於

上述三者紛紛加入相似性量測中。

68

系統架構圖:

69

3.1 特徵分析及資料庫建立

3.1.1 空間轉換

3.1.1.1 碎形編碼（Orthonormal IFS）

先將 Lena 影像 RGB 轉成 YUV space，依 Y、U、V 分別訓練 Orthonormal

Basis。

使用複數個 Orthonormal basis vectors（Domain 方塊）產生 Range 方塊之近

似方塊，此一方式將可以使 Range 方塊之近似更加彈性，不會發生在同一張圖中

找不到較為近似之 Domain 方塊之情形，對於任何影像之 Range 方塊 B 都可以利

用相同之 Domain 方塊集 },...,,{ 221 kvvvV = （Orthonormal basis vectors）來產生，

B=∑=

2

1

k

jjj va ，v j 為 kk × (Pixel

2)Domain 方塊

所得之係數 },...,,{ 221 kaaaA = 即為壓縮檔之內容，亦為影像比對之鍵值，由於依

相同之 Domain 方塊集合產生，不同 Range 方塊得到之碎形函數均具相同之定義

域，不會發生如[7]中，用來當作索引鍵值之碎形函數有著不同定義域之情形，

所以根據此一方法所建立之碎形函數，用來搜尋影像也將有較為正確之結果。

取 Range 大小為 kk × (Pixel2)，一張影像 I 分為 Y、U、V 三個平面，所以

要分別在這三個平面上分別訓練出 k2 個 kk × (Pixel2)Domain 方塊集

},...,,{ 221 kvvvV = ，且這些 Domain 方塊集必須為 Orthonormal Basis Vectors。

有了這三個平面之 Domain 方塊集，則資料庫中之每一 mn× 影像 I，就可以分割

70

為多個 kk × (Pixel2)Range 方塊，

I= ∑×

=

2/)(

1

kmn

iiB ，B i 為 kk × (Pixel

2)Range 方塊

B i =∑=

2

1

k

jjj va ，v j 為 kk × (Pixel

2)Domain 方塊

分別對這三個 Y、U、V 平面編碼，在這三個平面上取較重要之 Domain 方

塊來做合成，即是取係數 a j 較大之 Domain 方塊，Domain 方塊取越多則合成後

與 Range 方塊之相似度越高，但壓縮出來之檔案越大，也會造成比對效率降低，

為了兼顧精確性及效率，可限定每一個 kk × (Pixel2)Range 方塊分別對這三個平

面最多取出前幾個投影係數值較大之 Domain 方塊作為近似，以提高效率，本論

文是採前五個大之係數做近似。

以下圖為訓練 Lena 所得之 YUV 3 plane 之正交基底，分別以紅、藍、綠

三種顏色表示 Y、U、V 此 3 plane 之基底。

71

圖表 3-1 Y,U,V 之正交基底

3.1.1.2 求算特徵向量

有了影格的碎形正交基底投影向量，接下來要找出在多維度空間中足以代表影格

的特徵向量。

使用的方法為”平均值和變異係數” ，說明如下：

72

如下圖假設空間中有 6 個點

找出 6 個點的平均數,如下圖之紅點

利用平均數以及變異係數可以得到綠色點，使得該綠點最接近群聚的 5 個點。

用該點代表這 6 個點的特徵向量，如下圖所示：

3.1.2 資料分類

假設圖3.2為500張影像經過空間轉換步驟，所得到在二維特徵空間分佈圖。

73

圖表 3-2 影像在特徵空間上之分佈圖

以圖3.2而言，其原始資料有三個場景(shot)，場景變換方式為一個是溶解型態之

緩慢場景變化，一個是突然場景變化，如果以人來分，可以很容易分辨出場景變

化，但如何自動將資料分類，也是一大問題。本篇論文所採用之資料分類方法為

支援向量分類 (SVC)，在SVC中，資料被投影至更高維度空間，並在此空間中以

一球體來包住所有資料，以一個球體代表一個類別資料，以圖3.2為例，會產生

四個類別，其中三個類別為場景，一個類別為緩慢場景變化，也就是會有四個球

體，方法如下：

74

1. 設定初始類別：

由於影片具有時間特性，因此按照影片中影格順序當作輸入資料，並以前二

張影格投影在特徵空間上之點，當作是第一個群集，對此群集作SVC，計算出包

住此群集球體之半徑，這裡設參數C等於1，也就是不會有在球體外部之點

(BSV)，參數q在步驟2會說明。

2. 輸入下一組資料並判斷是否產生新群集：

同樣以影片中影格順序當作輸入資料，判斷新群集之依據為：當新資料點加

入目前群集後，觀察原本球體半徑變化情況，如圖3.3，

圖表 3-3 球體半徑變化圖，虛線範圍代表影片正確場景變化處

75

從圖3.3可以看出場景變化處都介於兩個平緩上升處之間，只要能偵測出曲線變

化，就能達到場景分割之目的。

但假設球體起始之半徑太大，代表涵蓋資料範圍較廣，即使輸入資料為發生

突然場景變化之處，半徑變化仍不劇烈。如圖3.4為一半徑變化圖，其原始影像

片段(如圖3.5)為一物體不斷旋轉，圖3.4(a)球體起始半徑在0.01左右，(b)球體起

始半徑在0.6左右，虛線範圍內即為真實影像片段中，場景突然發生變化之處。

從圖中可以看出由於球體半徑侷限於0到1之間，當半徑接近1時，其上升幅度會

非常緩慢，導致本應有劇烈變化之處無法顯現出來，因此起始半徑要設得夠小，

才能使有變化之處更明顯，而根據式(2.10)和(2.12)得知控制球體半徑R之參數為

q，所以本論文控制參數q，使得在步驟1中，球體起始半徑落於0.005~0.01之間。

(a)

76

(b)

圖表 3-4 (a)球體起始半徑約 0.01 (b)球體起始半徑約 0.6

圖表 3-5 帶有突然場景變化之影片片段

77

3. 分析曲線變化，產生新群集：

對於步驟2中，輸入資料所產生新球體之半徑和前一個球體半徑相減，也

就是作一階微分tR∂∂

，分成下列兩種情況討論：

(1) 劇烈場景變化：

如果一階微分值tRr∂∂

= 大於一偵測劇烈場景變化之門檻值 thresholdcut，則

產生新群集，然後再重複步驟1~3。

(2) 緩慢場景變化：

緩慢場景變化雖然半徑也會有所更動，但是並不像突然場景變化幅度那樣劇

烈，如圖3.6。

圖表 3-6 一階微分圖

78

從圖3.6可以看出有一處變化幅度僅次於突然場景變化，其他小幅度變化處可能

是雜訊或是影片中物體移動所導致，觀察圖3.6，緩慢變化過程主要特徵為介於

兩平緩處之間，且持續一段時間，因此本論文採用一滑動窗口(Sliding window)

分析，如圖3.7所示，計算滑動窗口前、後端平均值之差，如式(3.5)

frontback MeanMeaniDiff −=)( , where

,...

...

21

21

nrrr

Mean

nrrr

Mean

nsisisifront

ininiback

+−+−+−

+−+−

+++=

+++=

(式3.5)

其中s為滑動窗口長度，n為滑動窗口前後端長度。

圖表 3-7 滑動窗口

如果 )(iDiff 大於門檻值 thresholdgradual_begin，代表影片開始進入緩慢變化過程，

但後面之 )(iDiff 會因為滑動窗口開始進入緩慢變化過程，而呈現不規則之變化，

如圖3.8。

79

圖表 3-8 )(iDiff 之曲線圖

因此要判斷是否為緩慢場景變化過程結束之處， )(iDiff 必須為負值，且小於門檻

值thresholdgradual_end。最後，緩慢場景變化過程之開始與結束時間差，也就是持

續時間必須大於五個影格才能算是緩慢場景變化過程，否則就當作是雜訊不予理

會。另外由於影片中常常會有劇烈動作，雖然其幅度比不上突然場景變化，但依

照本論文提出之方法，其累積球體半徑會越來越大，但因沒有超過 thresholdcut，

並不會產生新球體，這時也會發生步驟2提到之半徑飽和現象，因此當一舊球體

半徑超過一定值時，不管是否產生場景變化，都必須產生一新群集重新計算。

由於影片中一個場景少則數十，多則上千張影格，而 SVC 在計算大量資料

時，時間複雜度會變得非常高，因此為了簡化 SVC 之運算複雜度，並不需要對

全部資料作 SVC，例如多個被分類為同一群之資料被一球體包住，當輸入一筆

80

新資料時，必須對這多組資料重作 SVC，但 SVC 有一個特點，就是支援向量

(Support vector)，球體外圍輪廓只需少數支援向量就可以構成，同一群資料雖然

在同一球體中，但大部份資料都是位於球體內，只有少數資料是支援向量，因此

輸入一筆新資料後，只需將新資料跟舊球體之支援向量重作 SVC，得到結果與

對全部資料作 SVC 之結果相同。

3.1.3 資料庫建立

影片資料庫所存放的資訊即是各個場景中找出來的關鍵影格。

以下為資料庫之部分影像：

81

由於影像因成像時環境之不同，因此亮度，色澤也會約略不同，故為了較不

受亮度之影響，將影像轉換成 YUV space，可提供使用者選擇亮度以及顏色之比

重，故在編碼前，首先將資料庫每張影像由 RGB space 轉換為 YUV space，轉

換公式如下：

Y = 0.299 x R + 0.587 x G + 0.114 x B

U = -0.169 x R - 0.3316 x G + 0.500 x B

V = 0.500 x R - 0.4186 x G - 0.0813 x B

下圖為 Y=0.5 UV 座標圖，

可看出由 RGB 座標與 YUV 不同。

圖表 3-9 YUV 座標圖,Y=0.5

82

下圖為 Lena 轉換為 YUV 之影像：

原始影像 Y 成分(亮度成分)

U(Cb) V(Cr)

圖表 3-10 Lena 標準影像 RGB 轉換為 YUV 之影像

83

3.2 影像搜尋

3.2.1 使用 MIL 找出共有特徵

以第二章第 3 節所提及之 MIL 中 Diverse Density 理論為基礎，以期找

出共同特徵。

使用者所輸入之影像無論為正相關影像: +++ nBBB ,...,, 21 ，n 張影像，或

為負相關影像: −−− mBBB ,...,, 21 ，m 張影像，均做編碼後，因影像分割為多個

kk × 大小之 Range Block，故想當然之每一個 Block 均被視為一個特徵點，

亦對應 MIL 理論所說的 instance， ijB 。

由於影像之編碼本論文是以區塊大小 88× 為單位。但使用者要找尋的

物體，一定是大於編碼之單位，所以以編碼 88× 為一特徵點的話，我們要找

出的共有特徵一定不只有單單一個特徵點。但 MIL 此理論只是找出一個最

為理想之特徵。故我們找出特徵點後，(concepts)，將正相關影像所有相似

於特徵點之其他 instance 圈選出來，可動態形成一區域。去除上述已找到特

徵點之所屬區域，再使用 MIL 找出另一個 concept，以及所屬之區域，依此

多次演練，找出多個共有之 concept 以及所屬之區域，其中每個 concept 之

區域 instance 個數，應佔於該正相關範例影像之合理比例，紀錄每個區域

之分佈程度(變異數)與重心位置，以供比對時比較，主要想法是認為因對於

使用者輸入之範例影像，其有興趣之部分包含多個 concepts 之區域，動態分

區後，各區域之分散程度與各區域之相對位置，可當作比對時一個參考，故

加入此資訊，包含分散程度與結構於比對方法中。

而本論文的目的在於搜尋影像中使用者有興趣的應只有部分區域，而不

84

是整張影像，舉例來說，影像中背景部分是否該併入擷取特徵，應端由使用

者所決定。故本論文做法是將

Documents

國立中山大學資訊工程學系 碩士論文image.cse.nsysu.edu.tw/2006student/%A5%C8/%A5%C8%AA%BA%BD%D7%A4%… · 人畢業學校圖書館，為學術研究之目的以各種方法重製，或為上述目的再

國立中山大學資訊工程學系碩士論文image.cse.nsysu.edu.tw/2006student/%A5%C8/%A5%C8%AA%BA%BD%D7%A4%… · 人畢業學校圖書館，為學術研究之目的以各種方法重製，或為上述目的再