30
MT PHƯƠNG PHÁP TIN HÓA TRONG VIC TO HCHA TP CÁC BPHÂN LOI PHM ĐÌNH DUY PHƯƠNG [email protected]

Mot phuong phap tien hoa trong viec tao ho chua tap cac bo phan loai

Embed Size (px)

Citation preview

Page 1: Mot phuong phap tien hoa trong viec tao ho chua tap cac bo phan loai

MỘT PHƯƠNG PHÁP TIẾN HÓA TRONG VIỆC TẠO HỒCHỨA TẬP CÁC BỘ PHÂN LOẠI

PHẠM ĐÌNH DUY PHƯƠNG

[email protected]

Page 2: Mot phuong phap tien hoa trong viec tao ho chua tap cac bo phan loai

Slide 2

Nội dung trình bày

• Hướng tiếp cận truyền thống trong nhận dạng mẫu

• Hướng tiếp cận kết hợp các bộ phân loại– Các mô hình hệ thống kết hợp các bộ phân loại

– Mẫu kết hợp các bộ phân loại

• Vấn đề

– Giải pháp 1: Lựa chọn bộ phân loại động

– Giải pháp 2: Lựa chọn bộ phân loại động “mở rộng”

• GA/BGA

• Luật kết hợp

Page 3: Mot phuong phap tien hoa trong viec tao ho chua tap cac bo phan loai

Slide 3

Hướng tiếp cận truyền thống

Kết luận

Giá trị đặc trưng(mô tả đối tượng)

Bộ phân loại

Thiết kế bộ

phân loại tốt

Chọn tập

đặc trưng

phù hợp

Page 4: Mot phuong phap tien hoa trong viec tao ho chua tap cac bo phan loai

Slide 4

Hướng tiếp cận kết hợp các bộ phân loại

Bộ phân loại

Giá trị đặc trưng(Mô tả đối tượng)

Bộ phân loại Bộ phân loại

Kết quả

Kết hợp

Page 5: Mot phuong phap tien hoa trong viec tao ho chua tap cac bo phan loai

Slide 5

Hệ thống kết hợp bộ phân loại - Mô hình 1

Kết luận

Bộ phân loạiBộ phân loại Bộ phân loại

Kết hợp

Lựa chọn mô

hình kết hợp

Page 6: Mot phuong phap tien hoa trong viec tao ho chua tap cac bo phan loai

Slide 6

Hệ thống kết hợp bộ phân loại - Mô hình 2

Kết luận

Bộ phân loạiBộ phân loại Bộ phân loại

Kết hợp

Sử dụng các

mô hình bộ

phân loại khác

nhau

Page 7: Mot phuong phap tien hoa trong viec tao ho chua tap cac bo phan loai

Slide 7

Hệ thống kết hợp bộ phân loại - Mô hình 3

Kết luận

Bộ phân loạiBộ phân loại Bộ phân loại

Kết hợp

Xây dựng các bộ

phân loại dựa trên

các tập con đặc

trưng khác nhau

Hữu dụng khi số lượng đặctrưng rất lớn, hoặc các đặctrưng này xuất phát từ cácnguồn khác nhau.

Page 8: Mot phuong phap tien hoa trong viec tao ho chua tap cac bo phan loai

Slide 8

Hệ thống kết hợp bộ phân loại - Mô hình 4

• Thay đổi tập “đào tạo”, cho phép hình thành tập các bộ

phân loại “đa dạng”.

• Nhiều chuyên gia đánh giá đây là hướng tiếp cận mạnhmẽ nhất trong 4 hướng tiếp cận.

• Hai hệ thống thực tế được đánh giá cao sử dụng mô hìnhnày: AdaBoost (Adaptive Boosting), Bagging (Bootstrap Aggreagating)

Page 9: Mot phuong phap tien hoa trong viec tao ho chua tap cac bo phan loai

Slide 9

Mẫu kết hợp các bộ phân loại

Có 2 kiểu kết hợp các bộ phân loại chính:

Classifier Selection (Modular approach)Mỗi bộ phân loại là một “chuyên gia” trong một số phạm vi

không gian đặc trưng.

Chỉ cần chọn duy nhất một “chuyên gia” để đưa ra quyết định.

Classifier Fusion (Ensemble approach) Tất cả các bộ phân loại đều được “đào tạo” trên toàn bộ không

gian đặc trưng.

Mang tính chất “cạnh tranh” hơn là “bổ trợ”

Page 10: Mot phuong phap tien hoa trong viec tao ho chua tap cac bo phan loai

Slide 10

Vấn đề

Trong quá trình phát triển một phương pháp kết hợp, vấnđề được đặt ra Chọn tất cả các bộ phân loại có sẵn vào hồ chứa kết hợp, hay

Chỉ chọn ra một tập con phù hợp.

Lựa chọn thứ nhất đang chiếm ưu thế. Tuy nhiên, không có gì đảm bảo lựa chọn này cho hiệu quả tốt

nhất.

Page 11: Mot phuong phap tien hoa trong viec tao ho chua tap cac bo phan loai

Slide 11

Lựa chọn bộ phân loại động

Tập các bộ

phân loại

Kết quảBộ phân

loại “tốt

nhất”Mẫu

Lựa chọn động

Page 12: Mot phuong phap tien hoa trong viec tao ho chua tap cac bo phan loai

Slide 12

Lựa chọn bộ phân loại động

• Ưu điểm:– Đơn giản hóa quá trình lựa chọn bộ phân loại.

• Hạn chế:– Toàn bộ mô hình sẽ phức tạp hơn.

– Không đảm bảo được tính tối ưu.

Thay vì chỉ chọn ra một bộ

phân loại, chúng ta sẽ chọnđộng một hồ chứa gồm nhiềubộ phân loại

Page 13: Mot phuong phap tien hoa trong viec tao ho chua tap cac bo phan loai

Slide 13

Lựa chọn bộ phân loại động “mở rộng”

Luật kết

hợpKết

quả

Các bộ

phân loại

có sẵn

Hồ chứa tập

các bộ phân

loại

Mẫu

Lựa chọn động

Page 14: Mot phuong phap tien hoa trong viec tao ho chua tap cac bo phan loai

Slide 14

Độ tin cậy

Bộ phân loại

Ei

Lớp Cij Độ tin

cậy Rij

Mẫu Sj

Lớp Cij là lớp Ei

gán cho mẫu cầnphân loại

Độ tin cậy Rij củaviệc phân loại

Điều kiện để bộ phân loại Ei được

chọn?

Page 15: Mot phuong phap tien hoa trong viec tao ho chua tap cac bo phan loai

Slide 15

Ngưỡng

ϴ1NC…ϴ11CNC……C1E1

…………

…………

ϴNENC..ϴNE1ENE

Ngưỡng

Số lượng ngưỡng này sẽ dựatrên số lượng các bộ phânloại NE cũng như số lượnglớp mẫu NC

Ứng với mỗi bộ phân loại và mỗi lớp mẫu, giá trị của tập ngưỡng này được hiểunhư là giá trị nhỏ nhất của độ tin cậy của bộ phân loại được chọn vào hồ

chứa.Các ngưỡng trong mô hình nhằm mục đích với mỗi mẫu, chọn ra được một tậpnhững bộ phân loại tốt nhất, và do đó tỉ lệ nhận dạng trên toàn bộ tập dữ liệu làlớn nhất.

Page 16: Mot phuong phap tien hoa trong viec tao ho chua tap cac bo phan loai

Slide 16

Ngưỡng

• Từ vấn đề chọn động hồ chứa các bộ phân loại, ta đưa về

bài toán tìm một tập giá trị các ngưỡng

Thỏa điều kiện với mọi ϴil , việc loại bộ phân loại Ei rakhỏi hồ chứa khi Cij = Cl và Rij < ϴil hiệu quả của hệ thốngtrên toàn bộ tập dữ liệu sẽ tốt hơn so với khi chưa loại Ei

ra khỏi hồ chứa.

Giải bài toán này như thế nào?

Thuật giải di truyền nhân giống -

BGA

Page 17: Mot phuong phap tien hoa trong viec tao ho chua tap cac bo phan loai

Slide 17

Genetic Algorithm - GA

• GA là kỹ thuật chung giúp giải quyết vấn đề - bài toánbằng cách mô phỏng sự tiến hóa của con người hay củasinh vật nói chung trong điều kiện quy định sẵn của môitrường.

• Các GA vận hành trên một quần thể, mỗi cá thể là giảipháp tiềm tàng, áp dụng nguyên lý “kẻ mạnh nhất là kẻsống sót” để sinh ra những xấp xỉ tốt hơn cho giải pháp.

Page 18: Mot phuong phap tien hoa trong viec tao ho chua tap cac bo phan loai

Slide 18

Genetic Algorithm - GA

• Các thông số của bài toán sẽ được chuyển đổi và biểu diễndưới dạng các chuỗi nhị phân.

• Ví dụ, một bài toán với hai biến, x1 và x2 có thể ánh xạ vàocấu trúc chromosome theo cách sau

Page 19: Mot phuong phap tien hoa trong viec tao ho chua tap cac bo phan loai

Slide 19

Genetic Algorithm - GA

Phát sinh

quần thể

ban đầu

Xác định

độ thích

nghi của

các cá thể

Có cá thể

nào đạt đến

lời giải tối

ưu chưa?

Chọn lọc Lai tạo

Xây dựng quần thể mới

Đột biến

Lời giải

Page 20: Mot phuong phap tien hoa trong viec tao ho chua tap cac bo phan loai

Slide 20

Genetic Algorithm - GA

• Giá trị độ thích nghi này có thể đơn giản hiểu là độ “tốt” của lời giải

• Để cải thiện tính thích nghi của quần thể, người ta tìmcách tạo ra quần thể mới. Có hai thao tác thực hiện trênthế hệ hiện tại để tạo ra một thế hệ mới với độ thích nghitốt hơn.– Chọn lọc nguyên mẫu một nhóm các cá thể tốt từ thế hệ trước rồi

đưa sang thế hệ sau.

– Tạo các cá thể mới bằng cách thực hiện các thao tác sinh sảntrên một số cá thể được chọn từ thế hệ trước. Có hai loại thao tácsinh sản:

• Lai tạo (crossover, recombination)

• Đột biến (mutation)

Page 21: Mot phuong phap tien hoa trong viec tao ho chua tap cac bo phan loai

Slide 21

Breeder Genetic Algorithm - BGA

• BGA lần đầu tiên được giới thiệu bởi Muhleiibein vàSchlierkamp-Voosen vào năm 1993

• BGA là một thuật giải di truyền dựa trên việc chọn lọcnhân tạo tương tự như những gì con người thực hiệnviệc nhân giống.

• BGA biểu diễn những giải pháp dưới dạng vector các giátrị thực, cho phép biểu diễn gần với thực tế hơn những GA thông thường (sử dụng vector các giá trị nguyên hoặc nhị

phân)

Page 22: Mot phuong phap tien hoa trong viec tao ho chua tap cac bo phan loai

Slide 22

Breeder Genetic Algorithm - BGA

• Dựa trên thuật ngữ sinh học, mô hình GA truyền thốngmô hình sự chọn lọc tự nhiên, trong khi BGA mô hìnhsự chọn lọc nhân tạo.

• BGA sử dụng mô hình chọn lọc xén– T% (được gọi là tỉ lệ xén) những cá thể tốt nhất được chọn lựa và

được “gây giống” một cách ngẫu nhiên cho đến khi số lượng con cháu đạt đến kích thước của quần thể. Thế hệ con cháu sẽ thay thế

thế hệ bố mẹ.

Page 23: Mot phuong phap tien hoa trong viec tao ho chua tap cac bo phan loai

Slide 23

Thuật toán BGA

Phát sinh ngẫu nhiên một quần thể ban đầu gồm N cá thể

while (chưa kết thúc được) do for i from 1 to N do

Đánh giá độ thích nghi của mỗi cá thể

end for

//Đảm bảo thế hệ mới lúc nào cũng chứa cá thể tốt nhất của thế hệ trướcLưu cá thể tốt nhất vào thế hệ mới

Chọn T% cá thể tốt nhấtfor i from 1 to N/2 do

Chọn ngẫu nhiên 2 cá thể trong số T% cá thể

Lai ghép 2 cá thể này để sinh ra 2 cá thể conThực hiện đột biến trên 2 cá thể con này

End forCập nhật các biến cho việc kết thúc

End while

Page 24: Mot phuong phap tien hoa trong viec tao ho chua tap cac bo phan loai

Slide 24

Mô hình bài toán với BGA

ϴ1NC…ϴ11CNC……C1E1

…………

…………

ϴNENC..ϴNE1ENE

Mã hóa Mã hóa

gen genNhiễm sắc thể

Mỗi gen trong nhiễm sắc thể của một cá thể trong quần thể tương ứng vớigiá trị mã hóa của một ngưỡng, tương ứng với một bộ phân loại và mộtlớp mẫu

Page 25: Mot phuong phap tien hoa trong viec tao ho chua tap cac bo phan loai

Slide 25

Mô hình bài toán với BGA

• Môi trường BGA tương tác trong suốt quá trình tiến hóa chứasố lượng mẫu thử bằng đúng với số lượng mẫu “đào tạo”.

• Mỗi mẫu thử này (tương ứng với một bộ phân loại) chứa độ tin cậy của việc phân loại và lớp mẫu mà bộ phân loại tương ứnggán cho mẫu.

• Các mẫu thử này dùng để đánh giá độ tốt của một cá thể – hàmmục tiêu. Để từ giá trị hàm mục tiêu, ta có thể đi đến xác địnhđộ thích nghi của cá thể.

• Độ thích nghi của nhiễm sắc thể thứ i trong quần thể được tínhbởi công thức:

nc là số mẫu “đào tạo” phân loại đúng, nt là tổng số mẫu “đàotạo”.

Page 26: Mot phuong phap tien hoa trong viec tao ho chua tap cac bo phan loai

Slide 26

Majority Vote

Gán mẫu s cho lớp k nếu

Với

Ý nghĩa: gán mẫu s cho lớp k nếu số lượng chuyên giagán mẫu s cho lớp k là nhiều nhất.

Page 27: Mot phuong phap tien hoa trong viec tao ho chua tap cac bo phan loai

Slide 27

Majority Vote

Xét ví dụ đơn giản NE = 3, NC = 2

Kiểm tra việc gán mẫu S1 cho lớp C1

• VT = δ11 + δ21 + δ31 = 1 + 1 + 0 = 2

• VP = max { δ11 + δ21 + δ31 , δ12 + δ22 + δ32 } = max { 1 + 1 + 0, 0 + 0 + 1} = 2

Vậy VT = VP. Kết luận: gán mẫu S1

cho lớp C1

S1

E1

E2

E3

Page 28: Mot phuong phap tien hoa trong viec tao ho chua tap cac bo phan loai

Slide 28

Weighted Majority Vote

Gán mẫu s cho lớp k nếu

Trong đó, ωij là trọng số liên quan đến chuyên gia thứ itrong việc gán mẫu cho lớp j.– ωij = 0 nếu Ei gán mẫu cho lớp Cj’, j’ ≠ j

– Ngược lại, ωij thể hiện độ tin cậy RDRij của việc Ei gán mẫu cho lớpCj

• Nhận xét:– RDRij = 0 nếu Rj = ϴij

– RDRij = 1 nếu Rj = 1

Page 29: Mot phuong phap tien hoa trong viec tao ho chua tap cac bo phan loai

Slide 29

Weighted Majority Vote

• Giả sử ϴ11 = 0.5, ϴ21 = 0.6, ϴ31 = 0.6,ϴ12 = 0.5, ϴ22 = 0.4, ϴ32 = 0.5

• Xét k = 1 (lớp C1),–ω11 = 0.4, ω21 = 0.25, ω31 = 0

VT = 0.4 + 0.25 = 0.65

–VP = max { ω11 + ω21 + ω31, ω12 + ω22 + ω32} = max {0.65, 0 + 0 + 0} = 0.65

–Vậy VT = VP

S1

E1, R11=0.7

E2, R21=0.7

E3, R32=0.2

Page 30: Mot phuong phap tien hoa trong viec tao ho chua tap cac bo phan loai

Slide 30

Đánh giá thực nghiệm

• Đánh giá thực nghiệm do nhóm tác giả thực hiện trênhướng tiếp cận này cho thấy:– Đạt kết quả tốt hơn so với việc kết hợp tất cả các bộ phân loại có

sẵn.

– Đạt hiệu quả trong việc cân bằng giữa độ phức tạp của hệ thống đabộ phân loại với tính không nhất quán trong các quyết định củahệ thống.