Giới thiệu Pattern Recognition V0.1

Vắn tắt về Nhận dạng và Phân loại

Võ Đình [email protected]ộ môn Khoa học máy tínhĐại học Khoa học tự nhiên

227 Nguyễn Văn Cừ, Quận 5, Tp.Hồ Chí Minh

Phiên bản 0.1

1

Một số thuật ngữ

Classification Phân loại

Recognition Nhận dạng

Mixture Hỗn tạp

Detection Dò tìm

Supervised Có giám sát

Unsupervised Không giám sát

Clustering Gom cụm

SupportVectorMachine Máy phân lớp vector hỗ trợ

NearestNeighor Láng giềng gần nhất

2

Mục lục

1 Dò tìm và Phân loại 41.1 Phân loại Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41.2 Dò tìm: Có/Không . . . . . . . . . . . . . . . . . . . . . . . . . . 6

2 Học có giám sát 92.1 Tập huấn luyện . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102.2 Học có tham số . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102.3 Học không tham số . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2.3.1 Phân lớp láng giềng gần nhất . . . . . . . . . . . . . . . . 102.3.2 Biệt phân tuyến tính Fisher . . . . . . . . . . . . . . . . . 112.3.3 Phân lớp với hàm tuyến tính . . . . . . . . . . . . . . . . 142.3.4 Máy phân lớp dùng vector hỗ trợ . . . . . . . . . . . . . . 172.3.5 Mạng neuron truyền thẳng . . . . . . . . . . . . . . . . . 23

3 Học không giám sát 233.1 Tinh giản đặc trưng . . . . . . . . . . . . . . . . . . . . . . . . . 23

3.1.1 PCA - Phân tích thành phần chính . . . . . . . . . . . . . 233.2 Gom cụm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

3.2.1 Thuật toán K-means . . . . . . . . . . . . . . . . . . . . . 253.2.2 Hỗn tạp Gauss . . . . . . . . . . . . . . . . . . . . . . . . 25

3

Hình 1: Tổng quát của một hệ thống phân loại

1 Dò tìm và Phân loại

Phân loại mẫu là động tác gán nhãn cho đối tượng cần được phân loại. Đốitượng ở đây có thể là dạng vật chất, một khái niệm, một sự kiện, hoặc một chutrình. Phép gán nhãn phải luôn luôn dựa vào các kết quả đo tiến hành trên đốitượng.

[hình][bảng]Ta giả sử rằng số lượng các số liệu có được từ những phép đo là cố định. Do

đó, người ta sắp các số liệu thành một bộ, dưới dạng một vector dòng hoặc cột.Vector này hiển nhiên có chiều bằng với số lượng phép đo. Hợp tất cả các giátrị có thể trong vector đo tạo thành không gian đo. Thông thường, khái niệm“phép đo” và “đặc trưng” là một.

Trong điều kiện lý tưởng, các thuộc tính được chọn để đo phải có khả năngtách biệt giữa các đối tượng khác loại càng nhiều càng tốt, sao cho trong khônggian đo, mỗi một cụm các đối tượng của cùng một lớp sẽ tách biệt hoàn toànvới các đối tượng của các lớp khác.

1.1 Phân loại Bayes

Giả sử có một thí nghiệm ngẫu nhiên, được định nghĩa bởi một tập Ω =(ω1, ω2, . . . , ωK) gồm K lớp đôi một khác nhau. Xác suất P (ωk) có lớp ωk

gọi là xác suất tiên nghiệm1. Nó biểu diễn tri thức mà chúng ta có về một lớptrước khi có được các thông tin đo đạc. Ta có ràng buộc

K∑k=1

P (ωk) = 1 (1)

Hệ thống cảm biến trả về một vector đo z có số chiều N . Tất cả các phép đođều bị ảnh hưởng ít nhiều bởi nhiễu trong hệ thống cảm biến (hoặc thu nhận

1prior probability

4

dữ liệu), ví dụ: nhiễu do nhiệt, nhiễu lượng tử, nhiễu lượng hóa. Các yếu tố nàylà hoàn toàn không đoán trước, do đó có tính ngẫu nhiên. Các yếu tố này đượcbiểu diễn bằng hàm mật độ xác suất của z.

Hàm mật độ xác suất có điều kiện của vector đo z được ký hiệu là p (z | ωk),là mật độ của z trên các phép đo lớp ωk. Nếu z không được biết trước lớp cụthể, ta có

p (z) =

K∑k=1

p (z | ωk)P (ωk) (2)

Hàm quyết định ω (·) sẽ ánh xạ không gian đo vào tập các lớp, viết lại ánhxạ như sau

ω (·) : RN → Ω

Bộ phân lớp Bayes là một bộ phân lớp mẫu dựa trên hai điều kiện tiên quyết:

• Thiệt hại, hay mất mát, khi đối tượng bị phân lớp nhầm, có thể được địnhlượng như một loại phí tổn.

• Kỳ vọng của phí tổn có thể coi như một tiêu chí để tối ưu.

Một phép gán nhầm một lớp cho một đối tượng sẽ gây thiệt hại nào đó (hoặcmất mát, phí tổn), được định lượng bằng một hàm phí tổn2 C (ω | ωk). Nói cáchkhác, ánh xạ C (· | ·) : Ω× Ω → R biểu diễn phí tổn xảy ra khi một đối tượngđược liệt vào lớp ω trong khi phân lớp đúng của nó là ωk. Ta có thể biểu diễntất cả các phí tổn bằng một ma trận kích thước K ×K. Phí tổn âm được hiểulà lợi ích (tức là trong trường hợp phân lớp đúng).

Theo định lý Bayes cho xác suất có điều kiện, xác suất hậu nghiệm3 là xácsuất P (ωk | z)một đối tượng thuộc về một lớp cụ thể ωk, cho trước vector đo z

P (ωk | z) =p (z | ωk)P (ωk)

p (z)(3)

Ta có kỳ vọng của phí tổn được tính

R (ωi | z) = E [C (ωi | ωk) | z] =

K∑k=1

C (ωi | ωk)P (ωk | z) (4)

Đại lượng này biểu diễn phí tổn4 kỳ vọng của phép gán lớp ωi cho đối tượng cókết quả đo z. Đây được gọi là rủi ro5 có điều kiện R (ωi (z) | z) với hàm quyếtđịnh ωi (z) dựa trên điều kiện z. Suy ra tổng rủi ro phải hứng chịu trong toànkhông gian đo là

R = E [R (ωi (z) | z)] =

ˆz

R (ωi (z) | z) p (z) dz (5)

2cost function hoặc loss function3posterior probability4cost5risk

5

Tiêu chí thứ hai trong bộ phân lớp Bayes nói rằng một bộ phân lớp tối ưusẽ có tổng phí tổn R nhỏ nhất. Do đó, phân lớp Bayes sẽ có dạng:

ωBAY ES (z) = ωi sao cho R (ωi | z) ≤ R (ωj | z) i, j = 1 . . . ,K

hay viết ngắn gọn dưới dạng:

ωBAY ES (z) = argminω∈Ω

R (ω | z) (6)

Thay các biểu thức (3) và (4) ta được công thức cuối cùng

ωBAY ES (z) = argminω∈Ω

K∑

k=1

C (ω | ωk)P (ωk | z)

= argmin

ω∈Ω

K∑

k=1

C (ω | ωk) p(z|ωk)P (ωk)p(z)

= argmin

ω∈Ω

K∑

k=1

C (ω | ωk) p (z | ωk)P (ωk)

(7)

Hàm phí tổn đồng đều

Nếu một đối tượng bị phân lớp nhầm sẽ tốn một đơn vị phí tổn, và không tốnđơn vị nào nếu được phân lớp đúng, ta có khái niệm hàm phí tổn đồng đều6

C (ωi | ωk) = 1− δ (i, k) với δ (i, k) =

1 nếu i = k

0 ngược lại(8)

Với hàm phí tổn trên, rủi ro có điều kiện ở (4) được đơn giản còn

R (ωi | z) =

K∑k=1,k 6=i

P (ωk | z) = 1− P (ωi | z) (9)

Cực tiểu rủi ro tương đương với cực đại xác suất hậu nghiệm P (ωi | z). Do đó,với hàm phí tổn đồng đều, hàm quyết định Bayes trở thành bộ phân lớp cực đạixác suất hậu nghiệm (MAP)

ωMAP (z) = argmaxω∈Ω

P (ω | z) = argmaxω∈Ω

p (z | ω)P (ω) (10)

1.2 Dò tìm: Có/Không

Dò tìm là một trường hợp cụ thể của bài toán phân lớp, trong đó số lớp K = 2.Dựa theo (10), ta có phép thử sau:

p (z | ω1)P (ω1) > p (z | ω2)P (ω2) (11)

6uniform cost function

6

Bảng 1: Phân loại lỗiω = ω1 ω = ω2

ω (z) = ω1 Quyết định đúng I Lỗi loại IIω (z) = ω2 Lỗi loại I Quyết định đúng II

Bảng 2: Phân loại lỗiDữ kiện thực tế

Tiên đoán ω = ω1 ω = ω2

(vắng mặt) (có mặt)ω (z) = ω1 true negative missed event/false negative(negative) loại đúng bắt sótω (z) = ω2 false alarm/false positive detection/hit/true positive(positive) bắt nhầm bắt đúng

Nếu phép thử sai, ta chọn ω2, ngược lại là ω1

p (z | ω1)P (ω1)ω1

≷ω2

p (z | ω2)P (ω2) (12)

Gọi mật độ xác suất có điều kiện p (z | ωk) là hàm likelihood theo biến ωk, tacó tỉ số likelihood được định nghĩa bằng công thức:

L (z) =p (z | ω1)

p (z | ω2)(13)

Vấn đề phân loại trở thành phép thử tỉ số likelihood

L (z)ω1

≷ω2

P (ω2)

P (ω1)(14)

trong đó tỉ số P (ω2)P (ω1) có thể xem như ngưỡng quyết định.

Trong một hệ thống dò tìm, hai loại lỗi được quan tâm. Giả sử ωi là quyếtđịnh trả về của hệ thống với vector đo đầu vào là z. Lớp thực sự mà đối tượngthuộc về có thể là ω1 hoặc ω2 (vẫn còn là ẩn số). Bốn trường hợp có thể xảy ra:

Một bộ dò tìm sẽ quyết định một đối tượng có xuất hiện ω = ω2 hay khôngω = ω1, tương tự, một sự kiện có xảy ra hay không. Để dễ nhớ, ta hay dùng cácthuật ngữ sau

Hai loại lỗi bắt nhầm và bắt sót được dùng để đánh giá hiệu quả dò tìm.Định lượng chúng dưới dạng xác suất có điệu kiện:

Pmissdef= P (ω1 | ω2)

Pfadef= P (ω2 | ω1)

Pdetdef= P (ω2 | ω2)

(15)

7

Rõ ràng các xác suất này phụ thuộc vào ngưỡng quyết định, và dựa trên (14),ta suy ra:

Pfa (T ) = P (L(z) < T | ω1) =T

−∞p (L (z) | ω1) dL

Pmiss (T ) = P (L(z) < T | ω2) =+∞

T

p (L (z) | ω2) dL

Pdet (T ) = 1− Pmiss (T )

(16)

Đến đây ta khó có thể phân tích thêm vì không biết dạng hàm của L (z).Để đơn giản, nếu giả định rằng biến ngẫu nhiên z có phân phối chuẩn trong tựnhiên (phân phối Gauss), quay lại (14), ta có:

Λ (z)ω1

≷ω2

T với Λ (z) = lnL (z) và T = ln(P (ω2)

P (ω1)

)(17)

Đại lượng ln L (z) bằng thương của hai hàm Gauss, sau khi lược giản (đọc giảtự khai triển) trở thành:

Λ (z) = −1

2

(ln |C1| − ln |C2|+ (z − µ1)

TC−1

1 (z − µ1)− (z − µ2)TC−1

2 (z − µ2))

(18)Nếu tăng ràng buộc cho bài toán, giả sử tiếp rằng C1 = C2 = C, (18) trở thành:

Λ (z) =

(z − 1

2(µ1 + µ2)

)T

C−1 (µ1 − µ2) (19)

Vì z có phân phối chuẩn, và Λ (z) tuyến tính theo z, Λ (z) cũng có phân phốichuẩn với kỳ vọng và phương sai:

E [Λ (z) | ω1] =(E[z | ω1]- 1

2 (µ1 + µ2))TC−1 (µ1 − µ2)

=(µ1 − 1

2 (µ1 + µ2))TC−1 (µ1 − µ2)

= 12 (µ1+µ2)

TC−1 (µ1 − µ2)

(20)

E [Λ (z) | ω1] = −1

2(µ1-µ2)

TC−1 (µ1 + µ2) (21)

Var [Λ (z | ω2)] = Var [Λ (z | ω2)] = (µ1 − µ2)TC−1 (µ1 − µ2) (22)

Độ đo SNR7:

SNR =(E [Λ | ω2]− E [Λ | ω1])

2

Var [Λ | ω2]= (µ1-µ2)

TC−1 (µ1 − µ2) (23)

Đại lượng (µ1-µ2)TC−1 (µ1 − µ2) là bình phương khoảng cách Mahalanobis

giữa µ1 và µ2. Khoảng ddef=√SNR có thể đánh giá độ tốt trong khả năng phân

biệt lớp đúng sai của bộ dò tìm. Theo Hình 2, ta dễ thấy khi d tăng thì miềndiện tích của Pfa và Pmiss giảm.

Hình (3) cho thấy sự biến đổi của Pmiss, Pfa, Pdet khi ngưỡng T thay đổi.Nhất thiết phải có sự đánh đổi giữa Pfa và Pmiss. Đường cong ROC8 có thể

7signal-to-noise8receiver operating curve

8

Hình 2: Mật độ xác suất có điều kiện trong trường hợp phân phối Gauss

Hình 3: Hiệu suất bộ dò tìm trong trường hợp phân phối Gauss

minh họa mối tương quan giữa Pfa và Pdet khi ngưỡng T thay đổi. Ta có trườnghợp lý tưởng nếu Pfa = 0 và Pdet = 1. Trong trường hợp đơn giản ở trên, ROCcó được thông qua công thức và các giả sử nghiêm ngặt. Trong thực tế, ta vẽROC dựa trên kết quả thí nghiệm.

2 Học có giám sát

Khi việc phân loại dựa trên một mô hình toán học cụ thể, nó đòi hỏi hai đạilượng mật độ xác suất có điều kiện và xác suất tiên nghiệm phải có thể đượcbiểu diễn tường minh ở dạng mô hình toán học. Nhưng trong thực tế, việc môphỏng dựa trên những mô hình đấy quá phức tạp để có thể thực hiện. Lúc này,hướng tiếp cận học trên ví dụ9 sẽ tỏ ra hiệu quả hơn. Hướng tiếp cận này đòi

9learning from examples

9

hỏi tồn tại một quần thể các đối tượng cần phân loại, để từ đó chúng sẽ đượclấy mẫu (chỉ lựa chọn một phần trong toàn quần thể). Các đặc trưng đo lấytừ những mẫu này sẽ là tiêu chuẩn để tổng quát hóa, thông qua giai đoạn học(hay còn gọi là huấn luyện), thành một bộ phân lớp.

Nếu mỗi mẫu học được biết trước lớp thực sự mà nó thuộc về, quá trình họccó thể được “giám sát”, hay gọi vắn tắt là học có giám sát10, ngược lại cho kháiniệm học không giám sát11.

2.1 Tập huấn luyện

Một tập các mẫu được lựa chọn cho quá trình học thông thường được gọi làtập huấn luyện (hay còn gọi là tập học)12. Chúng ta giả định một cách lý tưởngrằng sự phân bố các mẫu học là đồng nhất và độc lập lẫn nhau. Nói cách khác,mỗi mẫu được lựa chọn không được phép phụ thuộc vào những lựa chọn trướcđó.

Ký hiệu số lượng mẫu trong tập học là NS , với các mẫu được đánh sốn = 1, . . . , NS . Mẫu n có vector đo zn. Phân lớp thực sự mà mẫu zn thuộc vềlà θn ∈ Ω. Như vậy tập học sẽ gồm NS bộ mẫu (zn, θn):

TS = (zn, θn) với n = 1, . . . , NS (24)

2.2 Học có tham số

Quá trình học sẽ quy về việc tìm kiếm bộ tham số phù hợp cho mô hình phânphối được giả định trên dữ liệu đầu vào.

[còn tiếp]

2.3 Học không tham số

Đây là các phương pháp học mà dạng thức của phân phối xác suất có điều kiệnkhông đuợc biết, hoặc không được sử dụng tường minh. Thoạt đầu, có vẻ đâylà phương pháp không cần tìm hoặc điều chỉnh một tham số nào cả. Tuy nhiên,hầu hết các phương pháp học không tham số lại yêu cầu nhiều tham số hơn cả.Khác biệt ở chỗ chúng không phải là các tham số của phân phối có điều kiện.

Có khá ít tri thức trên dữ liệu cần xử lý, các phương pháp học không thamsố có vẻ khó hơn các phương pháp học có tham số. Nhưng bù lại, tính tổng quátcủa chúng khá cao. Nhưng để đạt được mức độ tổng quát ấy, lượng mẫu trongtập học phải đủ lớn để có thể phác họa đúng mật độ phân phối ẩn bên dưới dữliệu.

2.3.1 Phân lớp láng giềng gần nhất

[]

10supervised learning11unsupervised learning12training set

10

Hình 4:

2.3.2 Biệt phân tuyến tính Fisher

Thường được biết đến với tên gọi Linear Discriminant Analysis hay Fisher’sLinear Discriminant, mà ta quy ước gọi là “biệt phân Fisher” hay “biệt phântuyến tính Fisher”. Ý tưởng của biệt phân Fisher là giảm chiều dữ liệu để cóthể phân biệt giữa các lớp với nhau bằng một phân lớp tuyến tính. Trên bìnhdiện này, nó khá tương đồng với phương pháp giảm chiều nói chung, cụ thể làkỹ thuật phân tích thành phần chính PCA. Tuy nhiên, PCA là phương phápgiảm chiều không giám sát, trong khi biệt phân Fisher là phương pháp có giámsát.

Giả sử ta có một vector điểm mẫu x với D chiều, chiếu xuống không gianmột chiều bằng phương trình

y = wTx (25)

Nếu chọn được một giá trị ngưỡng trong miền giá trị của y sao cho x thuộc vềC1 nếu y ≥ ω0, và x thuộc về C2 trong trường hợp còn lại, ta có bộ phân lớptuyến tính. Trong đa số các trường hợp, phép giảm chiều như trên không bảotoàn thông tin. Trong không gian D chiều, hai phân bố có thể khá tách biệtnhau, tuy nhiên khi được chiếu xuống không gian một chiều thì một số hoặc cóthể toàn bộ hai phân bố phủ chồng lên nhau.

Xét trường hợp cần phân biệt hai phân bố thuộc về hai lớp khác nhau. Cáchđơn giản nhất để phân biệt hai phân bố này trên không gian một chiều là tìmkhoảng cách giữa hai trung bình điểm của hai phân bố đó:

m2 −m1 = wT (m2 −m1) (26)

trong đómk = wTmk (27)

là trung bình điểm của phân bố của lớp Ck sau khi chiếu. Dùng tối ưu Lagrangengười ta nhận thấy vector trực giao với mặt phẳng chiếu w ∝ (m2 −m1).

Quan sát Hình 2.3.2 bên trái ta thấy tính biệt phân không cao với kết quảchiếu hai phân bố lên đường thằng nối trung bình điểm của hai phân bố đó: có

11

một phần hai phân bố phủ chồng lên nhau. Điều này xảy ra khi ma trận hiệpphương sai của mỗi phân bố không phải là ma trận chéo (các điểm mẫu độc lậplẫn nhau - i.i.d13). Ý tưởng của biệt phân Fisher là cực đại một hàm nào đó,sao cho nó cực đại hóa khoảng cách giữa các trung bình điểm sau chiếu, đồngthời cực tiểu hóa sự phân tán bên trong mỗi lớp, do đó cực tiểu hóa được mứcđộ phủ chồng giữa các lớp.

Công thức 25 chiếu các điểm mẫu được gán nhãn trong không gian D chiềuthành các điểm mẫu được gán nhãn trong không gian một chiều. Do đó, mứcphân tán nội lớp của lớp Ck là

s2k =

∑n∈Ck

(yn −mk)2 (28)

với yn = wTx. Tổng mức phân tán nội lớp14 trên toàn tập dữ liệu (trường hợp2 lớp) sẽ là s2

1 + s22. Tiêu chuẩn Fisher phát biểu ở trên được biểu diễn định

lượng bằng tỉ số giữa mức phân tán liên lớp15 và tổng mức phân tán nội lớp

J (w) =(m2 −m1)

2

s21 + s2

2

(29)

Thay thế các công thức 25, 26, 28 và biến đổi ta được

J (w) =wTSBw

wTSWw(30)

với SB là ma trận hiệp phương sai liên lớp

SB = (m2 −m1) (m2 −m1)T (31)

và SW là ma trận tổng hiệp phương sai nội lớp

SW =∑n∈C1

(xn −m1) (xn −m1)T

+∑n∈C2

(xn −m2) (xn −m2)T (32)

Lấy đạo hàm 30 theo w ta thấy J (w) đạt cực đại khi và chỉ khi(wTSBw

)SWw =

(wTSWw

)SBw (33)

Theo công thức 31 ta thấy lượng SBw tuân theo hướng của vector hiệu m2−m1

(chứng minh?). Hơn nữa, ta không quan tâm đến độ lớn của w, mà chỉ quantâm đến hướng của nó, nên hoàn toàn có thể bỏ qua hai đại lượng vô hướng(wTSBw

)và(wTSWw

). Sau đó nhân cả hai vế của 33 với S−1

W cuối cùng tađược

w ∝ S−1W (m2 −m1) (34)

13independent and identical distribution14within-class variation15between-class variation

12

Nếu phân bố nội lớp có tính đẳng hướng16 thì SW là ma trận chéo và ta cótrường hợp đặc biệt như đã trình bày ở đầu mục.

Sau khi đã chiếu dữ liệu theo phương sao cho các điểm sau chiếu được phânbiệt khả dĩ nhất, hoàn toàn ta có thể tìm một ngưỡng quyết định để phân lớp.Cũng có thể mô hình hóa các phân bố sau chiếu bằng các phân phối Gauss, từđó ước lượng ra bộ tham số cần thiết, và cuối cùng là tìm được ngưỡng quyếtđịnh.

Với số lớp K > 2, ta chiếu các điểm mẫu trong không gian D chiều về khônggian D′ chiều với yk = wT

k x, với k = 1, . . . , D′. Nếu gom các trị vô hướng ykthành vector y, và sắp các vector trọng số wk thành các cột của ma trận W,ta được công thức chiếu

y = WTx (35)

Ma trận hiệp phương sai nội lớp bằng tổng các ma trận hiệp phương sai nội lớpthành phần

SW =

K∑k=1

Sk (36)

vớiSk =

∑n∈Ck

(xn −mk) (xn −mk)T

mk = 1Nk

∑n∈Ck

xn(37)

với Nk là số lượng điểm mẫu trong lớp Ck. Để tìm dạng tổng quát của ma trậnhiệp phương sai liên lớp, ta liên hệ với ma trận hiệp phương sai trên toàn bộtập dữ liệu

ST =

N∑n=1

(xn −m) (xn −m)T (38)

với m là trung bình trên toàn tập dữ liệu

m =1

N

N∑n=1

xn =1

N

K∑k=1

Nkmk (39)

Ma trận hiệp phương sai tổng có thể được phân tích thành tổng của ma trậnhiệp phương sai nội lớp và ma trận SB , được quy ước là ma trận hiệp phươngsai liên lớp

ST = SW + SB (40)

với

SB =

N∑k=1

Nk (mk −m) (mk −m)T (41)

16isotropic

13

Ta có thể định nghĩa các ma trận tương tự trong không gian chiếu D′ chiều:

sW =

K∑k=1

∑n∈Ck

(yn − µk) (yn − µk)T (42)

và

sB =

N∑k=1

Nk (µk − µ) (µk − µ)T (43)

vớiµk =

1

Nk

∑n∈Ck

yn (44)

µ =1

N

K∑k=1

Nkµk (45)

Ta lại thiết lập một tỉ số vô hướng với tính chất tỉ số này sẽ lớn khi mức phântán liên lớp lớn và mức phân tán nội lớp nhỏ. Có thể định nghĩa tỉ số này bằng

J (W) = Trs−1W sB

(46)

Nếu biểu diễn hàm J (.) theo ma trận chiếu W, ta có

J (w) = Tr(

WSWWT)−1 (

WSBWT)

(47)

Cực đại J (w) cho ta kết quả w là các vector riêng ứng với D′ trị riêng lớn nhấtgiải được từ ma trận S−1

W SB .

2.3.3 Phân lớp với hàm tuyến tính

Hàm phân lớp là những hàm có dạng gk (z) , k = 1, . . . ,K được sử dụng trongviệc ra quyết định:

ω (z) = ωn với n = argmaxk=1,...,K

gk (z) (48)

Nếu gk (z) được coi là xác suất hậu nghiệm P (ωk|z), (48) quy về hàm quyếtđịnh Bayes với hàm phí tổn đồng đều. Vì chúng ta không thể biết xác suất hậunghiệm, đại lượng xác suất sẽ được thay thế bởi các dạng hàm gk (z) với cáctham số của hàm được rút ra từ tập huấn luyện.

Để đơn giản, dữ liệu được giả định có thể được phân lớp bằng các đườngbiên phân lớp tuyến tính (hay còn gọi là các siêu phẳng17 khi số chiều lớn hơn3):

gk (z) = wTk z + wk (49)

17hyperplane

14

Ta gọi chúng là các hàm tuyến tính phân lớp18, hay còn gọi dưới một cái tên cóliên quan về sau, máy tuyến tính phân lớp19.

Nếu viết gộp y =

[z1

], wk =

[wk

wk

], (49) được biểu diễn ở dạng tổng

quát hơn:gk (y) = wT

k y (50)

Dễ thấy hàm tuyến tính phân lớp phụ thuộc vào tập các tham số wk. Nhưvậy về bản chất, quá trình học được quy về tìm kiếm các tham số sao cho hàmquyết định (48) phân lớp thành công tất cả các mẫu trong tập huấn luyện. Kỹthuật điều chỉnh tham số được chia làm hai loại, lặp và không lặp. Kỹ thuậtkhông lặp được sử dụng nếu hiệu suất phân lớp có thể được tối ưu thông quacông cụ giải tích trên miền liên tục. Nếu hàm đo hiệu suất là một hàm liêntục J (w) của w, lời giải tối ưu sẽ có được từ việc giải phương trình đạo hàm∂J(w)∂w = 0.Khi hàm đo hiệu suất dựa trên phương pháp số, kỹ thuật lặp được áp dụng.

Với kỹ thuật này, từng mẫu học sẽ được hệ thống phân lớp, sau đó kết quả phânlớp được so sánh với lớp thực của mẫu đó, nhằm quyết định có điều chỉnh thamsố hay không. Hiển nhiên quá trình hiệu chỉnh phải được thực hiện sao cho hiệusuất phân lớp tăng dần. Sau một số bước lặp đủ lớn, ta kỳ vọng rằng hệ thốngđạt được tối ưu toàn cục

Chiến thuật tìm kiếm thông dụng nhất cho kỹ thuật lặp là phương pháptăng gradient20. Giả sử J (w) là hàm đo hiệu suất phân lớp, liên tục trong miềncủa w, có vector gradient ∇J (w) = ∂J(w)

∂w . Phương pháp tăng gradient có quytắc cập nhật tham số như sau:

w (i+ 1) = w (i) + η (i)∇J (w (i)) (51)

trong đó ký hiệu w (i) là tham số tại bước lặp thứ i, η (i) được gọi là tốc độhọc. Quá trình cập nhật sẽ hội tụ chậm nếu tốc độ học quá nhỏ, nhưng nếu tốcđộ học quá lớn thì quá trình cập nhật có thể “vọt” quá cực trị, bị “giam” quanhquẩn trong vùng gần cực trị. Trong phần còn lại, chúng ta sẽ khảo sát về thuậttoán học perceptron, một phương pháp cơ bản và có nhiều liên quan về sau.

Học perceptron

Xét bài toán phân lớp trên hai lớp, (48) tương đương với phép kiểm tra g1 (y)−g2 (y) > 0, TRUE cho lớp ω1, FALSE cho lớp ω2. Perceptron được định nghĩalà hàm tuyến tính phân lớp (50) với g (y) = g1 (y)− g2 (y). Ta có cấu trúc tínhtoán của perceptron như Hình ... với kết quả phân loại được mã hóa về hai trạngthái +1 và −1.

Để có thể áp dụng phương pháp phân lớp với hàm tuyến tính, ta cần trangbị cho thuật toán học perceptron một hàm đo hiệu suất. Áp dụng kỹ thuật học

18linear discriminant functions19linear machine20gradient ascent

15

Hình 5: Mô hình perceptron

dựa trên lặp, ta quy ước hàm đo hiệu suất chính là hàm đếm số mẫu bị phânlớp sai. Mục tiêu của bài toán là cực tiểu hóa con số này. Nếu yn là một mẫucần được phân loại và g (yn) phân loại sai, thì:

g (yn) =

< 0 ω (yn) = ω2, θn = ω1

> 0 ω (yn) = ω1, θn = ω2

(52)

Ứng với mỗi trường hợp, ta tăng thêm hoặc giảm đi một đại lượng dương đểđiều chỉnh hàm phân lớp như mong muốn:

g (yn) =

> 0 ω (yn) = ω1, θn = ω1

< 0 ω (yn) = ω2, θn = ω2

(53)

Nếu gọi Y1 (w) là tập các mẫu học có θn = ω1 bị phân lớp sai, và Y2 (w) làtập các mẫu học có θn = ω2, hàm đo hiệu suất được định nghĩa là:

Jperceptron (w) = −∑y∈Y1

wTy +∑y∈Y2

wTy (54)

Phép lấy đạo hàm theo w cho ta:

∇Jperceptron (w) = −∑y∈Y1

y +∑y∈Y2

y (55)

Thay (55) vào (51) ta có luật học cuối cùng:

w (i+ 1) = w (i)− η

−∑y∈Y1

y +∑y∈Y2

y

(56)

16

Hình 6: Lề được định nghĩa là khoảng cách trực giao giữa mặt phẳng quyết địnhvà điểm mẫu gần nó nhất. Vị trí của mặt phẳng quyết định được xác định bởimột tập con các điểm mẫu, hay còn gọi là các vector hỗ trợ.

với i là biến đếm vòng lặp. Luật học sẽ ngừng được cập nhật khi w (i+ 1) =w (i), nói cách khác là tất cả các mẫu trong tập huấn luyện được phân vào đúnglớp. Ta gọi những tập huấn luyện đạt được điều kiện trên là khả phân tuyếntính21.

2.3.4 Máy phân lớp dùng vector hỗ trợ

Nền tảng cơ sở của máy phân lớp dùng vector hỗ trợ khá giống với nền tảngperceptron. Cả hai máy phân lớp đều là tuyến tính, giả định rằng dữ liệu khảphân tuyến tính. Trong trường hợp của perceptron, lời giải phụ thuộc vào trịkhởi tạo ban đầu w và w0, cũng như trình tự học các điểm mẫu (trong trườnghợp học từng mẫu đơn). Nếu có nhiều lời giải có thể cho một bài toán phânlớp, ta mong muốn tìm ra lời giải với tỉ lệ lỗi thấp nhất. Máy phân lớp dùngvector hỗ trợ giải quyết vấn đề này thông qua khái niệm lề22, được định nghĩa làkhoảng cách nhỏ nhất giữa mặt phẳng quyết định và một trong các điểm mẫu.

Trước khi xây dựng hàm đo hiệu suất, khái niệm lề cần được làm rõ trênkhía cạnh hình học giải tích. Nhắc lại hàm tuyến tính phân lớp có dạng phươngtrình siêu phẳng:

g (z) = wT z + w0 (57)

với w là vector trọng số, và w0 là hệ số tự do so với gốc tọa độ. Vector x đượcgán cho lớp ω1 nếu g (z) ≥ 0 và được gán cho lớp ω2 trong trường hợp ngược lại.Xét hai điểm zA và zBcùng thuộc siêu phẳng. Vì g (zA) = g (zB) = 0 nên ta cówT (zA − zB) = 0, đồng nghĩa với vector w trực giao với mọi vector nằm trongsiêu phẳng, đồng thời cũng có nghĩa vector w xác định phương của siêu phẳngphân cách. Nếu một điểm x nằm trên đường biên phân cách thì g (z) = 0, từđó ta cũng có khoảng cách trực chuẩn từ gốc tọa độ đến mặt phân cách

wT z

‖w‖= − w0

‖w‖(58)

Có thể nhận thấy hệ số tự do quyết định vị trí của mặt phẳng phân cách.21linear separable22margin

17

Hình 7: Hàm tuyến tính phân lớp trong không gian hai chiều. Mặt phẳng quyếtđịnh (màu đỏ) vuông góc với vector w, với điểm đặt được quyết định bởi hệsố tự do w0. Khoảng cách đại số từ một điểm đến mặt phẳng quyết định làg (z) / ‖w‖.

18

Ngoài ra, giá trị g (z) cho phép xác định khoảng cách đại số từ một điểm zđến mặt phẳng quyết định. Giả sử gọi z⊥ là ảnh của z qua phép chiếu trực giaolên mặt phẳng quyết định, ta có

z = z⊥ + rw

‖w‖(59)

Nhân hai vế với wT và sau đó cộng hai vế với w0, mặt khác g (z) = wT z + w0

và g (z⊥) = wT z⊥ + w0 = 0, ta có

r =g (z)

‖w‖(60)

Như vậy lề của mặt phẳng quyết định là đại lượng r. Trong máy phân lớp dùngvector hỗ trợ, mặt phẳng quyết định được lựa chọn sao cho thỏa mãn tiêu chí lềcủa nó đạt cực đại. Mặc nhiên các máy tuyến tính phân lớp chỉ có khả năng xửlý hai lớp ω1 ω2, hay theo (24) ta có θn = +1,−1. Giả sử đã có một tập cáclời giải có thể phân lớp đúng hoàn toàn các mẫu học (một họ các mặt phẳngphân cách chẳng hạn), tương đương với θng (zn) > 0. Khoảng cách từ một điểmxn đến mặt phẳng phân cách bằng

θng (xn)

‖w‖=θn(wT zn + w0

)‖w‖

(61)

chính là khoảng cách trực giao đến điểm zn trong tập huấn luyện. Để tối ưu độđo hiệu suất, cần hiệu chỉnh tham số w, w0 sao cho lề đạt cực đại. Diễn đạt ởdạng tối ưu toán học:

argmaxw,w0

1

‖w‖minn

[θn(wT zn + w0

)](62)

Ở đây ta cần lựa chọn ba bộ tham số w, w0 và n sao cho biểu thức trên đạt cựcđại. Đại lượng 1/ ‖w‖ được đưa ra ngoài vì nó độc lập với việc lựa chọn n. Hàmtối ưu trên khá phức tạp và sẽ được chuyển đổi về dạng tương đương nhưng dễgiải hơn, bằng cách lấy tỉ lệ w→ κw và w0 → κw0 nhưng khoảng cách từ mặtphẳng quyết định đến điểm mẫu wn vẫn không đổi, bằng θng (zn) / ‖w‖. Giảsử ta chọn được tỉ lệ sao cho

θn(wT zn + w0

)= 1 (63)

với xn là điểm mẫu gần mặt phẳng phân cách nhất. Do đó, mọi điểm mẫu sẽthỏa bất phương trình

θn(wT zn + w0

)≥ 1, n = 1, . . . , NS (64)

hay còn được gọi là dạng chính tắc23 của siêu phẳng quyết định. Vì luôn luôncó ít nhất hai mẫu khác lớp trong tập huấn luyện, đẳng thức luôn xảy ra. Tốiưu hàm (62) giờ đây được chuyển về dạng cực tiểu hàm

argminw,w0

1

2‖w‖2 (65)

23canonical

19

Dạng chuẩn24

Bài toán quy về quy hoạch bậc hai, với hàm cần cực tiểu và một tập các bấtphương trình ràng buộc. Để giải bài toán tối ưu có ràng buộc, ta biểu diễn lạibằng cách sử dụng bội Lagrang an ≥ 0 với một bội số an ứng với mỗi một ràngbuộc bất phương trình trong (64):

L (w, b,a) =1

2‖w‖2 −

N∑n=1

anθn(wT zn + w0

)− 1

(66)

với a = a1, . . . , aNT . Cực tiểu L (w, b,a) tương đương cực tiểu vế phải thứnhất và cực đại vế phải thứ hai (vì sao?) Lấy đạo hàm ∂L/∂w và ∂L/∂w0 tađược:

w =

N∑n=1

anθnzn (67)

0 =

N∑n=1

anθn (68)

Chỉ một số trong tổng số an có giá trị lớn hơn 0. Các điểm mẫu zn tươngứng với an > 0 chính là các vector hỗ trợ nằm trên lề phân cách. Khái niệm hỗtrợ có thể hiểu là lề của siêu phẳng quyết định được hỗ trợ bởi (hay được “đỡ”bởi) các vector mẫu đó. Các vector này do đó thỏa mãn (64) với dấu đẳng thứcxảy ra. Hệ số tự do w0 = wzn − θn và thường được tính trung bình tổng củatất cả các vector hỗ trợ:

b =1

NSV

NSV∑i=1

(wzn − θn) (69)

Dạng đối ngẫu25

Thay (67) và (68) vào (66) ta có biểu diễn đối ngẫu của hàm cực tiểu L (w, b,a):

L (a) =

N∑n=1

an −1

2

N∑n=1

N∑m=1

anamθnθmk (zn, zm) (70)

an ≥ 0, n = 1, . . . , NSN∑

n=1anθn = 0.

(71)

với hàm hạch26 k (xn,xm) = xTnxm là kết quả tích vô hướng giữa hai vector

điểm mẫu. Việc giải những hàm tối ưu bậc hai đã có sẵn công cụ, và khôngđược đề cập trong tài liệu này.

24primal form25dual form26kernel function

20

Nhận thấy rằng hàm tối ưu ban đầu (65) có M biến số với M là số chiềucủa không gian mẫu và độ phức tạp thuật toán của bài toán quy hoạch bậchai là Θ

(M3). Khi (65) được chuyển về dạng (70), số biến số là N , với N là

số lượng điểm mẫu trong tập huấn luyện. Dạng đối ngẫu sẽ trở nên bất lợi khiN lớn, nhưng phát biểu lại bài toán có dựa trên khái niệm hàm hạch, có khảnăng phân lớp trong không gian phi tuyến (sẽ trình bày bên dưới), đồng thờilàm việc được với những tập mẫu mà số chiều lớn hơn (có thể hơn nhiều chođến vô hạn chiều) số lượng điểm mẫu.

Để phân loại một mẫu dựa trên mô hình học vừa được huấn luyện ở trên,ta xét dấu của g (z) trong phương trình (57). Biểu diễn theo các tham số anvà hàm hạch cho ta:

g (z) =N∑

n=1

anθnk (z, zn) + w0 (72)

Như đã khẳng định trong biểu diễn dạng chuẩn, chỉ có an tương ứng với cácvector hỗ trợ là khác 0. Một khi đã được huấn luyện, ta chỉ quan tâm đến cácvector hỗ trợ và bỏ qua các điểm mẫu khác.

Phân lớp phi tuyến

Hai thuật toán perceptron và phân lớp dùng vector hỗ trợ đều được xây dựngtrên giả thiết dữ liệu khả phân tuyến tính. Nói cách khác, hai phân lớp ω1 vàω2 có thể được phân tách trong không gian mẫu bằng một siêu phẳng. Trongthực tế có nhiều trường hợp dữ liệu được phân bố phức tạp hơn, như đan xenlẫn nhau giữa hai lớp, phân bố xoắn,... Đối với các bài toán phi tuyến như vậy,phương pháp hạch27 được sử dụng để giải quyết dữ liệu phi tuyến bằng cácthuật toán phân lớp tuyến tính. Cụ thể, dữ liệu trong không gian phi tuyếnhiện tại được ánh xạ sang không gian có số chiều đủ lớn sao cho dữ liệu có thểđược phân lớp bằng thuật toán phân lớp tuyến tính. Như vậy, phân lớp tuyếntính trong không gian mới tương đương với phân lớp phi tuyến trong khônggian ban đầu. Ta gọi φ (z) là một ánh xạ vào không gian đặc trưng có tính chấtnhư vậy. Tiếp theo, cần định nghĩa một độ đo để định lượng sự tương đồng giữahai vector trong không gian đặc trưng bằng tích vô hướng:

k (z, z′) = φ (z)Tφ (z′) (73)

Dễ thấy k (z, z′) = k (z′, z) và trong trường hợp đơn giản nhất ta có φ (z) = z,nên k (z, z′) = zT z′. Vậy ý tưởng của phương pháp hạch có lợi ích gì trong việcgiải bài toán phân lớp dùng vector hỗ trợ? Trong trường hợp dữ liệu phi tuyến,ta thay thế z bằng φ (z) để thuật toán tuyến tính có thể phân loại được. Côngthức (57) trở thành

g (z) = wTφ (z) + w0 (74)

27kernel methods

21

và công thức (70) trở thành:

L (a) =

N∑n=1

an −1

2

N∑n=1

N∑m=1

anamθnθmk (zn, zm) (75)

với công thức (73) xuất hiện trong hàm tối ưu. Rõ ràng là thay vì tính toántường minh φ (z), φ (z′), và tính tích vô hướng giữa chúng φ (z)

Tφ (z′), ta có

thể thay thế bằng hàm hạch k (z, z′) đơn giản hơn. Về mặt toán học, (73) đượcđảm bảo bằng định lý Mercer, phát biểu rằng bất kỳ một hàm không âm, liêntục trong miền xác định, và đối xứng k (z, z′) có thể được biểu diễn bằng tíchvô hướng trong không gian cao chiều.

Tính chất trên được mình họa trong một số ví dụ tiếp theo đây. Trước tiênta phải xây dựng các hàm hạch. Hướng tiếp cận thứ nhất là lựa chọn ánh xạφ (z) và sau đó dùng chúng để tìm hạch tương ứng. Công thức hàm hạch chokhông gian đầu vào một chiều:

k (z, z′) = φ (z)Tφ (z′) =

M∑i=1

φi (z)φ (z′) (76)

với φi (z) là các hàm cơ sở.[hình]Cũng có thể xây dựng hàm hạch trực tiếp, bằng cách chọn một hàm sao cho

nó tương đương với tích vô hướng trong không gian đặc trưng cao chiều. Lấy vídụ:

k (z,x) =(zTx

)2(77)

Trong trường hợp không gian mẫu hai chiều z = (z1, z2), triển khai theo hàmhạch và sau đó gom lại, ta được biểu diễn của tích vô hướng:

k (z,x) =(zTx

)2= (z1x1 + z2x2)

2

= z21x

21 + 2z1z1z2x2 + z2

2x22

=(z2

1 ,√

2z1z2, z22

) (x2

1,√

2x1x2, x22

)= φ (z)

Tφ (x)

(78)

Dễ thấy ánh xạ φ (z) =(z2

1 ,√

2z1z2, z22

)bao gồm tất cả các đa thức bậc hai có

thể cùng với trọng số. Ta gọi (77) là hàm hạch đa thức bậc hai. Một hàm hạchthông dụng khác là hạch Gauss

k (z, z′) = exp

(−‖z− z′‖2

2σ2

)(79)

22

Hình 8: Phân lớp dữ liệu hai lớp trong không gian mẫu hai chiều với các vectorhỗ trợ được đánh dấu bằng khoanh tròn, và các đường đồng mức có giá trị g (z)bằng nhau.

2.3.5 Mạng neuron truyền thẳng

3 Học không giám sát

3.1 Tinh giản đặc trưng

3.1.1 PCA - Phân tích thành phần chính28

Kỹ thuật phân tích thành phần chính được sử dụng rộng rãi trong lĩnh vực giảmchiều không gian29, nén có mất mát thông tin30, rút trích đặc trưng31, và kiếnhóa dữ liệu32. PCA còn được biết đến với tên gọi phép biến đổi Karhunen-Loève.

Từ hai phương diện khác nhau, PCA được định nghĩa và xây dựng theo haicách. Thứ nhất, PCA là phép chiếu trực giao dữ liệu lên một không gian tuyếntính với số chiều thấp hơn, hay còn gọi là không gian con chính33, sao cho độphân tán của dữ liệu sau phép chiếu đạt cực đại. Thứ hai, PCA cũng có thểđược định nghĩa là phép chiếu tuyến tính làm cực tiểu phí tổn trung bình, chínhlà trung bình tổng bình phương khoảng cách34 giữa các điểm mẫu và ảnh của nóqua phép chiếu. Ta sẽ xem xét cả hai khía cạnh này.

28principal component analysis29dimensionality reduction30lossy data compression31feature extraction32data visualization33principal subspace34mean squared distance

23

Cực đại hóa độ phân tán

Xét tập dữ liệu với các quan sát xnNn=1, và xn là một vector trong không gianEuclid với số chiều D. Mục tiêu của ta là chiếu dữ liệu vào không gian có sốchiềuM < D đồng thời tối đa hóa độ phân tán của điểm ảnh. Ta giả sử số chiềuM được biết trước.

Trước tiên xét phép chiếu lên không gian một chiều M = 1. Dùng vector u1

với số chiều D có thể xác định được hướng của không gian đích. Vì chỉ quantâm đến chiều, ta chọn u1 là vector đơn vị, uT

1 u1 = 1. Qua phép chiếu, mỗiđiểm ảnh xn có ảnh uT

1 xn. Lấy trung bình của ảnh chiếu ta được uT1 x với x là

trung bình của tập mẫu

x =1

N

N∑n=1

xn (80)

Độ phân tán của dữ liệu sau chiếu bằng

1

N

N∑n=1

uT

1 xn − uT1 x2

= uT1 Su1 (81)

với S là ma trận hiệp phương sai của dữ liệu ban đầu

S =1

N

N∑n=1

(xn − x) (xn − x)T (82)

Ta phải cực đại độ phân tán dữ liệu sau chiếu uT1 Su1 theo biến u1. Để ngăn

chặn ‖u1‖ → ∞, ta có thêm ràng buộc từ lúc đầu uT1 u1 = 1. Kết hợp hàm tối

ưu và ràng buộc tương ứng bằng bội Lagrang ta có cực đại hàm không ràngbuộc

uT1 Su1 + λ1

(1− uT

1 u1

)(83)

Lấy đạo hàm theo u1để tìm giá trị của u1 mà tại đó (83) đạt cực đại

Su1 = λ1u1 (84)

Đây chính là phương trình vector riêng35 theo ma trận S. Nếu nhân bên tráihai vế cho uT

1

uT1 Su1 = λ1 (85)

sẽ nhận thấy độ phân tán (vế trái) đạt cực đại khi u1 là vector riêng với λ1

là trị riêng lớn nhất tương ứng. Vector riêng này được gọi là thành phần chínhthứ nhất.

Trong trường hợp giảm chiều dữ liệu về M > 1, phép chiếu tối ưu sao chođộ phân tán dữ liệu sau chiếu đạt cực đại được xác định bằng một tập M cácvector riêng uiMi=1 ứng với M trị riêng λiMi=1 lớn nhất giải từ phương trìnhvector riêng trên ma trận hiệp phương sai S.

35eigenvector equation

24

Cực tiểu hóa độ lỗi

3.2 Gom cụm

3.2.1 Thuật toán K-means

3.2.2 Hỗn tạp Gauss

25

Education

Giới thiệu Pattern Recognition V0.1