36
Học có giám sát Bách khoa toàn thư mở Wikipedia Bước tới: menu , tìm kiếm Học có giám sát là một kĩ thuật của ngành học máy để xây dựng một hàm (function) từ dữ liệu huấn luyện. Dữ liệu huấn luyện bao gồm các cặp gồm đối tượng đầu vào (thường dạng vec-tơ), và đầu ra mong muốn. Đầu ra của một hàm có thể là một giá trị liên tục (gọi là hồi qui ), hay có thể là dự đoán một nhãn phân loại cho một đối tượng đầu vào (gọi là phân loại ). Nhiệm vụ của chương trình học có giám sát là dự đoán giá trị của hàm cho một đối tượng bất kì là đầu vào hợp lệ, sau khi đã xem xét một số ví dụ huấn luyện (nghĩa là, các cặp đầu vào và đầu ra tương ứng). Để đạt được điều này, chương trình học phải tổng quát hóa từ các dữ liệu sẵn có để dự đoán được những tình huống chưa gặp phải theo một cách "hợp lí" (xem thiên kiến qui nạp - inductive bias). (So sánh với học không có giám sát .) Học có giám sát có thể tạo ra 2 loại mô hình. Phổ biến nhất, học có giám sát tạo ra một mô hình toàn cục (global model) để ánh xạ đối tượng đầu vào đến đầu ra mong muốn. Tuy nhiên, trong một số trường hợp, việc ánh xạ được thực hiện dưới dạng một tập các mô hình cục bộ (như trong phương pháp lập luận theo tình huống (case-based reasoning) hay giải thuật láng giềng gần nhất ). Để có thể giải quyết một bài toán nào đó của học có giám sát (ví dụ: học để nhận dạng chữ viết tay ) người ta phải xem xét nhiều bước khác nhau: 1. Xác định loại của các ví dụ huấn luyện. Trước khi làm bất cứ điều gì, người kĩ sư nên quyết định loại dữ liệu nào sẽ được sử dụng làm ví dụ. Chẳng hạn, đó có thể là một kí tự viết tay đơn lẻ, toàn bộ một từ viết tay, hay toàn bộ một dòng chữ viết tay. 2. Thu thập tập huấn luyện. Tập huấn luyện cần đặc trưng cho thực tế sử dụng của hàm chức năng. Vì thế, một tập

Học có giám sát

Embed Size (px)

Citation preview

Page 1: Học có giám sát

Học có giám sátBách khoa toàn thư mở WikipediaBước tới: menu, tìm kiếm

Học có giám sát là một kĩ thuật của ngành học máy để xây dựng một hàm (function) từ dữ liệu huấn luyện. Dữ liệu huấn luyện bao gồm các cặp gồm đối tượng đầu vào (thường dạng vec-tơ), và đầu ra mong muốn. Đầu ra của một hàm có thể là một giá trị liên tục (gọi là hồi qui), hay có thể là dự đoán một nhãn phân loại cho một đối tượng đầu vào (gọi là phân loại). Nhiệm vụ của chương trình học có giám sát là dự đoán giá trị của hàm cho một đối tượng bất kì là đầu vào hợp lệ, sau khi đã xem xét một số ví dụ huấn luyện (nghĩa là, các cặp đầu vào và đầu ra tương ứng). Để đạt được điều này, chương trình học phải tổng quát hóa từ các dữ liệu sẵn có để dự đoán được những tình huống chưa gặp phải theo một cách "hợp lí" (xem thiên kiến qui nạp - inductive bias). (So sánh với học không có giám sát.)

Học có giám sát có thể tạo ra 2 loại mô hình. Phổ biến nhất, học có giám sát tạo ra một mô hình toàn cục (global model) để ánh xạ đối tượng đầu vào đến đầu ra mong muốn. Tuy nhiên, trong một số trường hợp, việc ánh xạ được thực hiện dưới dạng một tập các mô hình cục bộ (như trong phương pháp lập luận theo tình huống (case-based reasoning) hay giải thuật láng giềng gần nhất).

Để có thể giải quyết một bài toán nào đó của học có giám sát (ví dụ: học để nhận dạng chữ viết tay) người ta phải xem xét nhiều bước khác nhau:

1. Xác định loại của các ví dụ huấn luyện. Trước khi làm bất cứ điều gì, người kĩ sư nên quyết định loại dữ liệu nào sẽ được sử dụng làm ví dụ. Chẳng hạn, đó có thể là một kí tự viết tay đơn lẻ, toàn bộ một từ viết tay, hay toàn bộ một dòng chữ viết tay.

2. Thu thập tập huấn luyện. Tập huấn luyện cần đặc trưng cho thực tế sử dụng của hàm chức năng. Vì thế, một tập các đối tượng đầu vào được thu thập và đầu ra tương ứng được thu thập, hoặc từ các chuyên gia hoặc từ việc đo đạc tính toán.

3. Xác định việc biễu diễn các đặc trưng đầu vào cho hàm chức năng cần tìm. Sự chính xác của hàm chức năng phụ thuộc lớn vào cách các đối tượng đầu vào được biểu diễn. Thông thường, đối tượng đầu vào được chuyển đổi thành một vec-tơ đặc trưng, chứa một số các đặc trưng nhằm mô tả cho đối tượng đó. Số lượng các đặc trưng không nên quá lớn, do sự bùng nổ tổ hợp (curse of dimensionality); nhưng phải đủ lớn để dự đoán chính xác đầu ra.

4. Xác định cấu trúc của hàm chức năng cần tìm và giải thuật học tương ứng. Ví dụ, người kĩ sư có thể lựa chọn việc sử dụng mạng nơ-ron nhân tạo hay cây quyết định.

5. Hoàn thiện thiết kế. Người kĩ sư sẽ chạy giải thuật học từ tập huấn luyện thu thập được. Các tham số của giải thuật học có thể được điều chỉnh bằng cách tối ưu hóa hiệu năng trên một tập con (gọi là tập kiểm chứng -validation set) của tập huấn luyện, hay thông qua kiểm chứng chéo (cross-validation). Sau khi học và điều

Page 2: Học có giám sát

chỉnh tham số, hiệu năng của giải thuật có thể được đo đạc trên một tập kiểm tra độc lập với tập huấn luyện.

Mục lục

 [ẩn]  1 Cực tiểu hóa rủi ro kinh nghiệm 2 Hướng tiếp cận và giải thuật 3 Ứng dụng 4 Vấn đề chung

5 Liên kết ngoài

[sửa] Cực tiểu hóa rủi ro kinh nghiệm

Mục tiêu của việc học có giám sát một mô hình toàn cục là tìm ra một hàm g, khi cho sẵn một tập các điểm có dạng (x, g(x)).

Giả thiết rằng đã biết trước đặc điểm của hàm g đối với một tập điểm. Tập điểm đó đã được lấy mẫu độc lập và có cùng phân bố (independent and identically distributed (i.i.d.)) theo một xác suất phân bố p chưa biết từ một tập lớn hơn và có thể vô hạn. Ngoài ra, giả sử tồn tại một hàm hàm tổn thất (loss function) theo tác vụ L có dạng:

trong đó Y là trùng với miền xác định của g và L ánh xạ tới các số thực không âm (có thể đặt thêm hạn chế cho L). Giá trị L(z, y) là tổn thất nảy sinh khi đoán giá trị của g tại một điểm cho trước là z trong khi giá trị thực của nó là y.

Hàm rủi ro f được định nghĩa là giá trị kỳ vọng của hàm tổn thất và có công thức như sau:

nếu xác suất phân bố p là rời rạc (trường hợp xác suất phân bố liên tục cần một tích phân xác định (definite integral) và một hàm mật độ xác suất.

Mục tiêu là tìm một hàm f* trong số một lớp con cố định các hàm để cho rủi ro R(f*) là cực tiểu.

Tuy nhiên, do thường chỉ biết được đặc điểm của hàm g cho một tập hữu hạn điểm (x1, y1), ..., (xn, yn), người ta chỉ có thể xác định gần đúng rủi ro thực sự, ví dụ, với rủi ro kinh nghiệm (empirical risk):

Page 3: Học có giám sát

Nguyên lý của cực tiểu hóa rủi ro kinh nghiệm là chọn hàm f* sao cho rủi ro kinh nghiệm là nhỏ nhất. Lý thuyết học bằng thống kê tìm hiểu xem việc cực tiểu hóa rủi ro kinh nghiệm có thể đạt được trong những điều kiện nào và có thể trông đợi các tính toán xấp xỉ tốt đến đâu.

[sửa] Hướng tiếp cận và giải thuật

học bằng phân tích (analytical learning) mạng nơ-ron nhân tạo

o Instantaneously trained neural networks kỹ thuật lan truyền ngược (backpropagation) boosting thống kê Bayes lập luận theo tình huống (case-based reasoning) học cây quyết định inductive logic programming hồi quy Gauss (Gaussian process regression) learning automata theory Minimum message length (cây quyết định, đồ thị quyết định, v.v.) naive Bayes classifier thuật toán láng giềng gần nhất probably approximately correct learning (PAC) learning symbolic machine learning algorithms subsymbolic machine learning algorithms support vector machines Random Forests

[sửa] Ứng dụng

Tin sinh học Nhận dạng chữ viết tay Thu thập thông tin (information retrieval) Nhận dạng đối tượng trong computer vision Nhận dạng kí tự quang học Phát hiện spam Nhận dạng mẫu Nhận dạng tiếng nói

[sửa] Vấn đề chung

Page 4: Học có giám sát

computational learning theory (ngành toán học liên quan đến việc phân tích các thuật toán học máy)

thiên kiến qui nạp (inductive bias) overfitting (hàm học được quá thích nghi với tập huấn luyện) version space

[sửa] Liên kết ngoài

[http://spice.ci.ritsumei.ac.jp/~thangc/programs/vietnamese.htm Chương trình mạng nơ ron đa lớp (Multi Layer Neural Network) và mạng nơ ron tự tổ chức (Self Organizing Maps) có giải thích bằng tiếng Việt.

Sử dụng phần mềm mạng nơ ron 3 lớp Spice-MLP Sử dụng phần mềm mạng tự tổ chức Spice-SOM Hướng dẫn sử dụng mạng nơ ron trong các ứng dụng thực tế trong đó có minh

họa phân loại ảnh khuôn mặt, ảnh người đi bộ, ảnh xe hơi, dự báo chứng khoán và một số ví dụ khác

Lập luận theo tình huốngBách khoa toàn thư mở Wikipedia

Bước tới: menu, tìm kiếm

Lập luận theo tình huống (tiếng Anh: case-based reasoning - CBR) là qui trình giải các bài toán mới dựa trên lời giải của các bài toán tương tự đã gặp. Ví dụ, một thợ sửa chữa ô tô đang chữa một cái động cơ bằng cách nhớ lại một cái xe khác cũng có các triệu chứng tương tự, người đó đang sử dụng lập luận theo tình huống. Một luật sư đang bảo vệ một kết quả nào đó trong một phiên tòa dựa trên các tiền lệ pháp lý hay một quan tòa đang sử dụng một phán lệ (case law), hai người này cũng đang thực hiện lập luận theo tình huống. Cũng như vậy, một kỹ sư đang sao chép các đặc tính hoạt động của thiên nhiên vào trong công trình phỏng sinh học (biomimicry) của mình, anh ta đang coi thiên nhiên như một cơ sở dữ liệu của các giải pháp cho các vấn đề. Lập luận theo tình huống là một dạng nổi bật

của việc tạo ra các sự tương tự

Người ta đã cho rằng lập luận theo tình huống không chỉ là một phương pháp mạnh cho lập luận máy tính mà còn là một hành vi phổ biến của con người trong cuộc sống hằng ngày khi giải quyết các vấn đề. Hay nói cách khác, mọi lập luận đều dựa trên các tình

huống trong quá khứ (mà đã được trải nghiệm hoặc chấp nhận bằng cách chủ động thực hiện chọn lựa) -- lý thuyết nguyên mẫu (prototype theory) -- lý thuyết được nghiên cứu

sâu nhất trong ngành khoa học nhận thức về con người (human cognitive science).

Mục lục

 [ẩn]  1 Qui trình

Page 5: Học có giám sát

2 Lịch sử 3 Chú giải 4 Xem thêm

5 Liên kết ngoài

[sửa] Qui trình

Lập luận theo tình huống đã được chính thức hóa cho các mục tiêu của lập luận máy thành một qui trình bốn bước[1]:

1. Truy lục (Retrieve): Cho trước một bài toán đích, truy lục từ trong bộ nhớ các tình huống có liên quan tới việc giải bài toán cần giải quyết. Một tình huống bao gồm một vấn đề, giải pháp cho vấn đề đó, và thông thường, các chú thích về lời giải đó đã được tìm ra như thế nào. Ví dụ, giả sử Dậu muốn nấu món cơm gà. Vì là người không thạo nấu ăn, kinh nghiệm gần nhất mà anh ta có thể nhớ đến là

một lần anh ta nấu thành công một nồi cơm thường. Qui trình mà anh ta làm theo để nấu cơm thường, cùng với giải thích cho các quyết định mà anh ta đưa ra trong

quá trình nấu, hợp thành tình huống thu được của Dậu.2. Tái sử dụng (Reuse): Ánh xạ lời giải cho tình huống trước cho bài toán đích.

Điều đó có thể dẫn đến việc điều chỉnh lời giải để phù hợp với tình huống mới. Trong ví dụ cơm gà, Dậu phải điều chỉnh giải pháp truy lục được để bao hàm cả

phần nguyên liệu thịt gà bổ sung.3. Điều chỉnh (Revise): Sau khi đã ánh xạ lời giải trước vào bài toán đích, kiểm tra

lời giải mới trong thế giới thực (hoặc giả lập) và sửa lại nếu cần thiết. Giả sử Dậu điều chỉnh giải pháp nấu cơm gà bằng cách cho thịt gà vào nấu cùng gạo ngay từ đầu. Sau khi cơm chín, anh ta phát hiện ra rằng món ăn thu được là một món cháo đặc với thịt gà bị quá nhừ. Điều đó gợi ý việc sửa lại như sau: không cho thịt gà

vào ngay từ đầu mà xào trước rồi trộn vào sau, khi cơm đã chín.4. Lưu lại (Retain): Sau khi lời giải đã được điều chỉnh thành công cho bài toán

đích, lưu trữ kinh nghiệm thu được trong bộ nhớ dưới dạng một tình huống mới. Theo đó, Dậu ghi lại qui trình nấu cơm gà mới tìm được, nhờ đó làm giầu thêm

tập các kinh nghiệm anh đã tích trữ được, và chuẩn bị tốt hơn cho những lần phải nấu cơm sau này.

[sửa] Lịch sử

Roger Schank và các sinh viên của ông tại Đại học Yale là những người đầu tiên đưa ra những cơ sở đầu tiên về lập luận theo tình huống vào thập niên 1980.

Hệ thống đầu tiên được xem là một ứng dụng của lập luận theo tình huống là CYRUS, được phát triển bởi Janet Kolodner, một thành viên trong nhóm của Roger Schank, vào

năm 1983.

Page 6: Học có giám sát

Một hệ thống khác được phát triển bởi nhóm của Bruce Porter vào năm 1989 tại Đại học Texas là PROTOS, hệ thống này đã tích hợp thành công lập luận theo tri thức tổng quát

(general domain knowledge) và lập luận theo tình huống thể hiện trong một cấu trúc.

Lập luận theo tình huống là một trong những ứng dụng kỹ thuật trí tuệ nhân tạo thành công trong những năm gần đây. Các ứng dụng thông dụng là trong các hệ thống trợ giúp

và chẩn đoán.

[sửa] Chú giải

1. ̂ Agnar Aamodt và Enric Plaza, "Case-Based Reasoning: Foundational Issues, Methodological Variations, and System Approaches," Artificial Intelligence

Communications 7 (1994): 1, 39-52.

[sửa] Xem thêm

Cây quyết định Thuật toán di truyền

So trùng mẫu (Pattern matching) Analogy

K-line (trí tuệ nhân tạo) Truth maintenance systems

[sửa] Liên kết ngoài

Cây quyết địnhBách khoa toàn thư mở Wikipedia

Bước tới: menu, tìm kiếm

Trong lý thuyết quyết định (chẳng hạn quản lí rủi ro), một cây quyết định (tiếng Anh: decision tree) là một đồ thị của các quyết định và các hậu quả có thể của nó (bao gồm rủi ro và hao phí tài nguyên). Cây quyết định được sử dụng để xây dựng một kế hoạch nhằm

đạt được mục tiêu mong muốn. Các cây quyết định được dùng để hỗ trợ quá trình ra quyết định. Cây quyết định là một dạng đặc biệt của cấu trúc cây.

Mục lục

 [ẩn]  1 Giới thiệu chung 2 Các kiểu cây quyết định 3 Ví dụ thực hành 4 Các công thức

Page 7: Học có giám sát

o 4.1 Gini impurity o 4.2 Entropy

5 Ưu điểm của cây quyết định 6 Mở rộng cây quyết định thành đồ thị quyết định

7 Các nguồn tài nguyên khác

[sửa] Giới thiệu chung

Trong lĩnh vực học máy, cây quyết định là một kiểu mô hình dự báo (predictive model), nghĩa là một ánh xạ từ các quan sát về một sự vật/hiện tượng tới các kết luận về giá trị mục tiêu của sự vật/hiện tượng. Mỗi một nút trong (internal node) tương ứng với một

biến; đường nối giữa nó với nút con của nó thể hiện một giá trị cụ thể cho biến đó. Mỗi nút lá đại diện cho giá trị dự đoán của biến mục tiêu, cho trước các giá trị của các biến được biểu diễn bởi đường đi từ nút gốc tới nút lá đó. Kỹ thuật học máy dùng trong cây

quyết định được gọi là học bằng cây quyết định, hay chỉ gọi với cái tên ngắn gọn là cây quyết định.

Học bằng cây quyết định cũng là một phương pháp thông dụng trong khai phá dữ liệu. Khi đó, cây quyết định mô tả một cấu trúc cây, trong đó, các lá đại diện cho các phân loại

còn cành đại diện cho các kết hợp của các thuộc tính dẫn tới phân loại đó[1]. Một cây quyết định có thể được học bằng cách chia tập hợp nguồn thành các tập con dựa theo một kiểm tra giá trị thuộc tính [1]. Quá trình này được lặp lại một cách đệ qui cho mỗi tập con

dẫn xuất. Quá trình đệ qui hoàn thành khi không thể tiếp tục thực hiện việc chia tách được nữa, hay khi một phân loại đơn có thể áp dụng cho từng phần tử của tập con dẫn

xuất. Một bộ phân loại rừng ngẫu nhiên (random forest) sử dụng một số cây quyết định để có thể cải thiện tỉ lệ phân loại.

Cây quyết định cũng là một phương tiện có tính mô tả dành cho việc tính toán các xác suất có điều kiện.

Cây quyết định có thể được mô tả như là sự kết hợp của các kỹ thuật toán học và tính toán nhằm hỗ trợ việc mô tả, phân loại và tổng quát hóa một tập dữ liệu cho trước.

Dữ liệu được cho dưới dạng các bản ghi có dạng:

(x, y) = (x1, x2, x3..., xk, y)

Biến phụ thuộc (dependant variable) y là biến mà chúng ta cần tìm hiểu, phân loại hay tổng quát hóa. x1, x2, x3 ... là các biến sẽ giúp ta thực hiện công việc đó

[sửa] Các kiểu cây quyết định

Cây quyết định còn có hai tên khác:

Page 8: Học có giám sát

Cây hồi quy (Regression tree) ước lượng các hàm giá có giá trị là số thực thay vì được sử dụng cho các nhiệm vụ phân loại. (ví dụ: ước tính giá một ngôi nhà hoặc khoảng thời

gian một bệnh nhân nằm viện)

Cây phân loại (Classification tree), nếu y là một biến phân loại như: giới tính (nam hay nữ), kết quả của một trận đấu (thắng hay thua).

[sửa] Ví dụ thực hành

Ta sẽ dùng một ví dụ để giải thích về cây quyết định:

David là quản lý của một câu lạc bộ đánh golf nổi tiếng. Anh ta đang có rắc rối chuyện các thành viên đến hay không đến. Có ngày ai cũng muốn chơi golf nhưng số nhân viên

câu lạc bộ lại không đủ phục vụ. Có hôm, không hiểu vì lý do gì mà chẳng ai đến chơi, và câu lạc bộ lại thừa nhân viên.

Mục tiêu của David là tối ưu hóa số nhân viên phục vụ mỗi ngày bằng cách dựa theo thông tin dự báo thời tiết để đoán xem khi nào người ta sẽ đến chơi golf. Để thực hiện

điều đó, anh cần hiểu được tại sao khách hàng quyết định chơi và tìm hiểu xem có cách giải thích nào cho việc đó hay không.

Vậy là trong hai tuần, anh ta thu thập thông tin về:

Trời (outlook) (nắng (sunny), nhiều mây (clouded) hoặc mưa (raining)). Nhiệt độ (temperature) bằng độ F. Độ ẩm (humidity). Có gió mạnh (windy) hay không.

Và tất nhiên là số người đến chơi golf vào hôm đó. David thu được một bộ dữ liệu gồm 14 dòng và 5 cột.

Page 9: Học có giám sát

Sau đó, để giải quyết bài toán của David, người ta đã đưa ra một mô hình cây quyết định.

Page 10: Học có giám sát

Cây quyết định là một mô hình dữ liệu mã hóa phân bố của nhãn lớp (cũng là y) theo các thuộc tính dùng để dự đoán. Đây là một đồ thị có hướng phi chu trình dưới dạng một cây. Nút gốc (nút nằm trên đỉnh) đại diện cho toàn bộ dữ liệu. Thuật toán cây phân loại phát

hiện ra rằng cách tốt nhất để giải thích biến phụ thuộc, play (chơi), là sử dụng biến Outlook. Phân loại theo các giá trị của biến Outlook, ta có ba nhóm khác nhau: Nhóm

người chơi golf khi trời nắng, nhóm chơi khi trời nhiều mây, và nhóm chơi khi trời mưa.

Kết luận thứ nhất: nếu trời nhiều mây, người ta luôn luôn chơi golf. Và có một số người ham mê đến mức chơi golf cả khi trời mưa.

Tiếp theo, ta lại chia nhóm trời nắng thành hai nhóm con. Ta thấy rằng khách hàng không muốn chơi golf nếu độ ẩm lên quá 70%.

Cuối cùng, ta chia nhóm trời mưa thành hai và thấy rằng khách hàng sẽ không chơi golf nếu trời nhiều gió.

Và đây là lời giải ngắn gọn cho bài toán mô tả bởi cây phân loại. David cho phần lớn nhân viên nghỉ vào những ngày trời nắng và ẩm, hoặc những ngày mưa gió. Vì hầu như sẽ chẳng có ai chơi golf trong những ngày đó. Vào những hôm khác, khi nhiều người sẽ

đến chơi golf, anh ta có thể thuê thêm nhân viên thời vụ để phụ giúp công việc.

Kết luận là cây quyết định giúp ta biến một biểu diễn dữ liệu phức tạp thành một cấu trúc đơn giản hơn rất nhiều.

Page 11: Học có giám sát

[sửa] Các công thức

[sửa] Gini impurity

Dùng trong thuật toán CART (Classification and Regression Trees). Nó dựa vào việc bình phương các xác suất thành viên cho mỗi thể loại đích trong nút. Giá trị của nó tiến đến cực tiểu (bằng 0) khi mọi trường hợp trong nút rơi vào một thể loại đích duy nhất.

Giả sử y nhận các giá trị trong {1, 2, ..., m} và gọi f(i,j) là tần xuất của giá trị j trong nút i. Nghĩa là f(i,j) là tỷ lệ các bản ghi với y=j được xếp vào nhóm i.

[sửa] Entropy

Dùng trong các thuật toán sinh cây ID3, C4.5 và C5.0. Số đo này dựa trên khái niệm entropy trong lý thuyết thông tin (information theory).

[sửa] Ưu điểm của cây quyết định

So với các phương pháp khai phá dữ liệu khác, cây quyết định là phương pháp có một số ưu điểm:

Cây quyết định dễ hiểu. Người ta có thể hiểu mô hình cây quyết định sau khi được giải thích ngắn.

Việc chuẩn bị dữ liệu cho một cây quyết định là cơ bản hoặc không cần thiết. Các kỹ thuật khác thường đòi hỏi chuẩn hóa dữ liệu, cần tạo các biến phụ (dummy

variable) và loại bỏ các giá trị rỗng. Cây quyết định có thể xử lý cả dữ liệu có giá trị bằng số và dữ liệu có giá trị

là tên thể loại. Các kỹ thuật khác thường chuyên để phân tích các bộ dữ liệu chỉ gồm một loại biến. Chẳng hạn, các luật quan hệ chỉ có thể dùng cho các biến tên,

trong khi mạng nơ-ron chỉ có thể dùng cho các biến có giá trị bằng số. Cây quyết định là một mô hình hộp trắng. Nếu có thể quan sát một tình huống

cho trước trong một mô hình, thì có thể dễ dàng giải thích điều kiện đó bằng logic Boolean. Mạng nơ-ron là một ví dụ về mô hình hộp đen, do lời giải thích cho kết

quả quá phức tạp để có thể hiểu được. Có thể thẩm định một mô hình bằng các kiểm tra thống kê. Điều này làm cho

ta có thể tin tưởng vào mô hình.

Page 12: Học có giám sát

Cây quyết định có thể xử lý tốt một lượng dữ liệu lớn trong thời gian ngắn. Có thể dùng máy tính cá nhân để phân tích các lượng dữ liệu lớn trong một thời

gian đủ ngắn để cho phép các nhà chiến lược đưa ra quyết định dựa trên phân tích của cây quyết định.

[sửa] Mở rộng cây quyết định thành đồ thị quyết định

Trong cây quyết định, mọi đường đi từ nút gốc đến nút lá được tiến hành bằng các phép hội (AND). Trong đồ thị quyết định, có thể dùng các phép tuyển (OR) để kết nối ghép hai

hay nhiều đường lại với nhau.

Phần bù của cây quyết định là phân tích hình thái học (Morphological Analysis).

[sửa] Các nguồn tài nguyên khác

[1] T. Menzies, Y. Hu, Data Mining For Very Busy People. IEEE Computer, tháng 10 năm 2003, pgs. 18-25.

Decision Tree Analysis mindtools.com J.W. Comley and D.L. Dowe, "Minimum Message Length, MDL and Generalised

Bayesian Networks with Asymmetric Languages", chapter 11 (pp265-294) in P. Grunwald, M.A. Pitt and I.J. Myung (eds)., Advances in Minimum Description

Length: Theory and Applications, M.I.T. Press, tháng 4 năm 2005, ISBN 0262072629. (Bài báo này xem xét cây quyết định trong các nốt bên trong của

mạng Bayes dùng Minimum Message Length (MML). Phiên bản trước tại Comley and Dowe (2003), .pdf.)

P.J. Tan and D.L. Dowe (2004), MML Inference of Oblique Decision Trees, Lecture Notes in Artificial Intelligence (LNAI) 3339, Springer-Verlag, pp1082-

1088. (Bào báo này dùng Minimum Message Length.) Eruditionhome Site thư mục lớn nhất chứa các nguồn tài nguyên trong khai phá

dữ liệu

Hàng xóm gần nhất (nhận dạng mẫu)Bách khoa toàn thư mở Wikipedia(đổi hướng từ Láng giềng gần nhất (nhận dạng mẫu))Bước tới: menu, tìm kiếm

Giải thuật người hàng xóm gần nhất trong nhận dạng mẫu là một phương pháp để phân loại các hiện tượng dựa trên các đặc trưng quan sát được.

Trong giải thuật, mỗi đặc trưng được gán cho một chiều để tạo thành một không gian đặc trưng đa chiều. Một tập huấn luyện các đối tượng với lớp (class) đã biết trước (đã phân loại sẵn) sẽ được xử lí bằng cách trích rút đặc trưng (lấy ra một số đặc trưng) và được biểu diễn (vẽ sơ đồ) vào trong không gian đặc trưng đa chiều đó. Khoảng cách đến gốc

Page 13: Học có giám sát

(offset) trong mỗi chiều được xem là vec-tơ đặc trưng . Đây là giai đoạn huấn luyện hay học. Vì động cơ có thể được huấn luyện lại để phân loại nhiều hiện tượng khác nhau, nhận dạng mẫu là một phần của ngành học máy.

Giai đoạn kiểm tra bắt đầu với các hiện tượng (phenomena) cần phân loại (lớp của từng hiện tượng chưa được biết trước) và trích rút ra cùng tập các đặc trưng như với tập huấn luyện. Khoảng cách hình học được tính toán giữa vec-tơ đặc trưng mới với mỗi vec-tơ đặc trưng có sẵn từ tập huấn luyện. Khoảng cách ngắn nhất tính toán được, đến vec-tơ đặc trưng trong tập huấn luyện, chính là họ hàng gần nhất. Và lớp (loại) biết trướccủa họ hàng gần nhất đó sẽ cũng là lớp của hiện tượng mà ta đang cần phân loại.

Hiển nhiên, giải thuật này sẽ đòi hỏi cường độ tính toán cao khi tập huấn luyên trở nên lớn. Nhiều sự tối ưu đã và đang được đưa ra, chúng chủ yếu tìm kiếm nhằm giảm số lượng khoảng cách được thực sự tính toán. Một số tối ưu bao gồm phân hoạch không gian đặc trưng, và chỉ tính các khoảng cách với các vec-tơ thuộc một vùng lân cận cụ thể nào đó.

Một số biến thể khác của giải thuật bao gồm giải thuật k hàng xóm gần nhất với k vec-tơ đặc trưng gần nhất sẽ được tính toán, và việc phân loại sẽ dựa vào độ tin cậy cao nhất chỉ khi mọi mọi hàng xóm gần nhất đó nều cùng thuộc một loại (lớp).

Người hàng xóm gần nhất cho ra một số kết quả ổn định vững chắc. Vì số lượng dữ liệu tiếp cận được xem là vô hạn, người hàng xóm gần nhất đảm bảo cho ra tỉ lệ lỗi không vượt quá hai lần tỉ lệ lỗi Bayes (là tỉ lệ lỗi đạt được tối thiểu khi biết sự phân bố dữ liệu). k-người hàng xóm gần nhất được đảm bảo là sẽ tiến tới tỉ lệ lỗi Bayes, với một giá trị nào đó của k.

[sửa] Xem thêm

Trí tuệ nhân tạo Khai phá dữ liệu Học máy Nhận dạng mẫu Thống kê Support vector machine

hang xom gan nhat

[sửa] Tham khảo

Belur V. Dasarathy, editor (1991) Nearest Neighbor (NN) Norms: NN Pattern Classification Techniques, ISBN 0-8186-8930-0

Tập huấn luyện

Page 14: Học có giám sát

Bách khoa toàn thư mở WikipediaBước tới: menu, tìm kiếm

Một tập huấn luyện được sử dụng trong trí tuệ nhân tạo, cùng với phương pháp học có giám sát, và nó bao gồm một vec-tơ đầu vào và một vec-tơ kết quả.

Nói chung, một hệ thống thông minh (intelligent system) bao gồm một hàm chức năng nhận một hay nhiều đối số và cho ra kết quả là một vec-tơ đầu ra, và nhiệm vụ của phương pháp học là chạy hệ thống với vec-tơ đầu vào làm đối số, tính toán vec-tơ đầu ra, so sánh nó với vec-tơ kết quả và thay đổi một ít trong trật tự để có được vec-tơ đầu ra gần đúng với vec-tơ kết quả ở lần chạy tiếp theo của hệ thống.

Phân tích hồi quyBách khoa toàn thư mở Wikipedia(đổi hướng từ Phân tích hồi qui)Bước tới: menu, tìm kiếm

Phân tích hồi quy là một phân tích thống kê để xác định xem các biến độc lập (biến thuyết minh) quy định các biến phụ thuộc (biến được thuyết minh) như thế nào.

Mục lục

 [ẩn]  1 Giới thiệu 2 Công thức tổng quát 3 Hồi qui tuyến tính 4 Mô hình tuyến tính Gauss-Markov 5 Ước lượng bình phương cực tiểu của các hệ số 6 Ví dụ 7 Xem thêm 8 Tham khảo

9 Liên kết ngoài

[sửa] Giới thiệu

Đây là một phương pháp thống kê mà giá trị kỳ vọng của một hay nhiều biến ngẫu nhiên được dự đoán dựa vào điều kiện của các biến ngẫu nhiên (đã tính toán) khác. Cụ thể, có hồi qui tuyến tính, hồi qui lôgic, hồi qui Poisson và học có giám sát. Phân tích hồi qui không chỉ là trùng khớp đường cong (lựa chọn một đường cong mà vừa khớp nhất với một tập điểm dữ liệu); nó còn phải trùng khớp với một mô hình với các thành phần ngẫu nhiên và xác định (deterministic and stochastic components). Thành phần xác định được

Page 15: Học có giám sát

gọi là bộ dự đoán (predictor) và thành phần ngẫu nhiên được gọi là phần sai số (error term).

Dạng đơn giản nhất của một mô hình hồi qui chứa một biến phụ thuộc (còn gọi là "biến đầu ra," "biến nội sinh," "biến được thuyết minh", hay "biến-Y") và một biến độc lập đơn (còn gọi là "hệ số," "biến ngoại sinh", "biến thuyết minh", hay "biến-X").

Ví dụ thường dùng là sự phụ thuộc của huyết áp Y theo tuổi tác X của một người, hay sự phụ thuộc của trọng lượng Y của một con thú nào đó theo khẩu phần thức ăn hằng ngày X. Sự phụ thuộc này được gọi là hồi qui của Y lên X.

Xem thêm: phân phối chuẩn đa biến (multivariate normal distribution), các ẩn bản quan trọng trong phân tích hồi qui.

Hồi qui thường được xếp vào loại bài toán tối ưu vì chúng ta nỗ lực để tìm kiếm một giải pháp để cho sai số và phần dư là tốt nhất. Phương pháp sai số chung nhất được sử dụng là phương pháp bình phương cực tiểu: phương pháp này tương ứng với một hàm hợp lý dạng Gauss của các dữ liệu quan sát khi biết biến ngẫu nhiên (ẩn). Về một mặt nào đó, bình phương cực tiểu là một phương pháp ước lượng tối ưu: xem định lý Gauss-Markov.

Để giải quyết bài toán tối ưu trong hồi qui thường dùng các giải thuật như giải thuật hạ bậc gradient gradient descent, giải thuật Gauss-Newton, và giải thuật Levenberg-Marquardt. Các giải thuật xác suất như RANSAC có thể được dùng để tìm một phù hợp tốt cho tập mẫu, khi cho trước một mô hình tham số hóa của hàm đường cong.

Hồi qui có thể được biểu diễn bằng phương pháp hàm hợp lý ước lượng các tham số của một mô hình nào đó. Tuy nhiên, với một lượng nhỏ dữ liệu, ước lượng này có thể có phương sai lớn (high variance). Các phương pháp Bayesian có thể được sử dụng để ước lượng các mô hình hồi qui. Các tham số có một phân phối điều kiện được giả định trước, nó bao gồm mọi thông tin thống kê đã biết trước về các biến. (Ví dụ, nếu một tham số được biết là không âm thì một phân phối không âm sẽ được gán cho nó.) Phân phối được giả định trước này sau đó được áp dụng cho vector tham số. Phương pháp Bayes có ưu điểm là khai thác được toàn bộ các thông tin đã có và nó là ước lượng chính xác, không phải ước lượng chệch và do đó rất tốt cho các tập số liệu nhỏ. Trong thực hành, người ta sử dụng phương pháp MAP maximum a posteriori, phương pháp này đơn giản hơn phân tích Bayes đầy đủ, trong đó các tham oố dược chọn sao cho cực đại hóa phân phối giả định trước posterior. Các phương pháp MAP có liên hệ với Occam's Razor: ở chỗ có sự ưu tiên cho sự đơn giản, khi có nhiều mô hình hồi qui (đường cong) cũng như khi có nhiều lí thuyết thì chọn cái đơn giản.

[sửa] Công thức tổng quát

Chúng ta muốn dự báo giá trị của một biến ngẫu nhiên Y có điều kiện dựa trên một biến

ngẫu nhiên khác gọi là nhân tố. Đặt là số nhân tố được sử dụng cho dự đoán này.

Page 16: Học có giám sát

xác định một không gian xác suất và là một không gian đo được trong

đó là và với ). Bây giờ chúng ta có thể xác định

biến phụ thuộc và

. Bây giờ, đặt là tập các hàm được xác

định bởi nhận các giá trị trong mà và là một metric (độ đo)

sao cho là một không gian metric đầy đủ complete metric space.

Chúng ta đang tìm một hàm đo được sao cho

là nhỏ nhất.

[sửa] Hồi qui tuyến tính

Hồi quy tuyến tính là một trường hợp rất phổ biến trong thực tế. Ta giả thiết rằng hàm

phụ thuộc tuyến tính vào bộ như vậy ta chỉ cần tìm kiếm các hệ số phù hợp.

Đặt là tập các hệ số. Đối thuyết của hồi quy tuyến tính là:

và matric được sử dụng ở đây là:

Chúng ta muốn cực tiểu hóa , có nghĩa là

.

Như vậy chỉ cần tìm . Để giải quyết bài toán này một cách hiệu quả, một số phương pháp đã được đưa ra. Phương pháp phổ biến nhất là phương pháp Gauss-Markov, nhưng nó đòi hỏi thêm một số đối thuyết nữa.

[sửa] Mô hình tuyến tính Gauss-Markov

Page 17: Học có giám sát

[sửa] Ước lượng bình phương cực tiểu của các hệ số

Xem thêm bình phương cực tiểu

[sửa] Ví dụ

Ví dụ đơn giản nhất của hồi qui là trong trường hợp 1 chiều. Chúng ta được cấp một vec-tơ của các giá trị x và một vec-tơ khác của các giá trị y và chúng ta đang cố gắng tìm

kiếm một hàm mà .

giả sử

Giả thiết rằng giải pháp (hàm) của chúng ta là thuộc họ các hàm được định bởi chuỗi Fourier mở rộng cấp 3 (3rd degree Fourier expansion) được viết dưới dạng:

với là các số thực. Bài toán này có thể được biểu diễn theo dạng ma trận như sau:

điền vào dạng này các giá trị của chúng ta sẽ cho ta bài toán với dạng Xw = y

Page 18: Học có giám sát

Bài toán này bây giờ có thể chuyển thành bài toán tối ưu để tìm ra tổng cực tiểu của bình phương sai số.

hàm Fourier bậc 3

giải bằng phương pháp bình phương cực tiểu cho ra:

vì thế hàm Fourier bậc 3 mà trùng khớp nhất với dữ liệu có công thức cụ thể:

Page 19: Học có giám sát

[sửa] Xem thêm

Mạng nơ-ron nhân tạo Kriging Khai phá dữ liệu Thống kê

[sửa] Tham khảo

Audi, R., Ed. (1996) The Cambridge Dictionary of Philosophy. Cambridge, Cambridge University Press. curve fitting problem p.172-173.

David Birkes and Yadolah Dodge, Alternative Methods of Regression (1993), ISBN 0-471-56881-3

W. Hardle, Applied Nonparametric Regression (1990), ISBN 0-521-42950-1 J. Fox, Applied Regression Analysis, Linear Models and Related Methods. (1997),

Sage

[sửa] Liên kết ngoài

Regression Analysis SixSigmaFirst Curve Expert (shareware) fits functions to data (limited to one dependant and one

independent variable.) Online curve and surface fitting Online curve and surface fitting TableCurve2D and TableCurve3D by Systat automates curve fitting LMS applet another choice online curve-fitting textbook

Máy vectơ hỗ trợBách khoa toàn thư mở Wikipedia

Bước tới: menu, tìm kiếm

Máy vectơ hỗ trợ (SVM - viết tắt tên tiếng Anh support vector machine) là một khái niệm trong thống kê và khoa học máy tính cho một tập hợp các phương pháp học có giám sát liên quan đến nhau để phân loại và phân tích hồi quy. SVM dạng chuẩn nhận dữ liệu vào và phân loại chúng vào hai lớp khác nhau. Do đó SVM là một thuật toán phân loại nhị phân. Với một bộ các ví dụ luyện tập thuộc hai thể loại cho trước, thuật toán luyện tập SVM xây dựng một mô hình SVM để phân loại các ví dụ khác vào hai thể loại đó. Một mô hình SVM là một cách biểu diễn các điểm trong không gian và lựa chọn ranh

giới giữa hai thể loại sao cho khoảng cách từ các ví dụ luyện tập tới ranh giới là xa nhất

Page 20: Học có giám sát

có thể. Các ví dụ mới cũng được biểu diễn trong cùng một không gian và được thuật toán dự đoán thuộc một trong hai thể loại tùy vào ví dụ đó nằm ở phía nào của ranh giới.

Mục lục

 [ẩn]  1 Tổng quan về máy vectơ hỗ trợ 2 Lịch sử 3 Đặt vấn đề 4 SVM tuyến tính

o 4.1 Dạng ban đầu o 4.2 Dạng đối ngẫu

5 Lề mềm o 5.1 Dạng đối ngẫu

6 Xem thêm 7 Ghi chú 8 Liên kết ngoài

9 Tài liệu tham khảo

[sửa] Tổng quan về máy vectơ hỗ trợ

Một máy vectơ hỗ trợ xây dựng một siêu phẳng hoặc một tập hợp các siêu phẳng trong một không gian nhiều chiều hoặc vô hạn chiều, có thể được sử dụng cho phân loại, hồi

quy, hoặc các nhiệm vụ khác. Một cách trực giác, để phân loại tốt nhất thì các siêu phẳng nằm ở càng xa các điểm dữ liệu của tất cả các lớp (gọi là hàm lề) càng tốt, vì nói chung lề

càng lớn thì sai số tổng quát hóa của thuật toán phân loại càng bé.

Trong nhiều trường hợp, không thể phân chia các lớp dữ liệu một cách tuyến tính trong không gian dùng để mô tả vấn đề. Vì vậy, nhiều khi cần phải ánh xạ các điểm dữ liệu trong không gian ban đầu vào một không gian mới nhiều chiều hơn, vì việc phân tách

chúng trở nên dễ dàng hơn trong không gian đó. Để việc tính toán được hiệu quả, ánh xạ sử dụng trong thuật toán SVM chỉ đòi hỏi giá trị tích vô hướng của các vectơ dữ liệu

trong không gian lớn hơn mà không cần đến tọa độ của chúng. Tích vô hướng này được

xác định bằng một hàm hạt nhân phù hợp.[1] Một siêu phẳng trong không gian mới được định nghĩa là tập hợp các điểm có tích vô hướng với một vectơ cố định trong

không gian đó là một hằng số. Vectơ xác định một siêu phẳng sử dụng trong SVM là một tổ hợp tuyến tính của các vectơ dữ liệu luyện tập trong không gian mới với các hệ số . Với siêu phẳng lựa chọn như trên, các điểm x trong không gian đặc trưng được ánh xạ

vào một siêu mặt phẳng là các điểm thỏa mãn: Σi αi K(xi,x) = hằng số.

Ghi chú rằng nếu nhận giá trị ngày càng nhỏ khi xa dần khỏi thì mỗi số hạng của tổng trên được dùng để đo độ tương tự giữa với điểm tương ứng trong dữ liệu luyện tập. Như vậy, tác dụng của tổng trên chính là so sánh khoảng cách giữa điểm cần dự đoán với các điểm dữ liệu đã biết. Lưu ý là tập hợp các điểm được ánh xạ vào một

Page 21: Học có giám sát

siêu phẳng có thể có độ phức tạp tùy ý trong không gian ban đầu, nên có thể phân tách các tập hợp thậm chí không lồi trong không gian ban đầu.

[sửa] Lịch sử

Thuật toán SVM ban đầu được tìm ra bởi Vladimir N. Vapnik và dạng chuẩn hiện nay sử dụng lề mềm được tìm ra bởi Vapnik và Corinna Cortes năm 1995.[2]

[sửa] Đặt vấn đề

H3 (màu xanh lá cây) không chia tách hai lớp dữ liệu. H1 (màu xanh lơ) phân tách hai lớp với lề nhỏ và H2 (màu đỏ) phân tách với lề cực đại.

Phân loại thống kê là một nhiệm vụ phổ biến trong học máy. Trong mô hình học có giám sát, thuật toán được cho trước một số điểm dữ liệu cùng với nhãn của chúng thuộc một

trong hai lớp cho trước. Mục tiêu của thuật toán là xác định xem một điểm dữ liệu mới sẽ được thuộc về lớp nào. Mỗi điểm dữ liệu được biểu diễn dưới dạng một vector p-chiều,

và ta muốn biết liệu có thể chia tách hai lớp dữ liệu bằng một siêu phẳng p − 1 chiều. Đây gọi là phân loại tuyến tính. Có nhiều siêu phẳng có thể phân loại được dữ liệu. Một lựa

chọn hợp lý trong chúng là siêu phẳng có lề lớn nhất giữa hai lớp.

[sửa] SVM tuyến tính

Ta có một tập huấn luyện gồm n điểm có dạng

với yi mang giá trị 1 hoặc −1, xác định lớp của điểm . Mỗi là một vectơ thực p-chiều. Ta cần tìm siêu phẳng có lề lớn nhất chia tách các điểm có và các điểm có

. Mỗi siêu phẳng đều có thể được viết dưới dạng một tập hợp các điểm thỏa mãn

Page 22: Học có giám sát

Siêu phẳng với lề cực đại cho một SVM phân tách dữ liệu thuộc hai lớp. Các ví dụ nằm trên lề được gọi là các vectơ hỗ trợ.

với kí hiệu cho tích vô hướng và là một vectơ pháp tuyến của siêu phẳng. Tham số

xác định khoảng cách giữa gốc tọa độ và siêu phẳng theo hướng vectơ pháp tuyến .

Chúng ta cần chọn và để cực đại hóa lề, hay khoảng cách giữa hai siêu mặt song song ở xa nhau nhất có thể trong khi vẫn phân chia được dữ liệu. Các siêu mặt ấy được xác

định bằng

Để ý rằng nếu dữ liệu huấn luyện có thể được chia tách một cách tuyến tính, thì ta có thể chọn hai siêu phẳng của lề sao cho không có điểm nào ở giữa chúng và sau đó tăng

khoảng cách giữa chúng đến tối đa có thể. Bằng hình học, ta tìm được khoảng cách giữa

hai siêu phẳng là . Vì vậy ta muốn cực tiểu hóa giá trị . Để đảm bảo không có điểm dữ liệu nào trong lề, ta thêm vào các điều kiện sau, với mỗi ta có

thuộc lớp thứ nhất

hoặc

thuộc lớp thứ hai

Có thể viết gọn lại như sau với mọi :

Page 23: Học có giám sát

Tóm lại, ta có bài toán tối ưu hóa sau:

Cực tiểu hóa (theo )

với điều kiện (với mọi )

[sửa] Dạng ban đầu

Bài toán tối ưu ở mục trên tương đối khó giải vì hàm mục tiêu phụ thuộc vào ||w||, là một

hàm có khai căn. Tuy nhiên có thể thay ||w|| bằng hàm mục tiêu (hệ số 1/2 để tiện cho các biến đổi toán học sau này) mà không làm thay đổi lời giải (lời giải của bài toán

mới và bài toán ban đầu có cùng w và b). Đây là một bài toán quy hoạch toàn phương. Cụ thể hơn:

Cực tiểu hóa (theo )

với điều kiện (với mọi )

Bằng cách thêm các nhân tử Lagrange , bài toán trên trở thành

nghĩa là ta cần tìm một điểm yên ngựa. Khi đó, tất cả các điểm không nằm trên lề, nghĩa

là đều không ảnh hưởng đến giá trị hàm mục tiêu vì ta có thể chọn bằng không.

Có thể giải bài toán này bằng các kĩ thuật thông thường cho quy hoạch toàn phương. Theo điều kiện Karush–Kuhn–Tucker, lời giải có thể được viết dưới dạng tổ hợp tuyến

tính của các vectơ luyện tập

Page 24: Học có giám sát

Chỉ có một vài nhận giá trị lớn hơn 0. Các điểm tương ứng là các vectơ hỗ trợ nằm

trên lề và thỏa mãn . Từ điều kiện này, ta nhận thấy

từ đó ta suy ra được giá trị . Trên thực tế, một cách thức tốt hơn để tính là tính giá trị trung bình từ tất cả vectơ hỗ trợ:

[sửa] Dạng đối ngẫu

Nếu viết điều kiện phân loại dưới dạng đối ngẫu không điều kiện thì sẽ dễ dàng nhận thấy siêu phẳng với lề lớn nhất, và do đó nhiệm vụ phân loại, chỉ phụ thuộc vào các điểm

luyện tập nằm trên lề, còn gọi là các vectơ hỗ trợ.

Vì và , ta nhận thấy bài toán đối ngẫu của SVM là chính là bài toán tối ưu hóa sau:

Cực đại hóa (theo )

với điều kiện (với mọi )

và điều kiện sau ứng với việc cực tiểu hóa theo

Ở đây hàm hạt nhân được định nghĩa là .

Page 25: Học có giám sát

Sau khi giải xong, có thể tính từ các giá trị tìm được như sau:

[sửa] Lề mềm

Năm 1995, Corinna Cortes và Vladimir N. Vapnik đề xuất một ý tưởng mới cho phép thuật toán gán nhãn sai cho một số ví dụ luyện tập.[2] Nếu không tồn tại siêu phẳng nào phân tách được hai lớp dữ liệu, thì thuật toán lề mềm sẽ chọn một siêu phẳng phân tách

các ví dụ luyện tập tốt nhất có thể, và đồng thời cực đại hóa khoảng cách giữa siêu phẳng với các ví dụ được gán đúng nhãn. Phương pháp này sử dụng các biến bù , dùng để đo

độ sai lệch của ví dụ

Hàm mục tiêu có thêm một số hạng mới để phạt thuật toán khi khác không, và bài toán tối ưu hóa trở thành việc trao đổi giữa lề lớn và mức phạt nhỏ. Nếu hàm phạt là tuyến tính

thì bài toán trở thành:

với điều kiện (với mọi )

Có thể giải bài toán trên bằng nhân tử Lagrange tương tự như trường hợp cơ bản ở trên. Bài toán cần giải trở thành:

với .

[sửa] Dạng đối ngẫu

Cực đại hóa (theo )

Page 26: Học có giám sát

với điều kiện (với mọi )

Ưu điểm của việc dùng hàm phạt tuyến tính là các biến bù biến mất khỏi bài toán đối ngẫu, và hằng số C chỉ xuất hiện dưới dạng một chặn trên cho các nhân tử Lagrange.

Cách đặt vấn đề trên đã mang lại nhiều thành quả trong thực tiễn, và Cortes và Vapnik đã nhận được giải Paris Kanellakis của ACM năm 2008 cho đóng góp này.[3] Các hàm phạt

phi tuyến cũng được sử dụng, đặc biệt là để giảm ảnh hưởng của các trường hợp ngoại lệ, tuy nhiên nếu không lựa chọn hàm phạt cẩn thận thì bài toán trở thành không lồi, và việc

tìm lời giải tối ưu toàn cục thường là rất khó.

[sửa] Xem thêm

In situ adaptive tabulation Máy hạt nhân

Predictive analytics Relevance vector machine , Một mô hình máy hạt nhân thưa xác suất có dạnghàm

số giống như SVM. Tối ưu hóa nhỏ nhất tuần tự

[sửa] Ghi chú

1. ̂ Press, William H.; Teukolsky, Saul A.; Vetterling, William T.; Flannery, B. P. (2007). "Section 16.5. Support Vector Machines". Numerical Recipes: The Art of Scientific Computing (ấn bản 3rd). New York: Cambridge University Press. ISBN 978-0-521-

88068-8.2. ^ a b Cortes, Corinna; and Vapnik, Vladimir N.; "Support-Vector Networks", Machine

Learning, 20, 1995. http://www.springerlink.com/content/k238jx04hm87j80g/3. ̂ ACM Website, Press release of March 17th 2009.

http://www.acm.org/press-room/news-releases/awards-08-groupa

[sửa] Liên kết ngoài

Burges, Christopher J.C. (1998), “A Tutorial on Support Vector Machines for Pattern Recognition”, Data Mining and Knowledge Discovery 2: 121–167,

http://research.microsoft.com/en-us/um/people/cburges/papers/svmtutorial.pdf. * www.kernel-machines.org (thông tin tổng quan và danh sách các bài báo nghiên

cứu)

Page 27: Học có giám sát

www.support-vector-machines.org (Bài báo nghiên cứu, đánh giá, , phần mềm, liên kết có liên quan đến máy vectơ hỗ trợ)

videolectures.net (Video bài giảng về SVM) Phim ngắn : Minh họa SVM sử dụng hàm hạt nhân đa thức.

Một hướng dẫn sử dụng SVM cho người mới học bởi Tristan Fletcher [1]. www.shogun-toolbox.org (Shogun (hộp công cụ) gồm khoảng 20 thư viện lập

trình SVM) libsvm libsvm là một thư viện lập trình SVM

liblinear liblinear là một thư viện lập trình gồm nhiều thuật toán phân loại tuyến tính, trong đó có SVM

flssvm flssvm là một thư viện lập trình svm bình phương nhỏ nhất viết bằng fortran

Shark Shark là một thư viện học máy viết bằng C++ có chứa nhiều loại SVM dlib dlib là một thư viện C++ cho máy hạt nhân và SVM

SVM light là một bộ phần mềm cho học máy và phân loại bằng SVM.

[sửa] Tài liệu tham khảo

Nhận dạng mẫuBách khoa toàn thư mở WikipediaBước tới: menu, tìm kiếm

Nhận dạng mẫu (pattern recognition) là một ngành thuộc lĩnh vực học máy (machine learning). Nói cách khác, nó có thể được xem là việc "cần thực hiện một tác động vào dữ liệu thô mà tác động cụ thể là gì sẽ tùy vào loại của dữ liệu đó" [1]. Như vậy nó là một tập các phương pháp học có giám sát (supervised learning).

Nhận dạng mẫu nhằm mục đích phân loại dữ liệu (là các mẫu) dựa trên: hoặc là kiến thức tiên nghiệm (a priori) hoặc dựa vào thông tin thống kê được trích rút từ các mẫu có sẵn. Các mẫu cần phân loại thường được biểu diễn thành các nhóm của các dữ liệu đo đạc hay quan sát được, mỗi nhóm là một điểm ở trong một không gian đa chiều phù hợp. Đó là không gian của các đặc tính để dựa vào đó ta có thể phân loại.

Một hệ thống nhận dạng mẫu hoàn thiện gồm một thiết bị cảm nhận (sensor) để thu thập các quan sát cần cho việc phân loại hay miêu tả; một cơ chế trích rút đặc trưng (feature extraction) để tính toán các thông tin dưới dạng số hay dạng tượng trưng (symbolic) từ các dữ liệu quan sát được; và một bộ phân loại (hay lược đồ mô tả) nhằm thực hiện công việc phân loại thực sự (hay miêu tả các quan sát đó) dựa vào các đặc tính đã được trích rút.

Việc phân loại (hay lược đồ mô tả) thường dựa vào sự có sẵn của một tập các mẫu mà đã được phân loại (hay miêu tả) sẵn. Tập các mẫu này được gọi là tập huấn luyện và chiến lược học nhằm phân loại mẫu vào một trong các lớp có sẵn được gọi là học có giám sát. Việc học cũng có thể là không có giám sát, theo nghĩa là hệ thống không được cung cấp

Page 28: Học có giám sát

các mẫu được đánh nhãn (phân loại) tiên nghiệm, mà nó phải tự đưa ra các lớp để phân loại dựa vào tính ổn định trong thống kê của các mẫu.

Việc phân loại (hay lược đồ mô tả) thường dùng một trong các hướng tiếp cận sau: thống kê (hay lí thuyết quyết định), cú pháp (hay cấu trúc). Nhận dạng mẫu dùng thống kê là dựa vòa các đặc tính thống kê của các mẫu, chẳng hạn rằng các mẫu được tạo mởi một hệ thống xác suất. Nhận dạng dùng cấu trúc là dựa vào tương quan cấu trúc giữa các mẫu.

Các ứng dụng phổ biến là nhận dạng tiếng nói tự động, phân loại văn bản thành nhiều loại khác nhau (ví dụ: những thư điện tử nào là spam/non-spam), nhận dạng tự động các mã bưu điện viết tay trên các bao thư, hay hệ thống nhận dạng danh tính dựa vào mặt người. Ba ví dụ cuối tạo thành lãnh vực con phân tích ảnh của nhận dạng mẫu với đầu vào là các ảnh số.

[sửa] Liên kết ngoài

Danh sách các trang web Nhận dạng Mẫu Hướng dẫn sử dụng mạng nơ ron trong các ứng dụng thực tế trong đó có minh

họa phân loại ảnh khuôn mặt, ảnh người đi bộ, ảnh xe hơi, dự báo chứng khoán và một số ví dụ khác

[sửa] Tham khảo

Richard O. Duda, Peter E. Hart, David G. Stork (2001) Pattern classification (2nd edition), Wiley, New York, ISBN 0-471-05669-3.

Dietrich Paulus and Joachim Hornegger (1998) Applied Pattern Recognition (2nd edition), Vieweg. ISBN 3-528-15558-2

J. Schuermann: Pattern Classification: A Unified View of Statistical and Neural Approaches, Wiley&Sons, 1996, ISBN 0-471-13534-8

Sholom Weiss and Casimir Kulikowski (1991) Computer Systems That Learn, Morgan Kaufmann. ISBN 1-55860-065-5