Upload
anh-tuan
View
214
Download
1
Embed Size (px)
Citation preview
H C S Tri Th cệ ơ ở ứHỌC MÁY (MACHINE LEARNING)
Gi i Thi uớ ệ• Vấn đề ngôn ngữ và học• khả năng học chính là một trong những thành tố
quan trọng của hành vi thông minh.• Các hệ chuyên gia được phát triển nhưng vẫn còn
gặp nhiều khó khăn• Một giải pháp là các chương trình tự học lấy cách
giải quyết vấn đề từ kinh nghiệm, từ sự giống nhau, từ các ví dụ hay từ những ‘chỉ dẫn’, ‘lời khuyên’,...
Đ nh Nghĩa H cị ọ• Theo Herbert Simon: ‘H c đ c đ nh nghĩa nh là ọ ượ ị ư
b t c s thay đ i nào trong m t h th ng cho phép ấ ứ ự ổ ộ ệ ốnó ti n hành t t h n trong l n th hai khi l p l i cùng ế ố ơ ầ ứ ặ ạm t nhi m v ho c v i m t nhi m v khác rút ra t ộ ệ ụ ặ ớ ộ ệ ụ ừcùng m t qu n th các nhi m v đó’ộ ầ ể ệ ụ• Có ba ti p c n h c: ti p c n ký hi uế ậ ọ ế ậ ệ (symbol-based
learning), ti p c n m ng neuron hay k tế ậ ạ ế n i (neuralố or connectionist networks) và ti p cế nậ n i tr i ổ ộ(emergent) hay di truy n và ti nề ế hóa (genetic and evolutionary learning).
Ti p C n Ký Hi u: Gi i Thu t ế ậ ệ ả ậQuy N p Cây Quy t Đ nh ID3ạ ế ị
Giải Thuật Quy Nạp Cây Quyết Định
I. Giới ThiệuII. Giải Thuật ID3 xây dựng cây quyết định từ trên
xuốngIII. Thuộc Tính Dùng Để Phân Loại Tốt NhấtIV. Tìm Kiếm Không Gian Giả Thuyết Trong ID3V. Đánh Giá Hiệu SuấtVI. Chuyển Cây Về Các LuậtVII.Khi Nào Sử Dụng ID3
Gi i Thi uớ ệ• Giải thuật quy nạp cây (ID3) là 1 giải thuật học đơn giản được
ứng dụng trong nhiều lĩnh vực.• ID3 biểu diễn các khái niệm (concept) ở dạng cây quyết định
(decision tree)• Giải thuật có đầu vào và đầu ra là:
Gi i Thi uớ ệ
Gi i Thi uớ ệ• Thuộc tính: quang cảnh, nhiệt độ, độ ẩm và gió • Thuộc tính phân loại ‘chơi Tennis’ (có, không) • Thuộc tính ‘Chơi tennis’ còn được gọi là thuộc tính đích
(target attribute). • Thuộc tính quang cảnh có ba giá trị (âm u, mưa, nắng)• Nhiệt độ có ba giá trị (nóng, mát, ấm áp)• Độ ẩm có hai giá trị (cao, TB) • Gió có hai giá trị (mạnh, nhẹ).• Các giá trị này chính là ký hiệu (symbol)
Gi i Thi uớ ệ
Gi i Thi uớ ệ• Sau khi đã quy nạp được cây quyết định thì cây
này sẽ được sử dụng để phân loại cho các ví dụ trong tương lai.• Ứng với một tập dữ liệu rèn luyện sẽ có nhiều
cây quyết định có thể phân loại đúng tất cả các ví dụ trong tập dữ liệu rèn luyện.• Vậy làm sao để học được cây quyết định có thể
phân loại đúng tất cả các ví dụ trong tập rèn luyện?
Gi i thu t ID3 xây d ng cây quy t đ nh t ả ậ ự ế ị ừtrên–xu ngố
Gi i thu t ID3 xây d ng cây quy t đ nh t ả ậ ự ế ị ừtrên–xu ngố
Thu c tính nào là thu c tính dùng đ ộ ộ ểphân lo i t t nh t?ạ ố ấ
• Shannon (1948) cung c p khái ni mấ ệ entropy đ đo ểtính thu n nh t (hay ng c l i là đ pha tr n) c a ầ ấ ượ ạ ộ ộ ủm t t p h p. M t ộ ậ ợ ộ t p h p là thu n nh t n u nh t t ậ ợ ầ ấ ế ư ấc các ph n t c a t p h p đ u thu c cùng m t lo i, ả ầ ử ủ ậ ợ ề ộ ộ ạvà khi đó ta nói t p h p này có đ pha tr n là th p ậ ợ ộ ộ ấnh t.ấ
• Khi t p ví d là thu n nh t thì có th nói: ta bi t ậ ụ ầ ấ ể ếch c ch n v giá tr phân lo i c a m t ví d thu c ắ ắ ề ị ạ ủ ộ ụ ột p này, hay ta có l ng thông tin v t p đó là cao ậ ượ ề ậnh tấ .
Entropy đo tính thu n nh t c aầ ấ ủ t p ví d ậ ụ
• Khái niệm entropy của một tập S được định nghĩa trong Lý thuyết thông tin là số lượng mong đợi các bít cần thiết để mã hóa thông tin về lớp của một thành viên rút ra một cách ngẫu nhiên từ tập S.
• Theo lý thuyết thông tin, mã có độ dài tối ưu là mã gán -log2p bits cho thông điệp có xác suất là p.
Entropy đo tính thu n nh t c aầ ấ ủ t p ậví d ụ• Entropy có giá trị nằm trong khoảng [0..1].• Entropy(S) = 0 tập ví dụ S chỉ toàn ví dụ thuộc
cùng một loại, hay S là thuần nhất. • Entropy(S) = 1 tập ví dụ S có các ví dụ thuộc các
loại khác nhau với độ pha trộn là cao nhất.• 0 < Entropy(S) < 1 tập ví dụ S có số lượng ví dụ
thuộc các loại khác nhau là không bằng nhau.
Entropy đo tính thu n nh t c aầ ấ ủ t p ậví d ụ
L ng thông tin thu đ c đo m cượ ượ ứ đ gi m ộ ảentropy mong đ iợ• Lượng thông tin thu được là phép đo hiệu suất phân loại các ví
dụ của một thuộc tính, đơn giản là lượng giảm entropy mong đợi gây ra bởi việc phân chia các ví dụ theo thuộc tính này.
Tìm ki m không gian gi thuy t trong ID3ế ả ế
• ID3 th c hi n m t phép tìm ki m t đ n gi n ự ệ ộ ế ừ ơ ảđ n ph c t p, theo gi i thu t leo-núi (hill ế ứ ạ ả ậclimbing)
Tìm ki m không gian gi thuy t trong ID3ế ả ế
• Không gian gi thuy t các cây quy t đ nh c a ID3 làả ế ế ị ủ m t ộkhông gian đ yầ đ các cây quy t đ nh trên các thu c tính ủ ế ị ộđã cho trong t p rèn luy n.ậ ệ
• Trong khi tìm ki m, ID3 ch duy trì m t gi thuy t hi n t iế ỉ ộ ả ế ệ ạ• Gi i thu t thu n ID3 không có kh năng ả ậ ầ ả quay lui trong khi
tìm ki m.ế
Tìm ki m không gian gi thuy t trong ế ả ếID3• Vì ID3 s d ng t t c các ví d m i b c đ đ a ra các ử ụ ấ ả ụ ở ỗ ướ ể ư
quyết đinh d a trên th ng kê,ự ố nên k t qu tìm ki m c a ế ả ế ủID3 r t ít b nh h ng b i m t vài d li u sai ấ ị ả ưở ở ộ ữ ệ (hay d li uữ ệ nhi u). ễ
• Trong quá trình tìm ki m, gi i thu t ID3 có xu h ng ch n ế ả ậ ướ ọcây quy t đ nh ng n h n là nh ng cây quy t đ nh dài. Đây ế ị ắ ơ ữ ế ịlà tính ch t thiên l ch quy n p c a ID3. ấ ệ ạ ủ
Đánh giá hi u su t c a cây quy t đ nh:ệ ấ ủ ế ị
• Đ c đánh giá là t t n u nh cây này có kh năng phânượ ố ế ư ả lo i đúng đ c cácạ ượ tr ng h p hay ví d sẽ g p trong ườ ợ ụ ặt ng lai, hay c th h n là có khươ ụ ể ơ ả năng phân lo iạ đúng các ví d không n m trong t p d li u rèn luy n. ụ ằ ậ ữ ệ ệ
• Đ đánh giá hi u su t c a m t cây quy t đ nh ng i ta ể ệ ấ ủ ộ ế ị ườth ng s d ng m t t p ví d tách r iườ ử ụ ộ ậ ụ ờ và t p d li uậ ữ ệ t p ậki m traể (validation set)
Chuy n cây v các lu t ể ề ậ
Khi nào nên s d ng ID3 ử ụ• Giải thuật này thuộc tiếp cận giải quyết vấn đề
dựa trên ký hiệu (symbol – based approach). • Tập dữ liệu rèn luyện ở đây bao gồm các ví dụ
được mô tả bằng các cặp “Thuộc tính – giá trị” và mỗi ví dụ đều có một thuộc tính phân loại.• ID3 sử dụng các ví dụ rèn luyện ở dạng xác suất
nên nó có ưu điểm là ít bị ảnh hưởng bởi một vài dữ liệu nhiễu.