14
BÁO CÁO NGHIÊN CỨU ĐỀ BÁO CÁO NGHIÊN CỨU ĐỀ TÀI LUẬN VĂN TÀI LUẬN VĂN Giáo viên HD : TS. Nguyễn Cẩm Tú Học viên : Đỗ Thị Nương

BÁO CÁO NGHIÊN CỨU ĐỀ TÀI LUẬN VĂN

  • Upload
    alissa

  • View
    74

  • Download
    0

Embed Size (px)

DESCRIPTION

BÁO CÁO NGHIÊN CỨU ĐỀ TÀI LUẬN VĂN. Giáo viên HD : TS. Nguyễn Cẩm Tú Học viên: Đỗ Thị Nương. Nội dung. Giới thiệu đề tài Phân lớp đa nhãn Các thuật toán học đa nhãn Mối quan hệ trong phân lớp đa nhãn Định hướng nghiên cứu tiếp theo. Giới thiệu đề tài. Tên đề tài: - PowerPoint PPT Presentation

Citation preview

Page 1: BÁO CÁO NGHIÊN CỨU ĐỀ TÀI LUẬN VĂN

BÁO CÁO NGHIÊN CỨU ĐỀ BÁO CÁO NGHIÊN CỨU ĐỀ TÀI LUẬN VĂNTÀI LUẬN VĂN

Giáo viên HD : TS. Nguyễn Cẩm TúHọc viên : Đỗ Thị Nương

Page 2: BÁO CÁO NGHIÊN CỨU ĐỀ TÀI LUẬN VĂN

Nội dungNội dungGiới thiệu đề tàiPhân lớp đa nhãnCác thuật toán học đa nhãnMối quan hệ trong phân lớp đa nhãnĐịnh hướng nghiên cứu tiếp theo

226/10/2013

Page 3: BÁO CÁO NGHIÊN CỨU ĐỀ TÀI LUẬN VĂN

Giới thiệu đề tàiGiới thiệu đề tài

Tên đề tài: ◦ “Các phương pháp xác định mối quan hệ đa nhãn và

ứng dụng trong phân lớp đa nhãn tiếng Việt”.Cơ sở thực tiễn:

◦ Phân lớp đa nhãn có ứng dụng trong nhiều lĩnh vực như: Phân loại văn bản tự động và chuẩn đoán trong y học…

◦ Việc xác định mối quan hệ giữa các nhãn giữ vai trò quan trọng trong nâng cao chất lượng gán nhãn. Ví dụ: một ảnh được gán nhãn “bãi biển” sẽ loại trừ được

nhãn "sa mạc"; Các nhãn "bóng đá, câu lạc bộ, đội bóng" thường đồng xuất

hiện với nhau trong quá trình gán nhãn văn bản

326/10/2013

Page 4: BÁO CÁO NGHIÊN CỨU ĐỀ TÀI LUẬN VĂN

Phân lớp đa nhãnPhân lớp đa nhãn Bài toán phân lớp tổng quát:

◦ C = {c1, c2, …, cK}: tập K lớp

◦ X = {xi} (i=1,2,…) là không gian các đối tượng cần phân lớp

◦ Xây dựng một ánh xạ f : X → C◦ Ánh xạ f được gọi là mô hình phân lớp (classification model, classifier)◦ Xây dựng mô hình f bằng học giám sát (supervised learning)

D = {(x1, c1), (x2, c2), …, (xN, cN)} trong đó xn ∈ X, cn C là tập dữ liệu huấn luyện ∈(training data)

Huấn luyện mô hình f dựa trên tập huấn luyện D sao cho f phân lớp chính xác nhất có thể.

Phân lớp đơn nhãn

◦ ci chỉ bao gồm 1 phần tử duy nhất. Phân lớp đa nhãn

◦ ci > 1 phần tử

426/10/2013

Page 5: BÁO CÁO NGHIÊN CỨU ĐỀ TÀI LUẬN VĂN

Các giải thuật học đa Các giải thuật học đa nhãnnhãn1. Binary Relevance(BR)2. Label Powerset (LP)3. Classifier Chain4. Multi-label k-Nearest Neighbors

(MLkNN)

526/10/2013

Page 6: BÁO CÁO NGHIÊN CỨU ĐỀ TÀI LUẬN VĂN

Các giải thuật học đa nhãn(tt)Các giải thuật học đa nhãn(tt)

Không xét đến đặc trưng của các thể hiện.

Xét tập dữ liệu huấn luyện: Tập các thể hiện X = {1, 2, 3, 4}Xét tập lớp Y = {y1, y2, y3, y4}

Instance Label1 {y2, y3}2 {y1}3 {y1, y2, y3}4 {y2, y4}

626/10/2013

Page 7: BÁO CÁO NGHIÊN CỨU ĐỀ TÀI LUẬN VĂN

Binary Relevance(BR)Binary Relevance(BR)Ý tưởng : Sử dụng phương pháp chuyển đổi

nhị phân, xây dựng một bộ nhị phân cho từng nhãn trong tập nhãn.◦ Tạo k tập dữ liệu ( k = số lượng nhãn) cho

từng nhãn◦ Mỗi tập có số thể hiện như tập dữ liệu

nguồn◦ Trong mỗi tập sẽ gán nhãn cho các thể

hiện là thuộc hoặc không thuộc lớp Yj. ( Bộ phân lớp nhị phân)Ex Label

1 ¬y12 y13 y14 y1

Ex Label1 y22 ¬y23 y24 y2

Ex Label1 y32 ¬y33 y34 ¬y3

Ex Label1 ¬y42 ¬y43 ¬y44 y4

726/10/2013

Page 8: BÁO CÁO NGHIÊN CỨU ĐỀ TÀI LUẬN VĂN

Label Powerset (LP)Label Powerset (LP)Ý tưởng: Xem mỗi tập nhãn trong tập dữ

liệu như là một nhãn đơn.◦Tiến hành việc phân lớp đơn nhãn◦Tập các nhãn con tạo ra là lớn.

Instance Label1 y2,3

2 y1

3 y1,2,3

4 y2,4

Instance Label1 {y2, y3}2 {y1}3 {y1, y2, y3}4 {y2, y4}

826/10/2013

Page 9: BÁO CÁO NGHIÊN CỨU ĐỀ TÀI LUẬN VĂN

Các giải thuật học đa Các giải thuật học đa nhãn(tt)nhãn(tt)Binary Relevance(BR): Coi các nhãn là độc lập

không có quan hệ với nhau.Label Powerset (LP): Có xét đến quan hệ các

nhãn.

Vấn đề khi các nhãn có quan hệ với nhau, và số lượng nhãn lớn.

Với dữ liệu văn bản có kích thước lớn, chứa đựng nhiều thông tin chủ chốt, cũng như thông tin nhiễu. Vì vậy, cần có một phương pháp cho việc lựa chọn đặc trưng để có thể tối giản bài toán phân lớp.

926/10/2013

Page 10: BÁO CÁO NGHIÊN CỨU ĐỀ TÀI LUẬN VĂN

Mối quan hệ trong phân lớp Mối quan hệ trong phân lớp đa nhãnđa nhãnKiểu quan hệ bậc nhất: các nhãn được giả thiết là

độc lập. Nói cách khác, mối quan hệ đa nhãn không được tận dụng trong phân lớp đa nhãn.

Kiểu quan hệ bậc hai: các mối quan hệ theo cặp, ví như: mối quan hệ giữa “nhãn phù hợp” và “nhãn không phù hợp” trong quá trình xếp hạng nhãn.

Kiểu quan hệ bậc cao: ví như quan hệ toàn bộ theo đó toàn bộ các nhãn đều có ảnh hưởng tới việc phân lớp mỗi nhãn; hoặc quan hệ bộ phận trong đó với một nhãn nhất định, tồn tại một nhóm con trong số toàn bộ các nhãn có ảnh hưởng tới việc phân lớp nhãn được xét.

1026/10/2013

Page 11: BÁO CÁO NGHIÊN CỨU ĐỀ TÀI LUẬN VĂN

Mối quan hệ trong phân lớp Mối quan hệ trong phân lớp đa nhãn(tt)đa nhãn(tt)Bayesian network.Maximum Entropy

1126/10/2013

Page 12: BÁO CÁO NGHIÊN CỨU ĐỀ TÀI LUẬN VĂN

Định hướng nghiên cứu tiếp Định hướng nghiên cứu tiếp theotheoTìm hiểu về các giả thuật học đa nhãn:

◦Bayesian network.◦Maximum Entropy

Tìm hiểu phương pháp lựa chọn đặc trưng.◦LDA…

Khảo sát công cụ WEKA và thư viện MULAN

Khảo sát việc ứng dụng trong phân lớp đa nhãn tiếng Việt

1226/10/2013

Page 13: BÁO CÁO NGHIÊN CỨU ĐỀ TÀI LUẬN VĂN

Tài liệu tham khảoTài liệu tham khảo[1] Sorower, Mohammad S. "A literature survey on algorithms for multi-label learning." Preprint 63 (2010).

[2] Zhang, Min-Ling, and Kun Zhang. "Multi-label learning by exploiting label dependency." Proceedings of the 16th ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2010

[3] Min-LingZhangandKunZhang. Multi-label learning by exploiting label dependency. In

Proceedings of the 16th ACMSIGKDD international conference on Knowledge discovery and data mining, KDD’10, pages 999–1008, NewYork, NY, USA, 2010. ACM.

1326/10/2013

Page 14: BÁO CÁO NGHIÊN CỨU ĐỀ TÀI LUẬN VĂN

Cảm ơn thầy cô và các bạn đã lắng nghe!

1426/10/2013