Upload
zorion
View
92
Download
0
Embed Size (px)
DESCRIPTION
Document /categorization classification. Nội dung. Khái quát về Document/ categorization classification Các hướng nghiên cứu . Xây dựng hệ thống phân loại tài liệu và các vấn đề liên quan . Ý tưởng các thuật toán trong phân loại tài liệu KNN (K- Nearest neighbor). Naïve Bayes (NB) - PowerPoint PPT Presentation
Citation preview
DOCUMENT /CATEGORIZATION CLASSIFICATION
NỘI DUNG Khái quát về Document/ categorization classification Các hướng nghiên cứu. Xây dựng hệ thống phân loại tài liệu và các vấn đề
liên quan. Ý tưởng các thuật toán trong phân loại tài liệu
KNN (K- Nearest neighbor). Naïve Bayes (NB) Support Vector Machine (SVM). Cây quyết định (Decision Tree). Support Vector Machines Nearest Neighbor (SVM-
NN). Bài toán phân chia đa lớp (Multi Class) và các chiến
lược.
KHÁI NIỆM VỀ DOCUMENT/ CATEGORIZATION CLASSIFICATION
Phân loại (phân lớp )văn bản là công việc phân tích nội dung của văn bản và sau đó ra quyết định (hay dự đoán) văn bản này thuộc nhóm nào trong các nhóm văn bản đã cho trước.
Gồm hai giai đoạn:Học(xây dựng mô hình): rút trích đặc trưng
từ các tài liệu đã được xác định lớp.Phân lớp: với tài liệu mới (chưa xác định lớp), so
sánh với đặc trưng của từng lớp và dự đoán tài liệu này vào lớp gần nhất.
CÁC HƯỚNG TIẾP CẬN BÀI TOÁN CLASSIFICATION
Phân lớp văn bản dựa trên cách tiếp cận hệ chuyên gia
Phân lớp văn bản dựa trên cách tiếp cận máy học
PHÂN LỚP VĂN BẢN DỰA TRÊN CÁCH TIẾP CẬN HỆ CHUYÊN GIA
Hệ chuyên gia, còn gọi là hệ thống dựa tri trức, là một chương trình máy tính chứa một số tri thức đặc thù của một hoặc nhiều chuyên gia con người về một chủ đề cụ thể nào đó. …. Đây là một hệ thống sử dụng các khả năng lập luận để đạt tới các kết luận. (Wiki)
Biểu diễn chung dạng : If (DNF formula) then (category). Công thức DNF (“Disjunctive Normal Form”) là hợp của
các mệnh đề liên kếtVí dụ:
If ((“lúa mì” & “nông trại”) or (“lúa mì” & “hàng hóa”) or (“thúng để đong lúa mì” & “hàng xuất khẩu”) or (“lúa mì” & “hàng tấn”) or (“lúa mì” & “mùa đông” & ¬ “sự ôn hòa”)) then “lúa mì” else ¬ “lúa mì”
PHÂN LỚP VĂN BẢN DỰA TRÊN CÁCH TIẾP CẬN MÁY HỌC
Máy học (machine learning) : … phát triển các kĩ thuật cho phép các máy tính có thể "học“ …bằng việc phân tích các tập ,dữ liệu . (Wiki)
Xây dựng tự động một phân lớp cho tập tài liệu bằng việc quan sát các đặc trưng của tập hợp các tài liệu đã được phân bằng tay hay bởi chuyên gia về lĩnh vực từ đó, quá trình qui nạp thu lượm các đặc trưng để phân lớp một tài liệu mới.Trong kỹ thuật máy học, bài toán phân lớp là hoạt động học có giám sát, quá trình học được “giám sát” bởi tri thức của các phân lớp và của các mẫu huấn luyện thuộc chúng.
HỆ THỐNG PHÂN LOẠI VĂN BẢN VÀ CÁC VẤN ĐỀ LIÊN QUAN.
Biểu Diễn Tài liệu Bộ phân loại Bộ đánh giáVăn bản
CÁC VẤN ĐỀ MÀ HỆ THỐNG PHÂN LOẠI CẦN PHẢI QUAN TÂM VÀ GIẢI QUYẾT
Độ chính xác: Tỉ lệ càng cao thì hệ thống sẽ được đánh giá là tốt .
Tốc độ . Dễ hiểu: Một hệ thống phân loại dễ hiểu sẽ tạo cho
người sử dụng tin tưởng hơn vào hệ thống, đồng thời cũng giúp cho người sử dụng tránh được việc hiểu lầm kết quả của một luật được đưa ra bởi hệ thống.
Thời gian để học:
TIẾN TRÌNH PHÂN LOẠI VĂN BẢN
Tiền xử lý số liệu Tách từ Xác định đặc trưngVăn bản Text thuần túy Từ đã được qua xử lý
Vec
to h
óa
Bộ phân loạiVăn Bản Được phân loại
Hệ Thống Phân loại văn bản
www.miislita.com/information-retrieval-tutorial/cosine-similarity-tutorial.html
Ví dụ về quá trình xử lý văn bản trong Hệ Thống Phân loại văn bản
TIỀN XỬ LÝ SỐ LIỆUMục đích: xử lý tương đối sạch dữ liệu đọc vàoCách thực hiện: Loại bỏ các khoảng trắng nhiều hơn 1 khoảng
trắng Các dấu xuống dòng Cách dòng trống Các ký tự lạ ……
TÁCH TỪ Tách lọc (Filtration) : quá trình của sự quyết
định những từ nào nên được sử dụng để biểu diễn cho các tài liệu.
Stemming (gốc từ) : Tìm gốc từ ví dụ "walks", "walking" và "walker" được giảm lại thành "walk"
Loại bỏ các từ stopword : danh mục các từ không ảnh hưởng đến nội dung văn bản
XÁC ĐINH TRỌNG SỐ CHO TỪ Ứng với mỗi thuật toán áp dụng trong hệ
thống phân lớp mà ta đi xác định những trọng số của từ trong văn bản.
Trong bước này thường sử dụng tf (Term Frequency ) và df (Document Frequency) để thực hiện .
SỬ DỤNG THUẬT TOÁN ĐỂ PHÂN LỚP Dùng thuật toán mà hệ thống phân loại sử
dụng để phân loại dữ liệu.
CÁC THUẬT TOÁN PHÂN LỚPKNN (K- Nearest neighbor).Naïve Bayes (NB)Support Vector Machine (SVM).Cây quyết định (Decision Tree).Support Vector Machines
Nearest Neighbor (SVM-NN).
KNN (K- Nearest neighbor).
Ý tưởng chính của thuật :là so sánh độ phù hợp của văn bản d với từng nhóm chủ đề, dựa trên k văn bản mẫu trong tập huấn luyện mà có độ tương tự với văn bản d là lớn nhất
Thực hiện:- Tính khoảng (cosine)cách của văn bản cần phân lớp
với các văn bản trong tập giữ liệu mẫu.- Lấy k văn bản gần nhất với văn bản cần phân loại.- Dựa vào k văn bản mẫu này đánh trọng số cho chủ
đề .Chủ đề của các văn bản là chủ đề có trọng số lớn nhất.
“Gần “ở đây được hiểu là độ tương tự giữa các văn bản.
Example of k-NN classification. The test sample (green circle) should be classified either to the first class of blue squares or to the second class of red triangles. If k = 3 it is classified to the second class because there are 2 triangles and only 1 square inside the inner circle. If k = 5 it is classified to first class (3 squares vs. 2 triangles inside the outer circle).
Naïve Bayes (NB)
Ý tưởng thuật toán: là sử dụng xác suất có điều kiện giữa từ và chủ đề để dự đoán xác suất chủ đề của một văn bản cần phân loại.
Cách thực hiện:-Từ tập mẫu xác định ngưỡng xác xuất của
một văn bản thuộc về một chủ đề đã định nghĩa.
-Văn bản cần phân loại vào hệ thống sẽ được hệ thống tính xác suất ,nếu xác suất này thuộc vào một ngưỡng nào đó thì thuộc vào chủ đề.
Support Vector Machine (SVM).
Cho trước một tập huấn luyện được biểu diễn trong không gian vector trong đó mỗi tài liệu là một điểm, phương pháp này tìm ra một siêu mặt phẳng h quyết định tốt nhất có thể chia các điểm trên không gian này thành hai lớp riêng biệt
http://en.wikipedia.org/wiki/Support_vector_machine
Support Vector Machines Nearest Neighbor (SVM-NN).
Là một thuật toán phân lớp cải tiến gần đây nhất của phương pháp phân lớp SVM. SVM-NN là một kỹ thuật phân loại văn bản máy học sử dụng kết hợp cách tiếp cận K-láng giềng gần nhất (K-NN) với những luật ra quyết định dựa trên SVM .
Thực hiện:- Cho một mẫu để phân loại, thuật toán xác định k
mẫu gần nhất trong các mẫu dữ liệu của tập dữ liệu huấn luyện.
- Một phân loại SVM được huấn luyện trên những mẫu này.
- Sau đó, các bộ phân loại SVM được huấn luyện sẽ được sử dụng để phân loại các mẫu chưa biết.
PHÂN ĐA LỚPÝ tưởng của bài toán phân lớp đa lớp là
chuyển về bài toán phân lớp hai lớp bằng cách xây dựng nhiều bộ phân lớp hai lớp để giải quyết.
Trong hình ta thấy chiến lược OAR (hình bên trái)- OAO (hình bên phải) phải xây dựng siêu phẳng để tách lớp đánh dấu “o” ra khỏi tất cả các lớp khác.
CHIẾN LƯỢC ONE-AGAINST-ONE Ta sử dụng (n-1) bộ
phân lớp đối với n lớp. Bài toán phân lớp n lớp được chuyển thành n bài toán phân lớp hai lớp.
Nhược điểm của chiến lược OAR là ta phải xây dựng một siêu phẳng để tách một lớp ra khỏi các lớp còn lại, việc này đòi hỏi sự phức tạp và có thể không chính xác
Công nghệ, Giáo dục, Thể thao, Y tế
Bộ phân lớp
Công nghệ
Giáo dục, Thể thao, Y tế
Bộ phân lớp
Giáo dục Thể thao, Y tế
Bộ phân lớp
Thể thao Y tế
+1
-1
+1
+1
-1
-1
ONE-AGAINST-REST (OAR) Ta sử dụng n(n-1)/2
bộ phân lớp hai lớp được xây dựng bằng cách bắt cặp từng hai lớp một.
Công nghệ
Y tế
Giáo dục Bộ phân lớp
Công nghệ-Giáo dục
Công nghệ
Bộ phân lớp
Công nghệ-Thể Thao
Thể thao
Công nghệ
Giáo dục Thể thao
Giáo dục Y tế
Thể thao Y tế
Bộ phân lớp
Công nghệ-Y tế
Bộ phân lớp
Giáo dục-Thể Thao
Bộ phân lớp
Giáo dục–Y tế
Bộ phân lớp
Thể Thao-Y tế