22
Đồ thị khoảng cách của văn bản và một số ứng dụng KTLab Hà Quang Thụy Phòng Thí nghiệm Công nghệ Tri thức - KTLab Trường ĐHCN, Đại học Quốc gia Hà Nội, Ngày 31/5/2014 1 Jun e 2 0, 202 2

Đồ thị khoảng cách của văn bản và một số ứng dụng

  • Upload
    clint

  • View
    60

  • Download
    5

Embed Size (px)

DESCRIPTION

1. Đồ thị khoảng cách của văn bản và một số ứng dụng. Hà Quang Thụy Phòng Thí nghiệm Công nghệ Tri thức - KTLab Trường ĐHCN, Đại học Quốc gia Hà Nội , Ngày 31/5/2014. KTLab. Nội dung. Đồ thị khoảng cách và ứng dụng Độ đo Google chuẩn và ứng dụng Tin học xã hội. 2. - PowerPoint PPT Presentation

Citation preview

Page 1: Đồ thị khoảng cách của văn bản và một số ứng dụng

Đồ thị khoảng cách của văn bản và một số ứng dụng

KTLab

Hà Quang ThụyPhòng Thí nghiệm Công nghệ Tri thức - KTLabTrường ĐHCN, Đại học Quốc gia Hà Nội,Ngày 31/5/2014

1

April 21, 2023

Page 2: Đồ thị khoảng cách của văn bản và một số ứng dụng

N i dungộ

• Đồ thị khoảng cách và ứng dụng

• Độ đo Google chuẩn và ứng dụng

• Tin học xã hội

2

2

April 21, 2023

Page 3: Đồ thị khoảng cách của văn bản và một số ứng dụng

Đồ thị khoảng cách: giới thiệu Charu C. Aggarwal, Peixiang Zhao (2013). Towards graphical

models for text processing. Knowl. Inf. Syst. 36(1): 1-21. Charu C. Aggarwal Research Scientist, IBM T. J. Watson Research Center in Yorktown Heights, BSc.

IIT Kanpur (1993). PhD. MIT (1996). Awards: IBM Corporate (2003), IBM Outstanding Innovation (2008), IBM Research

Division (2008), IBM Outstanding Technical Achievement (2009). Associate editor of Journals : ACM TKDD, Data Mining and Knowledge Discovery,

ACM SIGKDD Explorations, and the Knowledge and Information Systems. http://www.informatik.uni-trier.de/~ley/pers/hd/a/Aggarwal:Charu_C=: 60 bài tạp chí,

135 bài hội nghị, 2 sách, …

Peixiang Zhao Assistant Professor, Florida State Univ. at Tallahassee Bsc (2001), MSc (2004), PhD (2007) HK, PhD (2012) UIUC http://www.informatik.uni-trier.de/~ley/pers/hd/z/Zhao:Peixiang.html”: 4 bài tạp chí, 16

bài hội nghị

3

Page 4: Đồ thị khoảng cách của văn bản và một số ứng dụng

Đồ thị khoảng cách: định nghĩa

Phát biểu ở đây khác đôi chút so với bài báoCho ngữ liệu C = {tài liệu miền ứng dụng} và V ={từ có

nghĩa trong C}. Ví dụ, V = {từ trong C} \ {từ dừng}Với một tài liệu D: “đồ thị khoảng cách bậc k” của D

trên C là đồ thị G(C, D, k) = (N(C), A(D, k)) với N(C) là tập đỉnh, A(D,k) là tập cung

N(C) = {nút v: vV và v xuất hiện trong D}. vV: xuất hiện ≤ 01 lần ở N(C). Trong N(C): gọi “nút i” hoặc “từ i”.

D’ nhận được từ D sau khi loại bỏ mọi từ V, giữ nguyên thứ tự các từ. Tập cung A(D,k) chứa cung (i ,j) có hướng từ nút i tới nút j nếu như từ i đi

trước từ j với khoảng cách ≤ k từ trong D’. Cung (i, j) có trọng số m nếu có nhiều nhất m lần từ i xuất hiện trước từ j với khoảng cách ≤ k ở trong D’.

4

Page 5: Đồ thị khoảng cách của văn bản và một số ứng dụng

Đồ thị khoảng cách: ví dụ từ bài báoV = {từ tiếng Anh} \ {từ dừng}D lấy từ bài đồng dao “Mary had a little lamb” là “Mary

had a little lamb, little lamb, little lamb, Mary had a little lamb, its fleece was white as snow”. D’=“Mary little lamb, little lamb, little lamb, Mary little lamb, fleece white snow”. Các đồ thị khoảng cách bậc 0,1,2:

Bậc 0: các từ đơn tự kết nối. Bâc k+1: thêm cung và thêm trọng số

5

Page 6: Đồ thị khoảng cách của văn bản và một số ứng dụng

Đồ thị khoảng cách: tính chấtTính chất “thưa”: f(D): số lượng từ có nghĩa trong D’ kế cả bội n(D): số lượng từ phân biệt trong D’ chính là số nút của đồ thị |N(C)| n(D)*(k+1) – k*(k-1)/2 ≤ |A(D,k)| ≤ f(D)*(k+1)Chứng minh trong bài báo.

Tính phẳng của tài liệu chỉ chứa từ phân biệt Đồ thị khoảng cách bậc không quá 2 tương ứng với các tài liệu chỉ chứa

các từ phân biệt là các đồ thị phẳng (planar).

Tính đơn điệu D1 là đoạn con của D2 G(C, D1, k) là đồ thị con của G(C, D2, k). Chứng minh trong bài báo. Lưu ý: Ngược lại không luôn đúng “G(C, D1, k) đồ thị con G(C, D2, k)

không D1 là đoạn con của D2”: phức tạp cấu trúc nắm bắt từ của đồ thị khoảng cách!

Cực kỳ hữu ích cho truy hồi theo đoạn text chính xác: Truy hồi thông tin dựa trên đồ thị: xác định bao đóng của tập văn bản cần tìm: hiệu quả hơn trình diễn không gian vector đánh chỉ số theo từ khóa.

6

Page 7: Đồ thị khoảng cách của văn bản và một số ứng dụng

Đồ thị khoảng cách: tính chấtTính bảo tồn đoạn giao D1, D2 có xâu chung F G(C, D1, k) và G(C, D1, k) chia sẻ đồ thị con

G(C, F, k).Suy diễn trực tiếp từ tính đơn điệu.

Tìm kiếm tài liệu có đoạn về một chủ đề Giả thiết: Một chủ đề được đặc trưng bởi tập S gồm m từ khóa liên thông xây dựng clique_có hướng_hai chiều chứa các nút (từ) này. clique_có hướng_hai chiều: mọi cặp nút đều tồn tại cung hai hướng (đồ

thị đầy đủ) và một chu trình đơn nối mọi đỉnh clique. Tần số kết hợp giao theo cung của clique với đồ thị G(C, D, k) cho biết

số lần các từ khóa tương ứng xuất hiện trong D hành vi cục bộ của chủ đề.

Tính chất xuất hiện clique hai chiều Cho F1 là clique hai chiều chứa m nút và D là tài liệu thuộc C. Cho E là

giao theo cung của tập các cung của G(C, D, k) được chứa trong F1. Gọi q là tổng các tần số của các cung trong E thì q chính là số lần các từ khóa trong các nút tương ứng với F1 xuất hiện với khoảng cách k trong tài liệu.

7

Page 8: Đồ thị khoảng cách của văn bản và một số ứng dụng

ĐTKC: Xác định chủ đề khác nhau

Xác định các đoạn liên quan các chủ đề khác nhau S1, S2 : tập từ khóa tương ứng với các chủ đề khác nhau. F1, F2: hai clique tương ứng với S1 và S2 Gọi F12 là clique chứa các nút của S1+S2 Xét E1 (D), E2 (D), E12 (D) là giao theo cung của G(C, D, k) với F1,

F2, F12. E12 (D) là bao đóng các cung của E1 (D) E2 (D) Tính cục bộ các chủ đề khi tần số các cung trong E1(D), E2(D) lớn

nhưng tần số các cung E12(D)-(E1(D) E2(D)) là nhỏ.

Bài toán xác định tính cục bộ các chủ đề Tím các tài liệu D mà tần số theo cung của (E1(D) E2(D)) là lớn hơn

s1 và tần số theo cung trong E12(D)-(E1(D) E2(D)) là nhỏ hơn s2.

8

Page 9: Đồ thị khoảng cách của văn bản và một số ứng dụng

ĐTKC: phương án vô hướng

Định nghĩa Đồ thị khoảng cách vô hướng bậc k của tài liệu D theo C là đồ thị G(C, D, k) = (N(D), A(D,

k)): N(D) như trường hợp có hướng A(D,k) là tập cung tương tự như trường hợp có hướng song được tính cả hai chiều (về

trước và về sau). Ví dụ, đồ thị khoảng cách vô hướng bậc 2 của tài liệu trong ví dụ trước: Đồ thị KC vô

hướng nhận được bằng cách đổi cung có hướng thành vô hướng. Đồ thị vô hướng giữ thông tin khoảng cách và bỏ qua thông tin thứ tự . Chưa đề cập ứng dụng đồ thị KC vô hướng song (i) dễ thi hành thuận lợi cho KPDL; (ii)

9

Page 10: Đồ thị khoảng cách của văn bản và một số ứng dụng

Đồ thị khoảng cách: ứng dụng KPDL

Hai phương án áp dụng kỹ thuật cũ với thay biểu diễn túi từ bằng biểu diễn đồ thị khoảng cách:

dề dàng thi hành. Dùng cho khai phá DL và quản lý cấu trúc: tương tác dễ dàng hơn các

phương pháp khai phá cấu trúc

Độ phức tạp tính toán Số thẻ khoảng 4-5 lần so với biểu diễn sẵn có Có thể làm chậm song không quá nặng nề.

10

Page 11: Đồ thị khoảng cách của văn bản và một số ứng dụng

Đồ thị khoảng cách: các ứng dụng KPDLPhân cụm Các thuật toán phân cụm lặp hoặc phân cấp.dựa trên “hạt giống”. Thuật toán EM.

Phân lớp .Phân lớp Bayes thơ ngây Phân lớp k-láng giềng gần nhất hoặc phân lớp trọng tâm Phân lớp dựa trên luật.

Đánh chỉ số và truy hồi entire structural fragments Tìm kiếm chính xác: đã đề cập Tìm kiếm gần đúng

Tìm kiếm đồ thị con thường xuyên Phát hiện đạo văn (Plagiarism detection) GA, GB đồ thị khoảng cách hai tài liệu MCG (GA, GB) là đồ thị con chung lớn nhất giữa hai tài liệu ..

11

Page 12: Đồ thị khoảng cách của văn bản và một số ứng dụng

Đồ thị khoảng cách: Một số bàn luận

Khoảng cách Tính sau khi loại bỏ từ dừng ? Lý do ? Nên chăng tính khoảng cách giữ nguyên từ dừng.

Áp dụng tìm kiếm mẫu trong nhật ký sự kiện Các hành động là “từ khóa”. Xây dựng đồ thị khoảng cách Mẫu tuần tự: Phân cụm Mẫu có thứ tự: Phát hiện đồ thị con thường xuyên.

Áp dụng cho các bài toán xử lý văn bản Tóm tắt văn bản: Biểu diễn câu, biểu diễn văn bản theo đồ thị khoảng cách, tính

độ quan trọng, tương tự hai cầu … Thay nút được chỉ số bằng chủ đề..

Áp dụng cho phân lớp đa nhãn, đa thể hiện văn bản Biểu diễn văn bản qua đồ thị khoảng cách Áp dụng tính chất cục bộ của chủ đề

12

Page 13: Đồ thị khoảng cách của văn bản và một số ứng dụng

Áp dụng khai phá mẫu từ nhật ký sự kiện• Hai thách thức của KPQT C2. Đối phó với nhật ký sự kiện phức tạp với đặc trưng đa dạng C4. Đối phó với sai lệch khái niệm ~ đối phó với nhật ký sự kiện quá lớn

• Một số tài liệu nghiên cứu [Aalst13] Wil M. P. van der Aalst (2013). A General Divide and Conquer

Approach for Process Mining. FedCSIS 2013: 1-10. [BA12a] R. P. Jagadeesh Chandra Bose, Wil M. P. van der Aalst

(2012). Process diagnostics using trace alignment: Opportunities, issues, and challenges. Inf. Syst. 37(2): 117-141.

[BAZP11]c R. P. Jagadeesh Chandra Bose, Wil M.P. van der Aalst, Indre Zliobaite and Mykola Pechenizkiy (2011). Handling Concept Drift in Process Mining. CAiSE 2011: 391-405.

[Bose12] R. P. Jagadeesh Chandra Bose (2012). Process Mining in the Large: Preprocessing, Discovery, and Diagnostics. PhD Thesis, Eindhoven University of Technology, The Netherlands.

13

[Manifesto12] Wil van der Aalst et al. (2012). Process Mining Manifesto, BPM 2011 Workshops (Part I, LNBIP 99), pp. 169–194.

Page 14: Đồ thị khoảng cách của văn bản và một số ứng dụng

Khai phá mẫu: Trừu tượng hóa sự kiện

14

• Trừu tượng hóa sự kiện Abstractions of Events dữ liệu sự kiện nội tại vết quy trình quá cụ thể hoặc/và có nhiều

mức trừu tượng Xâu hành động cụ thể hành động gắn với quy trình hơn

[Bose12] R. P. Jagadeesh Chandra Bose (2012). Process Mining in the Large: Preprocessing, Discovery, and Diagnostics. PhD Thesis, Eindhoven University of Technology, The Netherlands

Page 15: Đồ thị khoảng cách của văn bản và một số ứng dụng

Khai phá mẫu: Phân cụm vết

15

• Phân cụm vết Trace Clustering Các vết có tính tương đồng

[Bose12] R. P. Jagadeesh Chandra Bose (2012). Process Mining in the Large: Preprocessing, Discovery, and Diagnostics. PhD Thesis, Eindhoven University of Technology, The Netherlands

Page 16: Đồ thị khoảng cách của văn bản và một số ứng dụng

Khai phá mẫu: Tiến hóa quy trình

16

• Tiến hóa quy trình Concept Drift Quy trình thay đổi theo thời gian Các vòng đời quá trình kinh doanh khác nhau

[Bose12] R. P. Jagadeesh Chandra Bose (2012). Process Mining in the Large: Preprocessing, Discovery, and Diagnostics. PhD Thesis, Eindhoven University of Technology, The Netherlands

Page 17: Đồ thị khoảng cách của văn bản và một số ứng dụng

Trừu tượng hóa quá trình kinh doanh

17

[Smir11] Sergey Smirnov (2011). Business Process Model Abstraction. PhD Thesis, The University of Potsdam.

Page 18: Đồ thị khoảng cách của văn bản và một số ứng dụng

2. Khoảng cách Google chuẩn và ứng dụngCác tài liệu liên quan

Rudi Cilibrasi, Paul M. B. Vitányi (2004). The Google Similarity Distance “Automatic Meaning Discovery Using Google”. CoRR abs/cs/0412098.

Rudi Cilibrasi, Paul M. B. Vitányi (2007). The Google Similarity Distance. IEEE Trans. Knowl. Data Eng. 19(3): 370-383. Có 1036 citation trong Google Scholar.

Paul M. B. Vitányi (2012). Information Distance: New Developments. CoRR abs/1201.1221.

Andrew R. Cohen, Paul M. B. Vitányi (2013). Normalized Google Distance of Multisets with Applications. CoRR abs/1308.3177.

Các tác giả Paul M. B. Vitányi: DBLP có 76 bài tạp chí, 69 bài hội nghị, 69 bài thông báo, …

http://www.informatik.uni-trier.de/~ley/pers/hd/v/Vit=aacute=nyi:Paul_M=_B=.html Rudi Cilibrasi: 4 bài hội nghị, 6 bài hội nghị, 9 bài thông báo, .

http://www.informatik.uni-trier.de/~ley/pers/hd/c/Cilibrasi:Rudi.html

18

Page 19: Đồ thị khoảng cách của văn bản và một số ứng dụng

Khoảng cách Google chuẩnLập luận Đối tượng nhận được theo nghĩa đen các từ: tổ chức gene ACGT của chuột

hoặc văn bản nội dung của truyện Chiến tranh và Hòa bình của Lev Tolxtoi. Đối tượng nhận được theo tên gọi của nó: “cấu tạo gene ACGT của chuột”

hoặc “văn bản CT&HB của Lev Tolxtoi”. đối tượng chỉ nhận biết bằng tên như “home” hoặc “red” khi mà chữ cái chưa nói điều gì.

Sử dụng tri thức miền để đo tương tự “gián tiếp”. Thường gặp, ví dụ như TAC: Hai thành phần (Track) của TAC 2014 (http://www.nist.gov/tac/) là Knowledge Base Population (KBP) và Biomedical Summarization (BiomedSumm).

Khoảng cách thông tin chuẩn Cho hai xâu x và y: với K(x), K(y), K(x,y) độ phức tạp Kolmogorov, độ dài bit của CT tính ngắn nhất

sản ra xâu x, y., xy.. E(x,y) thực sự là một khoảng cách: ba tính chất

19

Page 20: Đồ thị khoảng cách của văn bản và một số ứng dụng

Khoảng cách Google chuẩnLập luận Đối tượng nhận được theo nghĩa đen các từ: tổ chức gene ACGT của chuột

hoặc văn bản nội dung của truyện Chiến tranh và Hòa bình của Lev Tolxtoi. Đối tượng nhận được theo tên gọi của nó: “cấu tạo gene ACGT của chuột”

hoặc “văn bản CT&HB của Lev Tolxtoi”. đối tượng chỉ nhận biết bằng tên như “home” hoặc “red” khi mà chữ cái chưa nói điều gì.

Sử dụng tri thức miền để đo tương tự “gián tiếp”. Thường gặp, ví dụ như TAC: Hai thành phần (Track) của TAC 2014 (http://www.nist.gov/tac/) là Knowledge Base Population (KBP) và Biomedical Summarization (BiomedSumm).

Khoảng cách thông tin chuẩn Khoảng cách thông tin hai xâu x và y: với K(x), K(y), K(x,y) độ phức tạp Kolmogorov, độ dài bit của CT tính ngắn nhất

sản ra xâu x, y., xy.. E(x,y) thực sự là một khoảng cách: ba tính chất Khoảng cách thông tin chuẩn:

20

Page 21: Đồ thị khoảng cách của văn bản và một số ứng dụng

Khoảng cách Google chuẩnKhoảng cách nén chuẩn Khoảng cách thông tin chuẩn là chưa tính toán được (uncomputable) . Dùng chương trình nén dữ liệu có sẵn để “thay thế K”. Cho bộ nén C: C(x) là độ dài nén của x Khoảng cách nén chuẩn

Khoảng cách Google chuẩn

G(x), G(x,y) là “mã hóa Google” của x và (x,y) x= {trang web chứa xâu x}; xy={trang web chứa cả 2 xâu}

Mã hóa Google

21

Page 22: Đồ thị khoảng cách của văn bản và một số ứng dụng

CÁM NƠ

22

KT-SISLAB

22