NGHIÊN CỨU, CẢI TIẾN PHƯƠNG PHÁP MỞ RỘNG TRUY VẤN …

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

PHẠM THỊ THU UYÊN

NGHIÊN CỨU, CẢI TIẾN PHƯƠNG PHÁP MỞ RỘNG TRUY

VẤN VÀ TÍCH HỢP VÀO HỆ THỐNG TÌM KIẾM TIẾNG VIỆT

LUẬN VĂN THẠC SĨ

Hà Nội - 2011

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

PHẠM THỊ THU UYÊN

NGHIÊN CỨU, CẢI TIẾN PHƯƠNG PHÁP MỞ RỘNG TRUY

VẤN VÀ TÍCH HỢP VÀO HỆ THỐNG TÌM KIẾM TIẾNG VIỆT

Ngành: Công nghệ thông tin

Chuyên ngành: Hệ thống thông tin

Mã số: 60.48.05

LUẬN VĂN THẠC SĨ

Người hướng dẫn khoa học: PGS.TS Hà Quang Thụy

Hà Nội - 2011

Lời cảm ơn!

Lời đầu tiên tôi xin gửi lời cảm ơn chân thành và biết ơn sâu sắc tới PGS.TS. Hà

Quang Thuỵ, người thầy đã chỉ bảo và hướng dẫn tận tình cho tôi trong suốt quá trình

nghiên cứu khoa học và thực hiện luận văn này.

Tôi xin chân thành cảm ơn sự giúp đỡ, tạo điều kiện và khuyến khích tôi trong quá

trình làm việc và nghiên cứu của tập thể anh chị em tại Phòng thí nghiệm Công nghệ tri

thức và Tương tác người máy, Trường Đại học Công nghệ.

Và cuối cùng, tôi xin gửi lời cảm ơn tới gia đình, người thân và bạn bè – những

người luôn ở bên tôi những lúc khó khăn nhất, luôn động viên tôi, khuyến khích tôi trong

cuộc sống và trong công việc.

Tôi xin chân thành cảm ơn!

Học viên

Phạm Thị Thu Uyên

Lời cam đoan

Tôi xin cam đoan luận văn được hoàn thành trên cơ sở nghiên cứu, tổng hợp và

phát triển các nghiên cứu của bài toán Mở rộng truy vấn từ các nguồn trong nước và trên

thế giới do tôi thực hiện.

Luận văn này là mới, các đề xuất trong luận văn do chính tôi thực hiện, qua quá

trình nghiên cứu đưa ra và không sao chép nguyên bản từ bất kì một nguồn tài liệu nào

khác.

Mục lục

Mở đầu ............................................................................................................................... 10

Chương 1. Bài toán Mở rộng truy vấn trong hệ thống tìm kiếm ........................................ 12

1. 1. Giới thiệu hệ thống tìm kiếm ................................................................................ 12

1. 2. Bài toán Mở rộng truy vấn .................................................................................... 13

1.2. 1. Định nghĩa bài toán Mở rộng truy vấn ........................................................... 13

1.2. 2. Một số cần quan tâm khi thực hiện mở rộng truy vấn ................................... 14

1. 3. Tóm tắt chương 1 .................................................................................................. 16

Chương 2. Một số phương pháp mở rộng truy vấn ............................................................ 17

2.1 Phương pháp thủ công .......................................................................................... 17

2.2 Phương pháp tự động ............................................................................................ 18

2.2.1 Mối quan hệ giữa các khái niệm ......................................................................... 18

2.2.2. Một số nghiên cứu về mở rộng truy vấn sử dụng tập từ điển ............................ 22

2.3 Phương pháp kết hợp ............................................................................................ 23

2.3.1 Tự động sinh ra tập từ đồng nghĩa ................................................................. 23

2.3.2 Phương pháp sử dụng query log..................................................................... 23

2.3.3 Mở rộng truy vấn dựa vào tập từ đồng nghĩa và hình thức biểu diễn từ. ....... 26

2.3.4 Mở rộng truy vấn sử dụng đồ thị khái niệm wikipedia .................................. 27

2.4 Tóm tắt chương 2 .................................................................................................. 29

Chương 3. Mô hình đề xuất ................................................................................................ 30

3.1 Cơ sở thực tiễn ...................................................................................................... 30

3.2 Mở rộng truy vấn .................................................................................................. 31

3.3 Mô hình hệ thống tìm kiếm thực thể áp dụng cho tiếng Việt ............................... 36

3.4 Tóm tắt chương 3 .................................................................................................. 37

Chương 4. Thực nghiệm và đánh giá ................................................................................. 38

4.1. Môi trường thực hiện ............................................................................................ 38

4.2. Quá trình thực nghiệm .......................................................................................... 38

4.2.1. Nội dung, kịch bản thực nghiệm .................................................................... 38

4.2.2. Thực nghiệm mở rộng truy vấn ...................................................................... 39

Tài liệu tham khảo .............................................................................................................. 52

Danh sách hình vẽ

Hình 1. Mô hình hệ thống tìm kiếm .................................................................................. 12

Hình 2. Các câu truy vẫn hỗ trợ khi nhập câu truy vấn “Hồ Chí Minh” ........................... 15

Hình 3. Mô hình của phương pháp xây dựng khối (building block) ................................. 18

Hình 4. Mối liên hệ giữa từ “car” với các từ khác thông qua các mối quan hệ ................ 19

Hình 5. Giới thiệu về YAGO ............................................................................................ 21

Hình 6. Đồ thị mô tả mối quan hệ cho câu truy vấn “jaguar”. .......................................... 25

Hình 7. Mô hình Mở rộng truy vấn sử dụng đồ thị khái niệm Wikipedia......................... 27

Hình 8. Mô hình Mở rộng truy vấn ................................................................................... 31

Hình 9. Mô hình chung của hệ thống tìm kiếm ................................................................. 36

Hình 10. Đồ thị mối quan hệ giữa các câu truy vấn chứa từ “máy tính” .......................... 45

Danh sách bảng

Bảng 1. Mối quan hệ ngữ nghĩa trong WordNet ................................................................ 20

Bảng 2. Tập câu truy vấn và session .................................................................................. 33

Bảng 3. Cấu hình phần cứng sử dụng trong thực nghiệm .................................................. 38

Bảng 4. Một số phần mềm sử dụng .................................................................................... 38

Bảng 5. Tập 10 câu truy vấn đầu tiên trong một phiên giao dịch của người dùng ............ 41

Bảng 6. Một số câu truy vấn và link kết quả các phiên giao dịch của người dùng ............ 42

Bảng 7. Thống kê số truy vấn, phiên giao dịch và tập luật liên kết dựa vào tập query log

ngày 11/04/2009 ................................................................................................................. 43

Bảng 8. Tập 20 câu truy vấn đầu tiên chứa từ “máy tính” ................................................. 43

Bảng 9. Một số luật liên kết giữa các câu truy vấn có chứa từ “máy tính” ........................ 44

Bảng 10. Thống kê số câu truy vấn chứa từ “máy tính” và tập luật liên kết .................... 44

Bảng 11. Tập 20 khái niệm liên quan câu truy vấn “máy tính” trọng số cao nhất ............. 46

Bảng 12. Một số các câu truy vấn mở rộng cho truy vấn “máy tính” ................................ 47

Bảng 13. Kết quả mở rộng truy vấn của một số câu truy vấn ............................................ 48

Bảng 14. Số lượng trang web tìm được khi thực hiện tìm kiếm ........................................ 49

Bảng 15. Số lượng trang web có nội dung khác nhau ........................................................ 49

Bảng 16. Số lượng trang web thực sự chứa cụm từ truy vấn ............................................ 50

Bảng viết tắt

STT Viết tắt Giải thích

1 WWW World Wide Web

2 TREC Text Retrieval Conference

3 TF Term Frequency

4 HAC Hierachical Agglomerative Clustering

Mở đầu

Các bài toán cơ bản cho trong xử lý ngôn ngữ tự nhiên vẫn luôn nhận được sự

quan tâm đặc biệt từ các nhà nghiên cứu. Đây là nền tảng cho việc xây dựng và phát triển

các bài toán ứng dụng khác. Mở rộng truy vấn là một trong số đó, bài toán này được đã

được nhiều nhà nghiên cứu quan tâm tới từ lâu [8, 12, 15, 13] và hiện nay vẫn được

nghiên cứu và cải tiến. Bài toán mở rộng tập truy vấn với mục đích xác định cụ thể mục

đích, ngữ cảnh tìm kiếm của người sử dụng thông qua việc bổ sung thêm một số từ, khái

niệm liên quan nhằm đưa ra những kết quả chính xác đáp ứng nhu cầu của người dùng.

Đồng thời, mở rộng truy vấn được ứng dụng trong nhiều bài toán khác như: Hệ thống tìm

kiếm [14, 21], Hệ thống hỏi đáp [14],…Vì vậy, bài toán Mở rộng truy vấn đã nhận được

sự quan tâm từ các nhà nghiên cứu tại các hội nghị lớn trên thế giới trong những năm gần

đây như: ACM1, WWW2, Text Retrieval Conference (TREC)3….

Trong thời gian gần đây, mặc dù đã có nhiều phương pháp mới đưa ra nhằm cải

tiến việc mở rộng truy vấn nhưng đây vẫn là bài toán nhận được nhiều sự quan tâm từ các

nhà nghiên cứu cho các ngôn ngữ nói chung và tiếng Việt nói riêng. Tương tự như tiếng

Anh, mở rộng truy vấn cũng là một bài toán được đề cập nhiều từ xưa tới nay nhằm cải

tiến việc tìm kiếm để đưa ra kết quả chính xác trong các hệ thống như Hệ thống tìm kiếm,

Hệ thống hỏi đáp,... Việc đưa ra một phương pháp tốt nhất cho tiếng Việt hiện nay vẫn

đang là một vấn đề còn gặp nhiều khó khăn do hiện tại các kĩ thuật về xử lý ngôn ngữ, tài

nguyên ngôn ngữ học cũng như các kĩ thuật xử lý còn đang dần được hoàn thiện. Vì thế,

nhiều bài toán xử lý cho ngôn ngữ tiếng Việt còn gặp nhiều hạn chế.

Mục tiêu của luận văn này là tìm ra phương pháp nhằm nâng cao chất lượng kết

quả tìm kiếm của hệ thống tìm kiếm tiếng Việt. Để thực hiện công việc trên, luận văn

thực hiện khảo sát, nghiên cứu để đề xuất một phương pháp Mở rộng truy vấn tối ưu cho

ngôn ngữ Tiếng Việt. Để tiếp cận mục tiêu này, luận văn nghiên cứu và giới thiệu một số

phương pháp Mở rộng truy vấn được nghiên cứu từ trước tới nay, chú trọng tới các

phương pháp cập nhật. Từ đó, luận văn đề xuất mô hình pháp mở rộng truy vấn bằng

phương pháp sử dụng query log dựa trên nghiên cứu của Bruno và các cộng sự, 2005[4].

1http://www.acm.org/conferences

2http://www.iw3c2.org/conferences/index_html

3http://trec.nist.gov/

Thêm vào đó, luận văn áp dụng mô hình đề xuất vào Hệ thống tìm kiếm tiếng Việt. Thông

qua kết quả cung cấp cho người dùng khi sử dụng Hệ thống tìm kiếm, hệ thống cũng đánh

giá được hiệu quả của Mô hình xử lý cho bài toán Mở rộng truy vấn.

Nội dung của luận văn được chia thành các chương như sau:

Chương 1: Bài toán Mở rộng truy vấn trong hệ thống tìm kiếm. Chương này giới

thiệu sơ lược về mô hình của hệ thống tìm kiếm. Các bài toán liên quan để cải tiến

kết quả của Hệ thống tìm kiếm. Tiếp đó, trình bày định nghĩa về bài toán Mở rộng

truy vấn và một số vấn đề gặp phải

Chương 2: Một số phương pháp thực hiện mở rộng truy vấn giới thiệu một số

phương pháp mở rộng truy vấn tiêu biểu đã được đưa ra từ trước tới nay

Chương 3: Đề xuất mô hình Mở rộng truy vấn và mô hình cho Hệ thống tìm

kiếm tiếng Việt. Chương này thực hiện phân tích, đề xuất một phương pháp để giải

quyết bài toán Mở rộng truy vấn cho tiếng Việt và trình bày việc áp dụng phương

pháp đề xuất để xây dựng Hệ thống tìm kiếm tiếng Việt

Chương 4: Một số thực nghiệm và kết quả đạt được trình bày quá trình thực

nghiệm của luận văn và đưa ra một số đánh giá, nhận xét các kết quả đạt được.

Chương 1. Bài toán Mở rộng truy vấn trong hệ thống tìm kiếm

Tìm kiếm thông tin là nhu cầu cần thiết trong cuộc sống, con người có được thông tin từ

rất nhiều nguồn tài liệu khác nhau như sách vở, tạp chí,… Hiện nay, việc tin học hóa vào

cuộc sống ngày càng cao và thời đại thông tin bùng nổ thì Internet là một trong những

nguồn tài liệu mà con người thường sử dụng nhất. Internet là một kho dữ liệu đồ sộ, tuy

nhiên để khai thác được nó là một thách thức lớn vì dữ liệu trên Internet quá đa dạng và

không có cấu trúc. Vì thế, để tìm được thông tin cần thiết và chính xác với mong muốn

của người sử dụng là một bài toán khó. Chương này sẽ giới thiệu tổng quát về hệ thống

tìm kiếm và trình bày bài toán Mở rộng truy vấn để giải quyết vấn đề trên.

1. 1. Giới thiệu hệ thống tìm kiếm

Thông tin trên World Wide Web rất đa dạng và là kho dữ liệu lớn. Tuy nhiên, để

khai thác nguồn tri thức này một cách hiệu quả là một vấn đề lớn. Đặc biệt khi lượng

thông tin ngày càng nhiều và luôn thay đổi. Ngoài ra, hình thức thông tin cũng ngày càng

đa dạng, từ văn bản tới âm thanh, hình ảnh,… Vì vậy sẽ gây khó khăn cho người dùng

trong việc tìm kiếm thông tin. Do đó, cần phải tổ chức, quản lý thông tin từ www cho phù

hợp nhằm thuận lợi cho việc khai thác. Máy tìm kiếm ra đời là một công cụ hữu ích cho

việc khai thác thông tin. Kiếm trúc chung của một hệ thống tìm kiếm được mô tả theo như

hình 1 bên dưới

Hình 1. Mô hình hệ thống tìm kiếm

Các module của hệ thống tìm kiếm bao gồm:

- Thu thập dữ liệu (Crawler): Thành phần này chịu trách nhiệm đi dọc theo các

siêu liên kết trên WWW để thu thập các trang web để đảm bảo tính đầy đủ, và tươi

mới của thông tin.

- Đánh chỉ mục (Indexer): Thành phần này thực hiện việc lưu trữ nội dung các

trang Web theo cấu trúc chỉ mục ngược đảm bảo việc truy suất nhanh thông tin.

- Xử lý truy vấn (Query Engine): Thành phần này thực hiện xử lý với các truy vấn

của người dùng rồi chuyển về dạng phù hợp thực hiện cho việc tìm kiếm.

- Xếp hạng (Ranking): Thành phần này thực hiện việc xếp hạng lại kết quả các

trang theo độ phù hợp với câu truy vấn trước đi khi trình bày tới người dùng.

Như đã đánh giá, để đưa ra được kết quả chính xác theo mong muốn của người sử

dụng thì hệ thống tìm kiếm phải ngày càng được hoàn thiện. Để tăng độ chính xác và cải

thiện hệ thống, có rất nhiều bài toán con được đặt ra. Dựa vào mô hình chung của hệ

thống tìm kiếm, ta có thể thấy một số bài toán được đề cập đến như: Xử lý truy vấn ban

đầu, việc thu thập dữ liệu, bài toán đánh chỉ mục dữ liệu hay bài toán xếp hạng,… Đây là

những bài toán đã nhận được nhiều nhà nghiên cứu đưa ra giải pháp nhằm cải thiện kết

quả [5][6].

Đối với luận văn này, chúng tôi đánh giá muốn một hệ thống tìm kiếm có thể đưa

ra kết quả chính xác cho người dùng thì hệ thống đó phải hiểu được người dùng mong

muốn tìm kiếm điều gì? Tức là phải hiểu được câu truy vấn người dùng nhập vào hay các

thông tin về ngữ cảnh, mục đích tìm kiếm phải xác định được. Với suy nghĩ trên, luận văn

này thực hiện tập trung vào bài toán xử lý truy vấn ban đầu, một trong những phương

pháp được đề cập là thực hiện Mở rộng truy vấn.

1. 2. Bài toán Mở rộng truy vấn

1.2. 1. Định nghĩa bài toán Mở rộng truy vấn

Khi sử dụng Hệ thống tìm kiếm, người dùng sẽ nhập vào câu truy vấn để trả về một

tập tài liệu có nội dung liên quan. Tuy nhiên, có rất nhiều kết quả được trả về với những

nội dung khác nhau, cụ thể như sau:

- Khi nhập vào hệ thống một câu truy vấn, hệ thống sẽ trả về nhiều khái niệm đồng

nghĩa

Ví dụ: nhập từ khóa “cafe”, kết quả trả về có thể có những tài liệu có thông tin liên

quan tới từ khóa “café”. Tuy nhiên, cũng có những tài liệu có nội dung liên quan

tới khái niệm “restaurant”. Vì vậy, dựa vào tập tài liệu trả về bao gồm thông tin

của cả 2 khái niệm trên, người dùng có thể tìm được thông tin đúng với yêu cầu.

- Trường hợp khác, hệ thống cũng có thể trả về những tập tài liệu chứa câu truy vấn

nhưng có thông tin khác nhau.

Ví dụ: Nhập từ “apple”, hệ thống có thể trả về các tập tài liệu chứa từ khóa và các

từ khóa liên quan như “company” và “fruit”

Từ “apple”, có nghĩa là quả táo. Có thể liên tưởng tới việc người dùng muốn tìm

thông tin liên quan tới một loại trái cây. Tuy nhiên, “apple” cũng là thương hiệu

của một công ty sản xuất máy tính nổi tiếng. Vì vậy, để tìm được đúng tài liệu

mong muốn, người dùng phải thực hiện tìm kiếm trong tập tài liệu trả về. Điều này

gây bất tiện cho người sử dụng.

Nhận xét: Khi người dùng nhập vào các từ khóa không “tốt”, tức các từ khóa đa

nghĩa, không có ý nghĩa hoặc từ khóa thiếu thông tin về miền tri thức tìm kiếm. Thông

qua máy tìm kiếm, kết quả trả về sẽ bao gồm nhiều thông tin và người dùng sẽ mất thêm

thời gian cho việc tìm kiếm để có được thông tin mà mình mong muốn. Để giải quyết vấn

đề trên, bài toán “Mở rộng truy vấn” được đặt ra nhằm bổ sung thêm thông tin và xác

định ngữ cảnh giúp hệ thống tìm kiếm đưa ra kết quả chính xác nhất.

Định nghĩa: Mở rộng truy vấn là quá trình bổ sung một số từ vào truy vấn của

người dùng nhằm tạo ra các truy vấn mới tương đồng ngữ nghĩa, để từ đó giúp hệ thống

có thêm thông tin theo ngữ cảnh nhằm cải tiến các kết quả truy vấn [19].

Ví dụ: Câu truy vấn của người dùng: “car”

Sau khi mở rộng truy vấn, câu truy vấn mở rộng sẽ bao gồm: car, cars, automobile,

auto,..

Theo Efthimiadis [7] đã nhận xét phần lớn các lợi ích thu được trong việc tìm kiếm

thông tin có độ truy hồi cao phụ thuộc vào việc so trùng các từ khóa. Đối với việc mở

rộng truy vấn, hệ thống xác định ngữ nghĩa truy vấn được chính xác hơn, điều đó cho

phép kết quả truy vấn tốt hơn. Thông qua kết quả truy vấn mở rộng, người dùng có thể

học tập cách phát biểu truy vấn rõ ràng và chính xác hơn để thu được các kết quả hữu ích.

1.2. 2. Một số cần quan tâm khi thực hiện mở rộng truy vấn

Năm 2010, qua quá trình nghiên cứu Sean [19] đã đưa ra hai vấn đề cần quan tâm tới khi

thực hiện bài toán mở rộng truy vấn là:

Nguồn dữ liệu

Các khái niệm như thế nào được sử dụng cho việc mở rộng truy vấn? Tức là ta

quan tâm tới nguồn thông tin được sử dụng cho việc mở rộng truy vấn để đảm bảo bao

trùm được toàn bộ được tất cả các ý nghĩa của câu truy vấn.

Hiện nay, nhiều máy tìm kiếm cũng đã hỗ trợ người dùng trong việc bổ sung thêm

thông tin vào câu truy vấn.Ví dụ: Như máy tìm kiếm Google hỗ trợ cho câu truy vấn “Hồ

Chí Minh” như sau:

Hình 2. Các câu truy vẫn hỗ trợ khi nhập câu truy vấn “Hồ Chí Minh”

Dựa vào những gợi ý của Google thì những câu truy vấn trên chỉ là bổ sung thêm

các thông tin để nói đến một người, có thể là Bác Hồ hay Nguyễn Ái Quốc, Nguyễn Tất

Thành. Tuy nhiên, khi nhập vào câu truy vấn “Hồ Chí Minh”, người dùng cũng có thể

mong muốn tìm kiếm những thông tin liên quan tới một địa danh như “Thành phố Hồ Chí

Minh”, hay những thông tin khác như “Giải thưởng Hồ Chí Minh”, “tư tưởng Hồ Chí

Minh”,….

Ta có thể nhận thấy, những thông tin gợi ý mở rộng trên của máy tìm kiếm Google

chưa bao hàm hết được những thông tin có thể được mở rộng của câu truy vấn ban đầu.

Vì vậy, ta cần quan tâm tới nguồn dữ liệu phục vụ cho việc mở rộng truy vấn phải đảm

bảo có đầy đủ thông tin về câu truy vấn.

Độ đo được sử dụng cho việc đánh trọng số các khái niệm

Để có thể đưa ra những câu truy vấn mở rộng nhằm làm rõ ý nghĩa cũng như ngữ

cảnh cho câu truy vấn thì cần phải có một cách thức đánh giá thứ tự ưu tiên cho các khái

niệm có liên quan, hay cần phải có một phương thức hay độ đo để đánh trọng số cho các

khái niệm.

1. 3. Tóm tắt chương 1

Trong chương này, luận văn giới thiệu khái quát về kiến trúc chung của hệ thống tìm

kiếm, một số bài toán được đặt ra nhằm cải thiện độ chính xác cho hệ thống. Đồng thời,

đề cập tới bài toán Mở rộng truy vấn – một phương pháp xử lý truy vấn đầu vào cho hệ

thống tìm kiếm. Trong chương tiếp theo, luận văn trình bày một số phương pháp Mở rộng

truy vấn đã được nghiên cứu và công bố.

Chương 2. Một số phương pháp mở rộng truy vấn

Mở rộng truy vấn được nhiều nhà khoa học trên thế giới quan tâm vào có nhiều

công trình nghiên cứu về bài toán này [13, 15, 18]. Đã có rất nhiều nhóm giải pháp và

hướng tiếp cận khác nhau, mỗi phương pháp có những ưu nhược điểm riêng. Chương này

thực hiện trình bày các phương pháp đã được nghiên cứu và áp dụng vào Hệ thống tìm

kiếm, Hệ thống hỏi đáp, mỗi phương pháp trình bày một hướng xử lý cụ thể.

Bài toán mở rộng truy vấn được đặt ra trong việc xây dựng truy vấn ban đầu cho

việc tìm kiếm trực tuyến. Theo Efthimiadis [8], các phương pháp chính được sử dụng để

mở rộng truy vấn như sau:

- Phương pháp thủ công

- Phương pháp tự động

- Phương pháp kết hợp

2.1 Phương pháp thủ công

Đây là mở rộng truy vấn chủ yếu kết hợp việc tìm kiếm Boolean. Có rất nhiều mô

hình tìm kiếm trực tuyến đã được phát triển dựa trên mô hình Boolean và các phương

pháp tương tác giữa người dùng và hệ thống truy hồi. Có nhiều phương pháp được công

bố, như: xây dựng khối (building block), tìm kiếm đơn giản (brief search), successive

fraction,…

Phương pháp xây dựng khối (building block):

Được MARKEY và COCHRANE đưa ra năm 1981 [15],phương pháp này được người

dùng sử dụng thường xuyên.

Phương pháp này gồm các bước chính sau:

- Bước 1: Dựa vào câu truy vấn ban đầu, người tìm kiếm (người dùng hệ thống) sẽ

thực hiện phân tích chủ đề của câu truy vấn

- Bước 2: Dựa vào chủ đề của câu truy vấn được xác định, tiếp tục phân tích và đưa

ra một tập các khái niệm có liên quan.

o Việc lựa chọn các khái niệm liên quan dựa vào mối quan hệ từ đồng nghĩa

(synonyms) và từ gần nghĩa (quasi-synonyms).

- Bước 3:

o Tất cả các khái niệm trong tập khái niệm được xác định ở bước 2, nối với

nhau bởi phép toán OR, làm đầu vào cho máy tìm kiếm.

o Đầu ra tương ứng với mỗi câu truy vấn sẽ có các tài liệu có nội dung liên

quan. Các tập tài liệu này được nối với nhau bằng phép toán AND.

Ví dụ: Có một khái niệm t. Sau khi người dùng phân tích khái niệm trên sẽ đưa ra 3

chủ đề có liên quan tới khái niệm t là A, B, C. Từ các chủ đề lựa chọn các khái niệm

có liên quan tới câu truy vấn, thực hiện lựa chọn các khái niệm đồng nghĩa hoặc gần

nghĩa

Term A1 Term B1 Term C1

Term (A1,..., An) OR-ed Term (B1,..., An) OR -ed Term (C1,..., Cn) OR-ed

AND-ed

Hình 3. Mô hình của phương pháp xây dựng khối (building block)

2.2 Phương pháp tự động

Phương pháp này tận dụng các khái niệm có sẵn trong tập từ điển và các mối quan hệ giữa

chúng để thực hiện mở rộng truy vấn.

2.2.1 Mối quan hệ giữa các khái niệm

Mối quan hệ giữa các khái niệm (khái niệm ở đây có thể là một từ hoặc một cụm

danh từ) được biểu diễn dưới dạng cấu trúc phân cấp. Dựa vào những đặc trưng và đặc

tính ngữ nghĩa, ta có thể phân thành nhiều loại mối quan hệ khác nhau.

Theo Girju, một số mối quan hệ ngữ nghĩa quan trọng là thường dùng để thể hiện

mối quan hệ giữa các khái niệm như: hyponymy/ hypernymy (is - a),

meronymy/holonymy (part - whole), synonymy và antonymy [11]. Ngoài ra, các khái

niệm và mối quan hệ giữa chúng cũng được thể hiện thông qua các tập corpus, từ điển

ngôn ngữ học,….Vì thế, cũng có rất nhiều mối quan hệ khác nhau để biểu diễn chúng.

Giới thiệu về WordNet

WordNet4 là một từ điển trực tuyến trong Tiếng Anh, được phát triển bởi các nhà

từ điển học trường đại học Princeton. WordNet bao gồm khoảng 100.000 khái niệm bao

gồm danh từ, động từ, tính từ, phó từ liên kết với nhau thông qua 17 mối quan hệ (được

mô tả trong bảng 1) [11]. Thông thường, người ta thường hay sử dụng WordNet cho việc

tìm kiếm các mối quan hệ ngữ nghĩa. Đồng thời, dựa vào các mối quan hệ này, một từ

trong WordNet có thể tìm được các mối liên hệ với các khái niệm khác.

Ví dụ: Từ “car” trong WordNet có thể tìm được mối liên hệ với các từ như:

Vehicle, Owner, Wheels, high,… thông qua các mối quan hệ như: is-a, has part,

hasOwner, hasSpeed,… (như hình 4)

Hình 4. Mối liên hệ giữa từ “car” với các từ khác thông qua các mối quan hệ

4http://wordnet.princeton.edu/

Bảng 1. Mối quan hệ ngữ nghĩa trong WordNet

Mối quan hệ Các khái niệm được liên kết

với nhau bởi mối quan hệ Ví dụ

Hypernymy

(is - a)

Danh từ - Danh từ

Động từ - Động từ

Cat is-a feline

Manufacture is-a make

Hyponymy

(reverse is-a)

Feline reverse is-a cat

Manufacture reverse is-a make

Is-part-of Danh từ - Danh từ Leg is-part-of table

Has-part Danh từ - Danh từ Table has-part leg

Is-member-of Danh từ - Danh từ UK is-member-of NATO

Has-member Danh từ - Danh từ NATO has-member UK

Is-suff-of Danh từ - Danh từ Carbon is-stuff-of coal

Has-stuff Danh từ - Danh từ Coal has-stuff carbon

Cause-to Động từ - Động từ To develop cause-to to grow

Entail Động từ - Động từ To snore entail to sleep

Atribute Tính từ - Danh từ Hot attribute temperature

Synonymy

(synset)

Tính từ - Tính từ

Phó từ - Phó từ

Car synonym automobile

To notice synonym to observe

Happy synonym content

Mainly synonym primarily

Antonymy Danh từ - Danh từ

Tính từ - Tính từ

Phó từ - Phó từ

Happines antonymy unhappiness

To inhale antonymy to exhale

Sincere antonymy insincere

Always antonymy never

Similarity Tính từ - Tính từ Abridge similarity shorten

See-also Động từ - Động từ Touch see-also touch down

Tính từ - Tính từ Inadequate see-also insatisfactory

Giới thiệu về ontology YAGO

Năm 2007, Fabian nghiên cứu và giới thiệu ontology YAGO[9]. YAGO được xây

dựng tự động từ sự kết hợp giữa Wikipedia và từ điển Wordnet. Nó bao gồm các thực thể

và các mối quan hệ giữa chứng. Hiện tại, YAGO có khoảng 1,7 triệu thực thể và 15 triệu

sự kiện. Chúng bao gồm các mối quan hệ phân cấp và không phân cấp. Thông qua kết quả

thực nghiệm, Fabian đánh giá độ chính xác của ontology YAGO là 95%.

Hình 5. Giới thiệu về YAGO

2.2.2. Một số nghiên cứu về mở rộng truy vấn sử dụng tập từ điển

Năm 1993, Voorhess đã khai thác các ngữ nghĩa chứa trong worknet nhằm cải tiến

hiệu quả của truy vấn bằng chỉ mục với các ngữ nghĩa của từ thay cho các từ gốc [8]. Kết

quả cho thấy hiệu quả của những vector tạo ra bởi kĩ thuật khử nhập nhằng có phần xấu

hơn các vector gốc. Qua thực nghiệm, các tác giả nhận thấy những phát biểu truy vấn

ngắn có thể gặp khó khăn trong bước khử nhặp nhằng khi tìm kiếm thông tin, vì quan hệ

phân cấp is-a không đủ mạnh cho việc chọn các nghĩa chính xác của từ. Từ đó, trong vấn

đề về giải pháp mở rộng truy vấn sử dụng tự động các synsset được tạo hoặc vấn đề giải

quyết các ngữ nghĩa không chính xác, việc so trùng chính xác các thiếu sót có hiệu suất

truy hồi thông tin thấp hơn so với các giải pháp so trùng không chính xác.

Năm 1994, Voorhees, đã sử dụng WordNet để tiến hành thực nghiệm trên các tập

TREC trong miền chuyên biệt. Các kết quả cho thấy việc mở rộng truy vấn có thể cải tiến

những vấn đề từ vựng không trùng khớp, đặc biệt trong trường hợp các từ được mở rộng

có liên quan về từ vựng với các từ trong truy vấn. Ngược lại, việc mở rộng truy vấn cho

các truy vấn dài chỉ cải thiện rất nhỏ tính hiệu quả của truy vấn thông tin, vì bản thân truy

vấn nguyên thủy đã mô tả đầy đủ yêu cầu thông tin.

Năm 1998, theo phân tích của nhóm Mandala [17] WordNet có nhược điểm là các

danh từ riêng không đầy đủ và không có khả năng để hình thức hóa các quan hệ giữa các

từ thuộc các phần khác nhau của từ loại. Ngoài ra, quan hệ bộ phận (meronymy) bị hạn

chế trong sự diễn dịch của nó. Để giải quyết vấn đề này, năm 2006 Grootjen và Van De

Weider [10] dùng giải pháp kết hợp bao gồm một từ điển chuyên đề toàn cục và từ điển

chuyên đề cục bộ được tạo tự động. Điều này đã bổ sung những khiếm khuyết về từ vựng

trong quá trình khai thác WordNet.

Năm 2005, nhóm Nilsson [12] đã sử dụng một ontology miền đặc trưng dựa trên

hệ thống SuiS (Stockholm University Information System) để thực hiện mở rộng truy vấn

SuiS chỉ cho phép các kiểu câu hỏi gồm Who, What, When, Where và chỉ có các từ đồng

nghĩa và trái nghĩa được sử dụng để tăng độ chính xác. Thực nghiệm cho thấy sự cải tiến

mang lại kết quả tốt. Tuy nhiên, phương pháp này giới hạn đối với câu hỏi WHO, chưa

thực hiện được với các truy vấn tự do

Năm 2011, tận dụng các mối quan hệ cũng như các sự kiện đã được định nghĩa

trong ontology YAGO được mô tả ở trên, nhóm tác giả Abdullah và Rehab [1] đã sử dung

YAGO để thực hiện mở rộng truy vấn. Ngoài ra, nhóm tác giả đã sử dụng kết quả của

việc mở rộng truy vấn vào Hệ thống hỏi đáp QASYO.

2.3 Phương pháp kết hợp

Khác với các phương pháp đã trình bày ở trên, việc mở rộng truy vấn sử dụng

phương pháp này được thực hiện kết hợp giữa hệ thống và người sử dụng. Hệ thống sẽ

thực hiện liệt kê và xếp hạng tập các từ có liên quan và người sử dụng phải quyết định lựa

chọn các khái niệm theo quan điểm tìm kiếm để tự thêm vào câu truy vấn. Vì vậy, người

dùng là người quyết định cuối cùng việc mở rộng của một từ. Nó phản ảnh tầm quan

trọng tương đối và tính hữu dụng của các khái niệm dựa vào quan điểm của người sử

dụng, do đó tăng sự hài lòng của người sử dụng.

2.3.1 Tự động sinh ra tập từ đồng nghĩa

Phương pháp này được thực hiện sử dụng các từ đồng nghĩa và có liên quan tới

khái niệm ban đầu nhằm cải thiện độ chính xác và độ hồi tưởng của việc mở rộng truy

vấn.

Ví dụ 1: Từ khóa “feline” (có nghĩa là: như mèo). Sau khi sử dụng các từ đồng nghĩa

hoặc các từ liên quan, ta có từ khóa mở rộng là “feline cat”

Ví dụ 2: Các đối tượng liên quan tới việc: grow (trồng), eaten (ăn), digested (tiêu hóa) thì

liên quan tới khái niệm “food” (thức ăn)

Theo Pushpak [26], phương pháp trên được thực hiện qua các bước thực hiện như sau:

- Bước 1: Người dùng tạo ra câu truy vấn ban đầu tập tài liệu ban đầu trả về

- Bước 2: Người dùng lựa chọn một tập các tài liệu liên quan tới kết quả mong

muốn

- Bước 3: Hệ thống sẽ đánh trọng số cho các từ có trong tập tài liệu. Từ đó, lấy ra

tập từ vựng có trọng số cao có liên quan tới câu truy vấn, tập từ này sẽ phục vụ cho

việc mở rộng câu truy vấn ban đầu.

2.3.2 Phương pháp sử dụng query log

Năm 2005, Bruno và Paulo đưa ra một phương pháp thực hiện mở rộng truy vấn

dựa trên các khái niệm [4]. Phương pháp thực hiện gồm 3 bước:

- Bước 1: Xác định các mối quan hệ giữa các câu truy vấn dựa vào query log của

người dùng.

Để tìm được các mối quan hệ giữa các truy vấn có trong tập log, ông cùng các cộng sự

đưa ra phương pháp dựa vào tập luật kết hợp, với phương pháp này tác giả đề cập tới 6

luật kết hợp

Ví dụ:

Ta có log của 3 người SS1, SS2, SS3 và có log của 3 transaction đó theo như bảng dưới:

Query log

SS1 Qa

SS2 Qa

SS3 Qa

Tương ứng với mỗi sesstion của một người, ta có T1 = {Qa, Qb, Qc}, T2 = {Qa, Qb, Qd},

T3 = {Qa, Qb, Qe}

Ta có một tập gồm 5 câu truy vấn I = {Qa, Qb, Qc, Qd, Qe}, trongđó: Qa thường xuyên xuất

hiện cùng Qb. Ta sẽ có luật: Qb Qa nếu Qb có liên quan tới Qa hay Qa được mở rộng truy

vấn nhờ vào Qb

- Bước 2: Xây dựng đồ thị thể hiện mối quan hệ các khái niệm

Sử dụng tập querylog và tập các luật kết hợp đã được tìm thấy từ bước 1, chúng ta

có thể tìm thấy các câu truy vấn đã được thực hiện trước đó có liên quan tới câu truy vấn

hiện tại của người dùng. Cụ thể là: Chúng ta sẽ thực hiện tìm kiếm một câu truy vấn có

trong log mà có ý nghĩa tương đồng với câu truy vấn hiện tại, hay nó bao gồm các khái

niệm có trong câu truy vấn hiện tại.

Chúng ta có câu truy vấn Qa, sau đó sẽ tìm kiếm các câu truy vấn khác có liên quan

tới Qa thông qua luật kết hợp mà chúng ta đã xác định. Nếu như Qc Qb và Qb Qa thì

Qc cũng là một ứng cử viên được sử dụng để mở rộng cho Qa.

Thông qua các mối quan hệ chúng ta sẽ xây dựng được một đồ thị thể hiện các mối

quan hệ cho câu truy vấn Qa. Gọi Ra là một tập các truy vấn trong log có liên quan tới Qa.:

• Với mỗi Qi và Qj thuộc Ra , ta tìm được luật Qi Qj

• Xây dựng được đồ thị quan hệ Ga cho câu truy vấn Qa. Trong đó:

– Qi, Qj là các đỉnh kề trong đồ thị Ga

– Mối quan hệ Qi Qj là cạnh của đồ thị trong Ga

Hình 6. Đồ thị mô tả mối quan hệ cho câu truy vấn “jaguar”.

- Bước 3: Dựa vào đồ thị, chỉ ra các khái niệm có liên quan để mở rộng câu truy vấn

người dùng

Dựa vào hình 6 thì ta có thể thấy các khái niệm có liên quan tới như sau:

Concept1 = {renautl, sauber, ferrari}

Concept2 = {atari, cars}

Concept3 = {lion, tiger}

Việc mở rộng truy vấn dựa vào các khái niệm

Sau khi tìm kiếm và liệt kê ra được một tập các khái niệm có liên quan tới câu truy

vấn của người dùng, chúng ta cần chỉ ra khái niệm nào là tốt nhất để thỏa mãn thông tin

mà người dùng cần. Khi người dùng lựa chọn một khái niệm có liên quan tới câu truy

vấn, chúng ta sẽ thêm những khái niệm này vào câu truy vấn ban đầu của người dùng để

thực hiện mở rộng truy vấn.

Để phân loại các khái niệm được sử dụng cho việc mở rộng, người ta phân thành 4

loại như sau:Từ đồng nghĩa, Từ cụ thể, Từ khái quát, Từ kết hợp

2.3.3 Mở rộng truy vấn dựa vào tập từ đồng nghĩa và hình thức biểu

diễn từ.

Năm 2007, để cải tiến kết quả của hệ thống hỏi đáp RAPOSA, Sarmento đưa ra một

phương pháp mở rộng truy vấn dựa vào tập từ đồng nghĩa [16]. Hệ thống RAPOSA bao

gồm 6 module

- Phân tích cú pháp câu hỏi (Question Parser)

- Xử lý truy vấn (Query Generator)

- Tìm kiếm các đoạn chứa từ khóa (Snippet Searcher)

- Trích xuất câu trả lời (Answer Extractor)

- Kết hợp các câu trả lời (Answer Fusion)

- Lựa chọn câu trả lời (Answer Selector)

Đối với module Xử lý truy vấn (Query Generator), Sarmentothực hiện bằng phương

pháp mở rộng câu hỏi nhờ tập từ đồng nghĩa, cách thức thực hiện như sau:

- Bước 1: Dựa vào cấu trúc ngữ pháp, xác định được cách biểu diễn của từ đưa

từ về hình thức cơ bản của từ

- Bước 2: Sử dụng từ điển đồng nghĩa Lựa chọn ra n từ liên quan đầu tiên

- Bước 3: Xác định các hình thức biểu diễn khác của tập từ đó. Tập hợp tất cả các

từ đồng nghĩa được biểu diễn dưới dạng mọi hình thức là tập truy vấn mở rộng

cho câu truy vấn ban đầu.

Ví dụ: Câu hỏi: “Quantas vezes ganhou Portugal a Taca Davis"

- Động từ trong câu: “ganhou”, đưa về dạng cơ bản của từ là: “ganhar”

- Thực hiện lựa chọn 5 từ đồng nghĩa nhất với từ “ganhar” là: “poupar”,

“vencer”, “conquistar”, “perder”, “ter” (“angariar”, “dar”, “disputar”)

- Lựa chọn những hình thức biểu diễn khác của các từ được mở rộng, như:

“ganh*”, “poup*”, “venc*”, “conquist*”, “perd*”, “ter”

- Sau đó sẽ thực hiện lấy tập từ mở rộng này để tìm kiếm tiếp.

2.3.4 Mở rộng truy vấn sử dụng đồ thị khái niệm wikipedia

Đồ thị khái niệm là một trong những phương pháp được sử dụng trong trí tuệ nhân

tạo nhằm đại diện cho kiến thức tiềm ẩn trong các văn bản. Dựa vào đồ thị khái niệm, ta

có thể biết được mối quan hệ giữa các khái niệm. Năm 2008, Hadi và Abolfazl dựa trên

tập dữ liệu wikipedia đã xây dựng đồ thị khái niệm [13]. Mô hình của phương pháp theo

như hình 7 bên dưới:

Hình 7. Mô hình Mở rộng truy vấn sử dụng đồ thị khái niệm Wikipedia

- Bước 1: Thu thập dữ liệu

Dựa vào câu query q và tập tài liệu từ Wikipedia, hệ thống sử dụng máy tìm

kiếm Lemur Toolkit để thu thập dữ liệu.

- Bước 2: Phân cụm dữ liệu

Hệ thống thực hiện phân cụm dữ liệu thông qua thuật toán phân cụm EM dựa

vào công cụ Weka. Sau khi thực hiện phân cụm dữ liệu, tương ứng với mỗi

cụm sẽ có một vector đặc trưng riêng.

- Bước 3: Phân cụm các khái niệm

Dựa vào các vector đặc trưng cho từng cụm tài liệu, lựa chọn k khái niệm có

trọng số cao nhất. Vì vậy, tương ứng với mỗi cụm dữ liệu sẽ có một cụm khái

niệm

- Bước 4: Thể hiện mối quan hệ giữa các khái niệm bằng đồ thị

Dựa vào vector đặc trưng cho từng cụm tài liệu và các cụm khái niệm, thực

hiện xây dựng đồ thị khái niệm thể hiện các khái niệm có liên quan tới câu truy

vấn ban đầu. Trong đó:

o Tâm là câu truy vấn ban đầu

o Các đỉnh là các khái niệm có liên quan tương ứng có trong cụm

o Cạnh của đồ thị thể hiện mối quan hệ giữa câu truy vấn và các khái niệm

liên quan thông qua trọng số tương ứng.

- Bước 5: Lựa chọn câu truy vấn mới

Thông qua các cụm khái niệm, hệ thống sẽ liệt kê ra các khái niệm liên quan có

trọng số tương ứng, từ đó bổ sung vào câu truy vấn ban đầu để xây dựng câu

truy vấn mở rộng. Tập truy vấn mở rộng này sẽ được làm giàu cho tập query

log ban đầu.

Ngoài các phương pháp trên, một số phương pháp khác cũng đã được nhiều nhà

nghiên cứu giới thiệu và áp dụng vào một số hệ thống, như:

- Năm 1996, Aland [2] đề xuất phương pháp mở rộng truy vấn sử dụng các

độ đo UMLS

- Năm 2007, Anand xây dựng hệ thống tìm kiếm Meta-Search, trong đó việc

xử lý câu truy vấn được sử dụng theo phương pháp sử dụng việc phân tích

chủ đề ẩn [3].

- Năm 2001, Weining Qianvà cộng sự cũng đã thực hiện mở rộng truy vấn

dựa vào cấu trúc, phương pháp này đã được áp dụng vào máy tìm kiếm

XMLS [21]

- Tháng 01/2010, máy tìm kiếm được sử dụng riêng cho Mobile được xây

dựng bởi Huy-Nguyen. Việc xây dựng máy tìm kiếm dựa trên bài toán Phân

cụm và Mở rộng truy vấn [14].

- Năm 2010, Sérgio và cộng sự giới thiệu một phương pháp mở rộng truy vấn

dựa vào các mối quan hệ giữa các gens trong lĩnh vực y tế [20].

2.4 Tóm tắt chương 2

Trong chương hai, luận văn giới thiệu chi tiết một số phương pháp đã được sử

dụng cho việc mở rộng truy vấn. Đồng thời, cũng giới thiệu về một số hệ thống tìm

kiếm hay hệ thống hỏi đáp sử dụng một số phương pháp mở rộng truy vấn.

Trong chương tiếp theo, luận văn thực hiện đánh giá các phương pháp đã tìm

hiểu được, từ đó đề xuất một mô hình mở rộng truy vấn phù hợp với ngôn ngữ tiếng

Việt. Tiếp theo đó, áp dụng kết quả của bài toán mở rộng truy vấn vào hệ thống tìm

kiếm tiếng Việt.

Chương 3. Mô hình đề xuất

3.1 Cơ sở thực tiễn

Như đã trình bày ở chương 2, để mở rộng truy vấn đã có 3 phương pháp chính

được đề cập. Mỗi phương pháp đưa ra có những ưu điểm, nhược điểm riêng.

Đối với phương pháp thủ công, độ chính xác cho câu truy vấn mở rộng cao. Tuy

nhiên phương pháp có nhược điểm lớn, đó là về chi phí và thời gian cho việc xây dựng và

phát triển. Từ đó, kinh phí cho việc bảo trì hệ thống bỏ ra sẽ vượt lợi nhuận thu vào.

Thêm vào đó, với sự phát triển ngày càng cao về công nghệ và kĩ thuật hiện đại thì việc

duy trì theo phương pháp này là sẽ khó.

Đối với phương pháp tự động thì việc tận dụng các mối quan hệ ngữ nghĩa giữa

các khái niệm đã được xây dựng trong tập từ điển hay các ontology (như Wordnet,

YAGO,..) sẽ giúp cho việc mở rộng truy vấn có kết quả cao. Tuy nhiên, để sử dụng được

tập từ điển hay ontology trên thì tốn chi phí cho các chuyên gia trong việc xây dựng và

phân tích dữ liệu.

Dựa trên những điều kiện hiện tại, để lựa chọn và đưa ra được phương pháp tốt

nhất cho tiếng Việt vẫn là một vấn đề còn gặp nhiều khó khăn do hiện nay các kĩ thuật về

xử lý ngôn ngữ (phân tích cú pháp, …), tài nguyên ngôn ngữ học (Wordnet, tập từ đồng

nghĩa,..) cũng như các kĩ thuật xử lý đang trong quá trình hoàn thiện dần. Vì vậy, phương

pháp kết hợp được đề cập để thực hiện cho bài toán mở rộng truy vấn cho tiếng Việt. Tuy

nhiên, để lựa chọn một phương pháp phù hợp với hoàn cảnh hiện tại là một vấn đề khó.

Hiện nay, việc xây dựng đồ thị thể hiện mối quan hệ giữa các khái niệm cũng là

một chủ đề nhận được nhiều nhà nghiên cứu đưa ra và nhận sự quan tâm lớn trong lĩnh

vực khai phá tri thức. Thông qua đồ thị, ta tìm được mối quan hệ giữa các khái niệm có

liên quan tới câu truy vấn. Để xây dựng được đồ thị mối quan hệ thì có nhiều hướng tiếp

cận khác nhau [4,13]. Bruno và cộng sự [4] đã thực hiện xây dựng đồ thị dựa vào tập các

luật thể hiện mối quan hệ giữa các câu truy vấn thông qua việc khai phá tập query log của

người dùng hay qua lịch sử các phiên giao dịch của người dùng khi tìm kiếm.

Dựa vào các đánh giá trên và ý tưởng của Bruno và cộng sự, luận văn này thực

hiện bài toán mở rộng truy vấn cho tiếng Việt bằng việc xây dựng đồ thị khái niệm thông

qua việc thống kê và phân tích các câu truy vấn có trong tập query log của người dùng.

Phương pháp này sẽ được trình bày cụ thể trong phần 3.2

3.2 Mở rộng truy vấn

Qua quá trình khảo sát các phương pháp mở rộng truy vấn và dựa trên điều kiện

thực tế về kĩ thuật xử lý ngôn ngữ, tài nguyên ngôn ngữ học cũng như các kĩ thuật học

máy phục vụ cho quá trình xử lý ngôn ngữ tiếng Việt, luận văn đề xuất phương pháp mở

rộng truy vấn bằng phương pháp khai phá query log của người dùngdựa trên nghiên cứu

của Bruno và cộng sự [4]. Dưới đây là nội dung của phương pháp:

Đầu vào:

- Tập câu truy vấn lấy từ tập log truy vấn tiếng Việt (bao gồm hơn 3 triệu truy

vấn) của người sử dụng được thu thập bởi Google vào ngày 11/04/2009

- Câu truy vấn q của người dùng

Đầu ra: Tập các câu truy vấn mở rộng cho truy vấn ban đầu.

Phương pháp thực hiện: Theo như mô hình bên dưới

Hình 8. Mô hình Mở rộng truy vấn

Xác định mối

quan hệ giữa

các truy vấn

Tập luật

quan hệ

Xây dựng

đồ thị quan

hệ truy vấn

Câu truy

vấn Q

Đồ thị mối

quan hệ

Xác định

khái niệm Tập các

khái niệm

Mở rộng

truy vấn

Truy vấn

mở rộng

Cải tiến

a. Bước 1: Xác định các mối quan hệ giữa các câu truy vấn

Đầu vào: Tập các truy vấn được lấy từ query log của người dùng

Đầu ra: Tập các luật giữa các câu truy vấn thể hiện mối quan hệ giữa chúng

Phương pháp thực hiện: Đây là bước xử lý offline, gồm 2 bước:

- Thực hiện tìm tập các truy vấn có trong 1 phiên giao dịch (session) của một

người dùng dựa vào tập query log.

Để xác định được các câu truy vấn có trong một phiên giao dịch, dựa vào một

số định nghĩa do Bronu và cộng sự, ta định nghĩa như sau [4]:

Định nghĩa1: Một câu truy vấn trong dữ liệu query log ta quan tâm tới những

thông tin sau <qi, idi, ti, li>, trong đó:

o idi là địa chỉ IP của người sử dụng

o ti là thời gian mà câu truy vấn được người dùng gửi lên hệ thống

o qi là tập các câu truy vấn

o li là link liên kết trả về từ hệ thống

Định nghĩa2: Một phiên giao dịch của người dùng là một tập gồm các thành phần

{<q1, id1, t1, l1>, <q2, id2, t2 , l2>,…., <qn, idn, tn, ln>}, trong đó id1 = id2 = … = idn

và (t2 - t1) < T; (t3 – t2) < T; …; tn – tn-1 < T. Trong đó, tham số T định nghĩa là

thời gian tối đa cho phép tìm kiếm giữa hai truy vấn liên tiếp trong cùng một phiên

giao dịch.

- Thực hiện tìm các luật liên kết giữa các câu truy vấn

o Thông qua các phiên giao dịch tìm được ở bước 1, ta xác định được một tập

các câu truy vấn có mối quan hệ với nhau nếu như chúng sắp xếp liền kề

nhau và cùng xuất hiện nhiều lần trong nhiều phiên giao dịch. Tập các câu

truy vấn này có mối quan hệ với nhau thì giữa chúng có các luật liên kết

o Ngoài ra, một số luật được sử dụng để xác định mối quan hệ giữa các câu

truy vấn

Nếu có 2 luật được xác định như sau: Qb Qa, Qc Qa. Câu truy

vấn Qb, Qc đều được sử dụng để mở rộng truy vấn cho Qa

Khi có luật Qb Qa thì luật Qa Qb cũng được định nghĩa.

Một câu truy vấn Qi bất kì thì cũng có luật Qi Qi

o Dựa vào một tập log các truy vấn của người dùng, ta sẽ thực hiện tìm một

tập các luật liên kết giữa một số cặp câu truy vấn. Đầu ra của việc này sẽ là

một tập Ri các câu truy vấn có liên quan tới câu truy vấn Qi có trong log.

Ví dụ: Ta có log các phiên giao dịch của 3

người SS1, SS2, SS3 và tập các câu truy vấn

tương ứng như bảng 2

Tương ứng với mỗi session của một người,

ta có T1 = {Qa, Qb, Qc}, T2 = {Qa, Qb, Qd},

T3 = {Qa, Qb, Qe}

Ta có một tập gồm 5 câu truy vấn I = {Qa,

Qb, Qc, Qd, Qe}, trongđó: Qa thường xuyên

xuất hiện nhiều lần liên tiếp trong câu truy

vấn Qb. trong nhiều phiên giao dịch của

người dùng. Ta sẽ có luật: Qb Qa , hay

Qb có liên quan tới Qa hay Qa được mở

rộng truy vấn nhờ vào Qb

Bảng 2. Tập câu truy vấn và session

b. Bước 2: Xây dựng đồ thị thể hiện mối quan hệ giữa các câu truy vấn

Đầu vào:

- Các luật liên kết thể hiện mối quan hệ giữa các truy vấn được xác định ở bước 1

Đầu ra: Đồ thị thể hiện mối quan hệ giữa câu truy vấn Qa và các câu truy vấn có

liên quan

Phương pháp thực hiện:

- Với câu truy vấn q ban đầu của người dùng, ta thực hiện tìm một câu truy vấn

Qa trong tập query log có chứa chính xác các từ có trong với câu truy vấn hiện

tại của người dùng nhập vào hệ thống

- Với câu truy vấn Qa được xác định, thực hiện tìm tất cả các câu truy vấn có liên

quan thông qua các luật đã được xây dựng ở bước 1, ta thu được một tập Ra

chứa các câu truy vấn có liên quan tới Qa

o Ngoài những câu truy vấn có liên quan trực tiếp thông qua các luật liên kết

đã được xác định, các câu truy vấn gián tiếp cũng được lấy, cụ thể: Khi ta

Query log

SS1 Qa

SS2 Qa

SS3 Qa

có tập luật được xác định như sau: Qc Qb, Qb Qa thì Qc cũng được

xem là một câu truy vấn có liên quan tới câu truy vấn Qa

o Thông qua các mối quan hệ giữa Qi, Qj hay tập luật Qi Qj (Với mọi Qi,

Qj thuộc Ra) đã được xác định, thực hiện xây dựng đồ thị khái niệm cho câu

truy vấn Qa, đồ thị được xây dựng như sau:

Qi, Qj là các đỉnh kề trong đồ thị Ga

Mối quan hệ Qi Qj là cạnh của đồ thị trong Ga

c. Bước 3: Xác định các khái niệm

Đầu vào: Đồ thị mối quan hệ giữa câu truy vấn Qa.

Đầu ra: Các khái niệm có trong đồ thị quan hệ truy vấn được xác định ở bước 2

Dựa vào đồ thị quan hệ truy vấn Ga cho câu truy vấn Qa đã được xây dựng, thực

hiện xác định các khái niệm liên quan tới câu truy vấn ban đầu.

Định nghĩa: Một tập các khái niệm Cj là tập hợp các nút của Ga, bắt đầu từ nút

Qi Cj, thực hiện tìm tất cả các nút trong Cj và quay về Qi (không thực hiện

thăm lần hai). Lưu ý, sẽ không có tập khái niệm C’ mà C C’

Các khái niệm có đặc điểm như sau:

o Các khái niệm được lấy ra là những khái niệm (sau khi đã loại bỏ từ dừng)

kết hợp với câu truy vấn Qa có chứa trong tập các câu truy vấn

o Các khái niệm này là riêng biệt.

o Các khái niệm có trọng số tương ứng. Trọng số này là tần số xuất hiện của

các khái niệm hay của câu truy vấn chứ nó có trong query log.

o Một khái niệm chỉ ra một nhóm các câu truy vấn có liên quan xuất hiện

nhiều lần cùng nhau

d. Bước 4: Mở rộng truy vấn

Đầu vào: Các khái niệm có liên quan tới câu truy vấn đã xác định ở bước 3

Đầu ra: Các câu truy vấn mở rộng

- Sau khi xác định được một tập các khái niệm có liên quan tới câu truy vấn của

người dùng, chúng ta cần xác định các khái niệm nào là tốt nhất để thực hiện hỗ

trợ mở rộng truy vấn nhằm đem lại kết quả tốt nhất cho người dùng. Để thực

hiện việc này, ta thực hiện đánh trọng số cho các khái niệm.

o Trọng số của các khái niệm được xác định chính bằng tần suất xuất hiện

của các câu truy vấn có mối quan hệ với nhau trong query log.

- Khi thực hiện lựa chọn một khái niệm để thêm vào câu truy vấn ban đầu nhằm

xây dựng câu truy vấn mở rộng, ta cần xác định được khái niệm mới thêm vào

sẽ ảnh hưởng tới mối quan hệ giữa câu truy vấn ban đầu và câu truy vấn mở

rộng như thế nào. Để phân loại các khái niệm được sử dụng cho việc mở rộng,

dựa theo nghiên cứu của Bruno và các cộng sự thì các khái niệm được phân

thành 4 loại là: Từ đồng nghĩa, Từ mang nghĩa cụ thể, Từ mang nghĩa khái quát

và Từ kết hợp.

o Từ đồng nghĩa: Các khái niệm mô tả về mối quan hệ đồng nghĩa.

Ví dụ: Câu truy vấn “máy tính”, khái niệm mới là “máy tính xách tay”.

Trong trường hợp này, câu truy vấn mở rộng có dạng:

“máy tính” OR “laptop”

o Từ mang nghĩa cụ thể: Các khái niệm mô tả cụ thể về mặt ngữ nghĩa cho

một câu truy vấn thông thường

Ví dụ: Câu truy vấn là “Chủ tịch Hồ Chí Minh” và khái niệm “Nguyễn Ái

Quốc” thì câu truy vấn mở rộng phải là :

“Chủ tịch Hồ Chí Minh” AND “Nguyễn Ái Quốc”

o Từ mang nghĩa khái quát: Một khái niệm mô tả mang nghĩa chung chung

cho một câu truy vấn thông thường.

Ví dụ: Câu truy vấn Jaguar và khái niệm “Formula One”. Câu truy vấn mở

rộng: “jaguar OR Formula one”.

o Từ mang nghĩa kết hợp: Khái niệm mô tả việc kết hợp về ngữ nghĩa cho

một câu truy vấn thông thường

Ví dụ: câu truy vấn “tour du lịch” và khái niệm “biển, núi”, câu truy vấn

mở rộng là: “tour du lịch AND (biển OR núi)”

e. Bước 5: Cải tiến

Đầu vào: Tập query log của người dùng

Đầu ra: Mối quan hệ giữa các câu truy vấn được thể hiện thông qua luật liên kết

- Dựa vào tập query log ta thấy cấu trúc của một câu query bao gồm nhiều thành

phần, luận văn thực hiện khai thác một thành phần có chứa trong log của tập

truy vấn là link liên kết tới kết quả khi tìm kiếm một câu truy vấn

Định nghĩa 3: Hai câu truy vấn cùng trỏ tới một đường link kết quả thì hai câu

này có mối quan hệ với nhau hay nói cách khái giữa hai câu này có một luật

liên kết được sinh ra

Ví dụ: Ta có 2 câu truy vấn:

Q1: \"siêu thị máy tính\" http://www.trananh.vn/

Q2: \"máy tính trần anh\” http://www.trananh.vn/

Hai câu truy vấn trên đều có một liên kết với link http://www.trananh.vn/,

suy ra hai câu trên có mối quan hệ với nhau hay có luật Q1 Q2 (nếu Q2 là

câu truy vấn có trong đồ thị, Q1 là câu truy vấn cùng link kết quả hoặc

ngược lại)

3.3 Mô hình hệ thống tìm kiếm thực thể áp dụng cho tiếng Việt

Từ những nghiên cứu liên quan được nêu ở các mục trên, luận văn đưa ra mô hình

cho Hệ thống tìm kiếm tiếng Việt, trong đó Module xử lý truy vấn đầu vào được áp dụng

phương pháp Mở rộng truy vấn được trình bày ở mục 3.2. Dưới đây là mô hình của hệ

thống:

Hình 9. Mô hình chung của hệ thống tìm kiếm

Dựa vào mô hình, Hệ thống tìm kiếm trên được thực hiện giải quyết bài toán qua 2 bước

chính:

Truy vấn

Module Mở rộng truy vấn

Truy vấn mở rộng

Tìm kiếm dữ liệu Tập tài liệu

kết quả

Bước 1: Thực hiện mở rộng truy vấn

- Đầu vào: Câu truy vấn người dùng nhập vào khi sử dụng máy tìm kiếm

- Đầu ra: Tập các câu truy vấn mở rộng hỗ trợ cho người dùng, thứ tự các câu truy

vấn mở rộng được sắp xếp theo trọng số tương ứng

- Phương pháp thực hiện: Theo như mô hình được trình bày ở mục 4.1

Bước 2: Thực hiện tìm kiếm dữ liệu

- Đầu vào: Câu truy vấn mở rộng đã được người dùng lựa chọn

- Đầu ra: Tập các tài liệu liên quan được trả về từ máy tìm kiếm

- Phương pháp thực hiện: Sử dụng máy tìm kiếm Google để thực hiện tìm kiếm và

trả về một tập các tài liệu có liên quan tới câu truy vấn mới.

3.4 Tóm tắt chương 3

Trong chương ba, luận văn đã thực hiện đánh giá các phương pháp đã nghiên cứu và tìm

hiểu được, từ đó giới thiệu chi tiết mô hình đề xuất cho bài toán Mở rộng truy vấn cho

ngôn ngữ tiếng Việt bằng phương pháp sử dụng query log. Đồng thời, áp dụng kết quả

mở rộng truy vấn để áp dụng vào bài toán cho Hệ thống tìm kiếm tiếng Việt. Trong

chương tiếp theo, luận văn sẽ tiến hành làm thực nghiệm dựa trên mô hình đã xây dựng

dựa vào query log từ Google và sử dụng máy tìm kiếm Google.

Chương 4. Thực nghiệm và đánh giá

Dựa vào cơ sở lý thuyết và mô hình đề xuất ở chương 3, luận văn tiến hành thực

nghiệm. Quá trình thực nghiệm bao gồm thực nghiệm cho phần mở rộng truy vấn và thực

nghiệm việc áp dụng mở rộng truy vấn cho hệ thống tìm kiếm tiếng Việt

4.1. Môi trường thực hiện

Cấu hình phần cứng

Bảng 3. Cấu hình phần cứng sử dụng trong thực nghiệm

Thành phần Chỉ số

CPU 2.2 GHz Core Duo Intel

RAM 2 GB

OS WindowsXP Service Pack 2, Windows 7

Bộ nhớ ngoài 160GB

Công cụ phần mềm sử dụng:

Bảng 4. Một số phần mềm sử dụng

STT Tên phần mềm Nguồn

1 Mysql http://www.mysql.com

2 Microsoft Visual Studio 2010 http://www.microsoft.com/visualstudio/en-us

Ngoài ra các công cụ trên, chúng tôi tiến hành cài đặt các module xử lý dựa trên ngôn ngữ

Visual C++, bao gồm các package chính như sau:

- Querylog.jar: Được sử dụng cho việc xác định tập các truy vấn tương ưng với các

session của người dùng dựa vào query log. Đồng thời, thực hiện tìm các luật liên

kết thể hiện mối quan hệ giữa các câu truy vấn có liên quan.

4.2. Quá trình thực nghiệm

4.2.1. Nội dung, kịch bản thực nghiệm

Dựa vào mô hình được đề xuất ở mục 3.2, luận văn tiến hành thực nghiệm, cụ thể hơn về

việc thực nghiệm như sau:

Dữ liệu thực nghiệm

- Tập querylog của người dùng khi sử dụng Google. Tập query log được từ một

nguồn5 đã thu thập query log từ Google vào ngày 11/04/2009 (có khoảng trên 3,8

triệu câu truy vấn)

Quá trình thực hiện gồm hai công việc chính

- Mở rộng truy vấn sử dụng query log người dùng

o Thông qua tập query log, xác định được các mối quan hệ giữa các câu truy

vấn, mối quan hệ này được thể hiện thông qua tập liên kết.

o Thực hiện xây dựng đồ thị thể hiện mối quan hệ giữa các câu truy vấn

o Xác định các khái niệm có chứa trong đồ thị

o Mở rộng truy vấn dựa vào các khái niệm đã được xác định

- Áp dụng kết quả mở rộng truy vấn vào hệ thống tìm kiếm tiếng việt

o Thực hiện tìm kiếm sử dụng hệ thống tìm kiếm tiếng Việt Google với đầu

vào là câu truy vấn mở rộng. Để đánh giá được hiệu quả của phương pháp,

thực hiện lựa chọn các khái niệm không quá phổ dụng.

4.2.2. Thực nghiệm mở rộng truy vấn

4.2.2.1. Xác định mối quan hệ giữa các câu truy vấn

Để xác định được mối quan hệ giữa các truy vấn thông qua tập luật, ta thực hiện 2

bước sau:

Tìm tập các câu truy vấn có trong một phiên giao dịch (session)

Với một câu truy vấn, theo như trình bày ở Định nghĩa 1 trong mục 3.2a, ta cần quan tâm

tới các tham số sau:

- Thời gian hệ thống nhận câu truy vấn của người dùng, t

- Địa chỉ IP của người dùng, id

- Câu truy vấn nhập vào hệ thống, q

- Link kết quả trả về, l

Trong đó, để xác định được các truy vấn nào của người dùng nằm trong một

session, ta xác định như sau: Dựa vào IP của người dùng và thời gian nhập câu truy vấn

vào hệ thống, ta xác định được một tập các câu truy vấn người dùng thực hiện tìm kiếm

5http://itim.vn

một phiên giao dịch trong khoảng thời gian T = 10 phút (T: thời gian tối đa cho phép tìm

kiếm giữa hai truy vấn liên tiếp trong cùng một phiên giao dịch)

Ví dụ: Câu truy vấn của người dùng được lưu lại trong log có dạng như sau:

/logbak1/cacheftp/CE178/celog_203.160.1.72_20090411_050000.txt.gz:12:00:11:

222.254.11.106 74.220.215.224 "GET http://tivitructuyen.net/ HTTP/1.1" 304

"http://www.google.com.vn/search?hl=vi&q=tivitructuyen.net&meta=&aq=0&oq=tivitru

ctuyen"

Trong đó:

- Thời gian người dùng nhập câu truy vấn vào hệ thống: 12:00:11

- Địa chỉ IP của người dùng: 222.254.11.106

- Câu truy vấn của người dùng: tử vi trực tuyến

- Link kết quả trả về: http://tivitructuyen.net

Bảng 5. Tập 10 câu truy vấn đầu tiên trong một phiên giao dịch của người dùng

STT IP của người

Thời gian

thực hiện

truy vấn

Tập câu truy

Link chứa kết quả trả về

1 222.254.10.187 12:03:24 trang báo gia đình http://afamily.channelvn.net

2 222.254.10.187 12:04:25 trang báo gia đình http://giadinh.net.vn/

3 222.254.10.187 12:05:07 trang báo gia đình http://www.thegioiphunu-

pnvn.com.vn/

4 222.254.10.187 12:06:30 đời sống vợ

chồng

http://afamily.channelvn.net/

5 222.254.10.187 12:07:36 đời sống vợ

chồng

http://www.thegioiphunu-

pnvn.com.vn/

6 222.254.10.187 12:08:49 đời sống vợ

chồng

http://hanhphucgiadinh.vn/

7 222.254.10.187 12:09:18 nuôi dạy con http://afamily.channelvn.net/

8 222.254.10.187 12:09:48 nuôi dạy con http://giadinh.net.vn/

9 222.254.10.187 12:10:22 gia đình trẻ http://www.thegioiphunu-

pnvn.com.vn/

10 222.254.10.187 12:10:24 báo gia đình http://afamily.channelvn.net/

Tìm luật liên kết giữa các câu truy vấn

Như đã trình bày ở mục 3.2 a, các câu truy vấn có mối quan hệ với nhau thì sẽ có

luật liên kết giữa chúng. Luận văn xác định các câu truy vấn được sắp xếp kề nhau trong

cùng 1 phiên giao dịch được xuất hiện lớn hơn hoặc bằng lần trong các phiên giao dịch thì

sẽ có mối quan hệ với nhau.

Ví dụ: Ta có một số phiên giao dịch được mô tả như bảng 5 bên dưới như sau:

Bảng 6. Một số câu truy vấn và link kết quả các phiên giao dịch của người dùng

Phiên giao dịch Câu truy vấn Link kết quả

SS1 …

sửa chữa máy tính

siêu thị máy tính

cửa hàng máy tính

http://cuumaytinh.com/

http://www.dangkhoa.vn

http://www.phucanh.vn

SS2 ..

siêu thị máy tính

cửa hàng máy tính

máy tính xách tay

http://www.trananh.vn/

http://www.ankhang.vn/

http://www.maytinhxachtay.com

SS3 ..

Linh kiện máy tính

http://www.dangkhoa.vn

Dựa vào 3 phiên giao dịch trên của người dùng ta có thể thấy 2 câu truy vấn “siêu

thị máy tính” và “cửa hàng máy tính” có thứ tự xuất hiện liền kề nhau qua 2 phiên giao

dịch của người dùng, vì vậy giữa chúng có mối quan hệ với nhau hay có luật:

“siêu thị máy tính” “cửa hàng máy tính”, và

“cửa hàng máy tính” “siêu thị máy tính”

Đồng thời, dựa vào bảng 6 trên, ta có thể thấy hai câu truy vấn “siêu thị máy tính”

và “linh kiện máy tính” đều có link kết quả là http://www.dangkhoa.vn . Vì vậy, ta có thể

đánh giá 2 câu truy vấn trên có mối quan hệ với nhau giữa chúng có luật liên kết:

“Linh kiện máy tính” “siêu thị máy tính”

Bảng 7. Thống kê số truy vấn, phiên giao dịch và tập luật liên kết dựa vào tập

query log ngày 11/04/2009

11/04/2009

Query log

Số lượng câu truy vấn 3092113

Số lượng session 437910

Số lượng luật liên kết giữa các câu

truy vấn

3513636

4.2.2.2. Xây dựng đồ thị thể hiện mối quan hệ giữa các câu truy vấn

Luận văn thực nghiệm với câu truy vấn của người dùng đưa vào là “Máy tính”. Thông

qua tập query log, ta tìm được một tập các câu truy vấn có chứa từ “máy tính”

Bảng 8. Tập 20 câu truy vấn đầu tiên chứa từ “máy tính”

STT Câu truy vấn chứa từ “máy tính STT Câu truy vấn chứa từ “máy tính

1 Siêu thị máy tính 11 Sửa máy tính xách tay

2 Siêu thị điện máy máy tính 12 Máy tính để bàn

3 Cửa hàng máy tính 13 Máy tính Sony

4 Máy tính trần anh 14 Báo giá máy tính

5 Máy tính linh kiện 15 Những thủ thuật máy tính

6 Máy tính xách tay mini 16 Hình nền đẹp máy tính

7 Máy tính xách tay 17 pc suite có kết nối mạng với máy

tính được không

8 Loa máy tính 18 Download phần mềm máy tính

9 Máy tính giá rẻ 19 sửa mainboard máy tính

10 An khang máy tính 20 Máy tính xách tay giá rẻ

Bảng 9. Một số luật liên kết giữa các câu truy vấn có chứa từ “máy tính”

STT Luật liên kết STT Luật liên kết thông qua link kết quả

1 Máy tính xách tay mini Máy tính

bảng

1 Máy tính bảng điện thoại

Link http://www.samsung.com/

2 Báo giá máy tính máy tính giá rẻ 2 Linh liện máy tính siêu thị máy

Link: http://www.trananh.vn/

3 Máy tính xách tay notebook 3 Máy tính xách tay notebook

http://www.maytinhxachtay.com/

4 Siêu thị máy tính cửa hàng máy

4 Máy tính để bàn desktop pc

http://www.vatgia.com/1256/may-

tinh-desktop.html

5 Sửa chữa máy tính sửa máy tính

xách tay

5 Báo giá máy tính máy vi tính

http://www.sieuthicomputer.com.vn/

Bảng 10. Thống kê số câu truy vấn chứa từ “máy tính” và tập luật liên kết

Số câu truy vấn chứa từ “máy tính 1183

Số câu truy vấn chứa từ “máy tính” riêng biệt 154

Số luật liên kết giữa các câu truy vấn 157

Số khái niệm riêng biệt 195

Dựa vào các tập luật liên kết thể hiện mối quan hệ giữa các câu truy vấn trên, ta xây dựng

đồ thị thể hiện mối quan hệ giữa chúng. Hình 10 thể hiện một phần của đồ thị G cho câu

truy vấn “máy tính”

Hình 10. Đồ thị mối quan hệ giữa các câu truy vấn chứa từ “máy tính”

Máy tính

giá rẻ Máy tính xách

tay giá rẻ

An Khang

Báo giá máy tính

Máy vi tính

Máy tính bảng

Sam Sung

Máy tính xách tay mini

Màn hình

Máy ảnh

Điện thoại

Notebook Laptop Máy tính

SONY Máy tính

xách tay

Desktop pc

Máy tính

để bàn

Máy tính bộ

Máy tính

trần anh

Siêu thị

máy tính

Cửa hàng

máy tính

Linh kiện

máy tính

Siêu thị điện

máy máy tính

Sửa máy

tính xách tay

Sửa chữa

máy tính

Các lỗi thường gặp khi

sử dụng máy tính

Những thủ thuật

máy tính

4.2.2.3. Xác định các khái niệm

Thực hiện xác định các khái niệm có liên quan, các khái niệm được lấy ra là những khái

niệm kết hợp với câu truy vấn “máy tính” (sau khi đã loại bỏ từ dừng) có chứa trong tập

các câu truy vấn và các khái niệm này là riêng biệt. Dựa vào đồ thị hình 10, một số khái

niệm được liệt kê ra như sau:

Khái niệm1 = {báo giá, giá rẻ, xách tay}

Khái niệm2 = {máy vi tính}

Khái niệm3 = {xách tay, bàn, desktop pc, máy tính bộ}

Khái niệm4 = {an khang}

Khái niệm5 = {samsung F250}

Khái niệm6 = {điện thoại}

Khái niệm7 = {siêu thị, cửa hàng, linh kiện}

Khái niệm8 = {linh kiện}

Bảng 11. Tập 20 khái niệm liên quan câu truy vấn “máy tính” trọng số cao nhất

STT Khái niệm Trọng số STT Khái niệm Trọng số

1 xách tay 95 11 Sửa 51

2 Laptop 84 12 Sửa chữa 51

3 Lỗi 75 13 Linh kiện 48

4 Sử dụng 75 14 Phần mềm 48

5 Thủ thuật 64 15 Download 45

6 Báo giá 62 16 Hệ thống 45

7 Giá rẻ 62 17 Game online 39

8 Cửa hàng 51 18 Kiến trúc 39

9 Siêu thị 51 19 Máy vi tính 31

10 Format 51 20 SONY 31

Nhận xét: Dựa vào tập 20 khái niệm có trọng số cao nhất theo như bảng trên, ta có thể

nhận thấy các khái niệm trên có liên quan tới câu truy vấn và cũng mang nhiều thông tin

khác nhau khi kết hợp với câu truy vấn ban đầu. Vì thế, hệ thống có thể hỗ trợ người dùng

trong việc lựa chọn câu truy vấn ban đầu nhằm làm rõ ý nghĩa, mục đích cũng như ngữ

cảnh của việc tìm kiếm của người sử dụng.

4.2.2.4. Mở rộng truy vấn

Dựa vào các khái niệm đã được xác định ở bước 3, sử dụng tập khái niệm để mở rộng cho

câu truy vấn ban đầu. Như đã trình bày ở mục 3.3a cần xác định mối quan hệ giữa câu

truy vấn ban đầu và câu truy vấn mở rộng sau khi thêm khái niệm. Dựa vào việc định

nghĩa 4 loại khái niệm theo như đã trình bày, ta có tập truy vấn mở rộng cho truy vấn

“máy tính” theo như bảng dưới

Bảng 12. Một số các câu truy vấn mở rộng cho truy vấn “máy tính”

STT Loại mở rộng Câu truy vấn mở rộng Số kết quả trả về từ

Google

1 Từ đồng nghĩa Máy tính OR (laptop OR notebook)

Máy tính OR desktop PC

128.000.000

31.600.000

2 Từ cụ thể Máy tính AND trần anh

17.000.000

3 Từ khái quát Máy tính OR Máy vi tính

27.500.000

4 Từ kết hợp Máy tính AND phần mềm

Máy tính AND (lỗi OR sử dụng)

Máy tính AND (sửa OR sửa chữa)

95.200.000

114.000.000

82.900.000

Nhận xét: Dựa theo bảng 12, ta có thể nhận thấy đối với việc mở rộng truy vấn dùng loại

mở rộng là “từ đồng nghĩa” và “từ kết hợp” thì số lượng kết quả trả về của Google nhiều

hơn so với “từ cụ thể” và “từ khái quát”. Vì vậy, chúng tôi lựa chọn phương án sử dụng

các “Từ đồng nghĩa” và “Từ kết hợp” cho việc mở rộng truy vấn.

Ngoài ra, luận văn thực hiện thực nghiệm tương tự cho một số câu truy vấn khác,

kết quả đạt được theo như bảng 13 bên dưới.

Bảng 13. Kết quả mở rộng truy vấn của một số câu truy vấn

STT Câu truy vấn Câu truy vấn mở rộng

1 Trạng lường “Trạng lường” OR “Lương Thế Vinh”

“Trạng Lường” AND “Đền thờ”

“Trạng Lường” AND “Giai thoại”

“Trạng lường” AND “Chuyện đời”

2 Chung cư “Chung cư” OR “liền kề”

“Chung cư” OR “nhà”

“Chung cư” AND “giá cả”

“Chung cư” AND “mua bán”

4.2.3. Thực nghiệm và đánh giá kết quả tìm kiếm trả về thông qua việc

mở rộng truy vấn

Để thực hiện đánh giá kết quả của việc mở rộng truy vấn, luận văn thực hiện so

sánh kết quả và số lượng trả về của hệ thống giữa câu truy vấn ban đầu và câu truy vấn

mở rộng. Nhằm thấy được hiệu quả của phương pháp trên, chúng tôi thực hiện lựa chọn

câu truy vấn ban đầu không quá phổ dụng, chẳng hạn câu truy vấn ban đầu là “Trạng

Lường”. Với câu truy vấn “Trạng Lường”, thông qua việc mở rộng truy vấn được thực

hiện theo phương pháp trên, ta có câu truy vấn mở rộng là “Trạng lường” OR “Lương

Thế Vinh”.

Chúng tôi thực hiện công việc trên sử dụng máy tìm kiếm Google, đánh giá theo

các tiêu chí sau:

Số lượng trang web tìm được

Thực hiện nhập câu truy vấn “Trạng lường” và “trạng lường” OR “lương thế vinh”

vào máy tìm kiếm Google, ta xác định được số lượng trang web kết quả trả về. Cụ thể về

kết quả theo hình 14 bên dưới.

Bảng 14. Số lượng trang web tìm được khi thực hiện tìm kiếm

Câu truy vấn “trạng lường” “trạng lường” OR “lương thế vinh”

Số lượng trang web

trả về theo Google

26.800 2.440.000

Số lượng trang web có nội dung khác nhau

Máy tìm kiếm Google có thể ước lượng được số lượng trang web có nội dung khác

nhau khi tìm kiếm một câu truy vấn. Vì vậy, luận văn thực hiện đánh giá số lượng trang

web kết quả trả về có nội dung khác nhau khi nhập hai câu truy vấn trên. Cụ thể về kết

quả theo bảng 15 bên dưới.

Bảng 15. Số lượng trang web có nội dung khác nhau

Câu truy vấn “trạng lường” “trạng lường” OR “lương thế vinh”

Số lượng trang web từ

Google

26.800 2.440.000

Số lượng trang web khác

584 836

- Với câu truy vấn “trạng lường”, đến trang hiện thị kết quả thứ 59 sẽ gặp thông

báo từ Google như sau: Ðể hiển thị cho bạn những kết quả thích hợp nhất, chúng

tôi đã loại bỏ những kết quả tương tự với 584 kết quả đã được hiển thị. Nếu muốn,

bạn có thể lặp lại quá trình tìm kiếm bao gồm cả những kết quả đã bị loại bỏ.

- Tương tự, với câu truy vấn "trạng lường" OR "lương thế vinh", trang thứ 84 sẽ

gặp thông báo: Để hiển thị cho bạn những kết quả thích hợp nhất, chúng tôi đã

loại bỏ những kết quả tương tự với 836 kết quả đã được iển thị. Nếu muốn, bạn có

thể lặp lại quá trình tìm kiếm bao gồm cả những kết quả đã bị loại bỏ.

Số lượng trang web thực sự chứa cụm từ truy vấn

Thực hiện kiểm tra và thống kê số trang web có nội dung thực sự chứa câu truy vấn.

Kết quả được thể hiện trong bảng 16

Bảng 16. Số lượng trang web thực sự chứa cụm từ truy vấn

Câu truy vấn trạng lường trạng lường or lương thế vinh

Số lượng trang web thực sự chứa trong

50 trang web đầu tiên

92 100

167 198

311 489

380 563

Nhận xét: Với câu truy vấn mở rộng, số lượng kết quả trả về từ máy tìm kiếm nhiều hơn,

đồng thời số lượng trang web thực sự chứa cụm từ cần tìm kiếm cũng nhiều hơn. Dựa vào

các kết quả của bảng 13, 14,15, ta có thể nhận thấy việc áp dụng mở rộng truy vấn đạt kết

quả cao và chính xác hơn.

Kết luận

Nhu cầu tìm kiếm thông tin thông qua Máy tìm kiếm cho ngôn ngữ tiếng Việt ngày càng

trở nên cần thiết nhằm khai thác các thông tin hiệu quả. Nhiều bài toán và các phương

pháp được đưa ra, bài toán Mở rộng truy vấn là một phần trong số đó. Để xác định

phương pháp phù hợp cho bài toán Mở rộng truy vấn với ngôn ngữ tiếng Việt là một phần

quan trọng trong quá trình xây dựng một hệ thống tìm kiếm

Luận văn tiếp cận vấn đề trên, tiến hành nghiên cứu và lựa chọn phương pháp xây dựng

đồ thị khái niệm dựa vào lịch sử giao dịch của người dùng nhằm phục vụ cho việc giải

quyết bài toán Mở rộng truy vấn nhằm tích hợp vào hệ thống tìm kiếm tiếng Việt.

Luận văn đã đạt được những kết quả sau:

- Trình bày một cách có hệ thống một số nội dung liên quan trực tiếp tới bài toán mở

rộng truy vấn trong hệ thống tìm kiếm như Xử lý truy vấn đầu vào, Thu thập dữ

liệu, Xếp hạng tài liệu để làm rõ ý nghĩa và nội dung của bài toán mở rộng truy vấn

trong hệ thống tìm kiếm.

- Phân tích ba phương pháp chính mở rộng câu hỏi là Phương pháp thủ công [13],

Phương pháp tự động [1,8, 17], Phương pháp kết hợp [4, 13, 16]. Qua xem xét điều

kiện về bộ công cụ xử lý tiếng Việt và kho ngữ liệu tiếng Việt, luận văn định

hướng vào phương pháp kết hợp để mở rộng truy vấn tiếng Việt..

- Đề nghị một mô hình Mở rộng truy vấn tiếng Việt dựa trên phương pháp sử dụng

tập query log [4]. Thông qua đồ thị khái niệm được xây dựng từ tập các mối quan

hệ giữa các câu truy vấn tiếng Việt, luận văn áp dụng mô hình đề nghị vào Hệ

thống tìm kiếm tiếng Việt Google.

- Kết quả ban đầu của thực nghiệm cho thấy, tập câu truy vấn mở rộng chứa nhiều

thông tin liên quan tới câu truy vấn, có thể hỗ trợ cho người dùng trong việc tìm

kiếm chính xác được thông tin mong muốn. Đồng thời, kết quả trả về từ máy tìm

kiếm khi nhập các câu truy vấn mở rộng có độ chính xác và số lượng kết quả cao

Do hạn chế về thời gian và kiến thức có sẵn, luận văn mới chỉ dừng lại ở mức thử

nghiệm mô hình trên một số câu truy vấn. Trong thời gian tới, tiến hành thực nghiệm

trên nhiều câu truy vấn có trong tập query log của Google nhằm đáp ứng nhu cầu tìm

kiếm của người dùng khi sử dụng máy tìm kiếm.

Tài liệu tham khảo

Tiếng Anh.

1. Abdullah M. Moussa and Rehab F. Abdel-Kader (2011), QASYO: A Question

Answering System for YAGO Ontology

(http://www.sersc.org/journals/IJDTA/vol4_no2/9.pdf )

2. Alan R. Aronson (1996), Query Expansion Using the UMLS Metathesaurus, Ph.D

thesis, National Library of Medicine.

3. Anand Arun Atre (2007), Meta-Search Engine based on Query-Expansion Using

Latent Semantic Analysis and Probabilistic Latent Semantic Analysis, Master thesis.

4. Bruno M. Fonseca, Paulo Golgher, Bruno Pôssas, Berthier Ribeiro-Neto, Nivio

Ziviani (2005), Concept-based interactive query expansion, The 14th ACM

international conference on Information and knowledge management: 696 – 703,

5. David Eichmann (1994), The RBSE Spider – Balancing Effective Search Against Web

Load. In Proceedings of the First International World Wide Web Conference, 1994.

6. Daniel Rocco, James Caverlee, Ling Liu, Terence Critchlow (2005), Posters:

Exploiting the Deep Web with DynaBot : Matching, Probing, and Ranking. Special

interest tracks and posters of the 14th international conference on World Wide Web,

May 2005

7. E. N. Efthimiadis (1996). Query expansion, Annual Review of Information Systems

and Technology, 31:121–187 (http://faculty.washington.edu/efthimis/pubs/Pubs/qe-

arist/QE-arist.html ).

8. Ellen M. Voorhees (1993), Using wordnet to disambiguate word senses for text

retrieval. Annual ACM Conference on Research and Development in Information

Retrieval. Proceedings of the 16th annual international ACM SIGIR conference on

Research and development in information retrieval, pp.171–180. Pennsylvania, United

States. 1993.

9. Fabian M. Suchanek, Gjergji Kasneci, Gerhard Weikum (2007), Yago: A Large

Ontology from Wikipedia and WordNet. MPI–I–2007–5-003 December 2007

10. Franc A. Grootjen, Theo P. Van Der Weide (2006), Conceptual query expansion. Data

& Knowledge Engineering, Volume 56, Issue 2 (February 2006), pp.174–193. 2006.

ISSN: 0169-023X.

11. Ismail Fahmi (2009). Automatic term and relation extraction for medical question

answering system, PhD Thesis, the University of Groningen

12. Kristina Nilsson, Hans Hjelm, Henrik Oxhammar (2005), SUiS–cross-language

ontology driven information retrieval in a restricted domain. Proceedings of the 15th

Nodalida Conference, pp.139-145. 2005. [online]

http://www.ling.su.se/staff/hans/artiklar/nilsson05suis.pdf .

13. Hadi Amiri, Abolfazl Ale Ahmad, Masoud Rahgozar, Farhad Oroumchian (2008),

Query Expansion Using Wikipedia Concept Graph, University of Wollongong in

Dubai – Papers 2008.

14. Huy Nguyen (2010), Mobile search engine using Clustering and Query expansion,

Master thesis, San Jose State University, 01/2010

15. MARKEY, KAREN; COCHRANE, PAULINE ATHERTON (1981), ONTAP: Online

Training and Practice Manual for ERIC Database Searchers, 2nd edn, Syracuse

University, N.Y. October 1981. ERIC Clearinghouse on Information Resources.

16. Sarmento, L., Teixeira, J., Oliveira, E. (2008). Experiments with query expansion in

the raposa (fox) question answering system,In: Borri, F., Nardi, A., Peters, C. (eds.)

Working Notes for the CLEF 2008 Workshop, Aarhus, Denmark, September 17-19

(2008)

17. Rila Mandala, Tokunaga Takenobu, Tanaka Hozumi (1998). The use of WordNet in

information retrieval. Proceedings of Coling-ACL '98 Workshop, pp.191–197. 1998.

18. Robert Krovetz, W. Bruce Croft. Lexical ambiguity and information retrieval. ACM

Transactions on Information Systems (TOIS), Volume 10, Issue 2 (April 1992),

pp.115–141. 1992. ISSN: 1046-8188

19. Sean McGettrick, Query Expansion,

www.ist.psu.edu/faculty_pages/giles/IST497/presentations/McGettrick.ppt

20. Sérgio Matos, Joel P Arrais, João Maia-Rodrigues, José Luis Oliveira (2010).

Concept-based query expansion for retrieving gene related publications from

MEDLINE, BMC Bioinformatics 2010, 11:212.

21. Weining Qian, Hailei Qian, Li Wei, Yan Wang, and Aoying Zhou. Structure-based

Query Expansion for XML Search Engine(2001). In Proc. Of 11th International

Conference of New Information Technology, pp. 235-242, Beijing, China, 2001.

22. http://jtextpro.sourceget.net

NGHIÊN CỨU, CẢI TIẾN PHƯƠNG PHÁP MỞ RỘNG TRUY VẤN …

Documents

NGHIÊN CỨU MỘT SỐ PHƯƠNG PHÁP PHÂN LỚP CẢI TIẾN, ỨNG DỤNG VÀO HỆ TRUY TÌM VĂN BẢN

Truy vấn nâng cao

Cải tạo mỏ hoan

Ra sức phát triển kinh tế - haiphong.gov.vn · cải tiến quản lý công nghiệp, ıã có những cải tiến theo hướng mở rộng quyền tự chủ cho xí nghiệp

ển hạ tầng viễn thông phục phát triển KTXH đến năm · 1. Mạng truy nhập băng rộng (10) Trách nhiệm (tiếp theo) Doanh nghiệp VT, CSP, Đài Truyền

NGHIÊN C ỨU QUÁ TRÌNH LAN TRUY N NGU N N C TRONG KÊNH …. Nguyen Dinh Vuong(1).pdf · toán mở rộng, ứng dụng đặc biệt trong việc Người phản biện:

AWV Factsheet 1 Pager · Web view2021. 6. 23. · Hệ thống này thúc đẩy việc nuôi thú cưng có trách nhiệm và cải thiện khả năng truy xuất nguồn gốc

RỘNG. RỘNG HƠN. RỘNG NHẤT

vietnamvanhien.net · Tìm hiểu về cải lương 3 Mục Lục Về Cải lương ………………………….……………..……… 9 Nguồn gốc Cải lương

TỔNG QUAN VẬN HÀNH GIẢI PHÁP TRUY CẬP TỪ XA CỦA … · 2020-04-06 · mở rộng trải nghiệm làm việc tại bất cứ đâu khi có kết nối Internet hoặc

ng ngôn viên truy

CẢI TIẾN 5S

Chương cơ sởdữliệu - fit.mta.edu.vn · Tốiưuhóa câu truy vấn LOGO Quá trình thựchiệnmộtcâu truy vấn Bước 1: Bộ quét: duyệt truy vấn để biết

PERFORMANCECADE CARDS L Y SH fla Y LIFE HAPPENS IN A … · Thẻ nhớ SD, định dạng SDXC (Dung lượng Mở rộng Kỹ thuật số An toàn) sẽ cải thiện đáng kể

CẢI TIẾN 5S - CẢI TIẾN LÃNG PHÍ

Mã Hill cải tiến

CẢI THẢO - tieuchuan.mard.gov.vn

1. Cách thức truy cập Truy cập vào địa chỉ: ...library.buh.edu.vn/Resources/Docs/thongbao/Huong dan_TRA CUU CSDL... · Cách thức truy cập Truy cập vào địa

mạng truy nhập quang

Bản Nháp Đầu Lực Lượng Đặc Nhiệm Cải Cách Cảnh Sát …...3. Mở rộng việc sử dụng chương trình máy quay đeo trên cơ thể của BPD, để giúp