View
8
Download
0
Category
Preview:
Citation preview
1
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
PHẠM THỊ THU UYÊN
NGHIÊN CỨU, CẢI TIẾN PHƯƠNG PHÁP MỞ RỘNG TRUY
VẤN VÀ TÍCH HỢP VÀO HỆ THỐNG TÌM KIẾM TIẾNG VIỆT
LUẬN VĂN THẠC SĨ
Hà Nội - 2011
2
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
PHẠM THỊ THU UYÊN
NGHIÊN CỨU, CẢI TIẾN PHƯƠNG PHÁP MỞ RỘNG TRUY
VẤN VÀ TÍCH HỢP VÀO HỆ THỐNG TÌM KIẾM TIẾNG VIỆT
Ngành: Công nghệ thông tin
Chuyên ngành: Hệ thống thông tin
Mã số: 60.48.05
LUẬN VĂN THẠC SĨ
Người hướng dẫn khoa học: PGS.TS Hà Quang Thụy
Hà Nội - 2011
3
Lời cảm ơn!
Lời đầu tiên tôi xin gửi lời cảm ơn chân thành và biết ơn sâu sắc tới PGS.TS. Hà
Quang Thuỵ, người thầy đã chỉ bảo và hướng dẫn tận tình cho tôi trong suốt quá trình
nghiên cứu khoa học và thực hiện luận văn này.
Tôi xin chân thành cảm ơn sự giúp đỡ, tạo điều kiện và khuyến khích tôi trong quá
trình làm việc và nghiên cứu của tập thể anh chị em tại Phòng thí nghiệm Công nghệ tri
thức và Tương tác người máy, Trường Đại học Công nghệ.
Và cuối cùng, tôi xin gửi lời cảm ơn tới gia đình, người thân và bạn bè – những
người luôn ở bên tôi những lúc khó khăn nhất, luôn động viên tôi, khuyến khích tôi trong
cuộc sống và trong công việc.
Tôi xin chân thành cảm ơn!
Học viên
Phạm Thị Thu Uyên
4
Lời cam đoan
Tôi xin cam đoan luận văn được hoàn thành trên cơ sở nghiên cứu, tổng hợp và
phát triển các nghiên cứu của bài toán Mở rộng truy vấn từ các nguồn trong nước và trên
thế giới do tôi thực hiện.
Luận văn này là mới, các đề xuất trong luận văn do chính tôi thực hiện, qua quá
trình nghiên cứu đưa ra và không sao chép nguyên bản từ bất kì một nguồn tài liệu nào
khác.
5
Mục lục
Mở đầu ............................................................................................................................... 10
Chương 1. Bài toán Mở rộng truy vấn trong hệ thống tìm kiếm ........................................ 12
1. 1. Giới thiệu hệ thống tìm kiếm ................................................................................ 12
1. 2. Bài toán Mở rộng truy vấn .................................................................................... 13
1.2. 1. Định nghĩa bài toán Mở rộng truy vấn ........................................................... 13
1.2. 2. Một số cần quan tâm khi thực hiện mở rộng truy vấn ................................... 14
1. 3. Tóm tắt chương 1 .................................................................................................. 16
Chương 2. Một số phương pháp mở rộng truy vấn ............................................................ 17
2.1 Phương pháp thủ công .......................................................................................... 17
2.2 Phương pháp tự động ............................................................................................ 18
2.2.1 Mối quan hệ giữa các khái niệm ......................................................................... 18
2.2.2. Một số nghiên cứu về mở rộng truy vấn sử dụng tập từ điển ............................ 22
2.3 Phương pháp kết hợp ............................................................................................ 23
2.3.1 Tự động sinh ra tập từ đồng nghĩa ................................................................. 23
2.3.2 Phương pháp sử dụng query log..................................................................... 23
2.3.3 Mở rộng truy vấn dựa vào tập từ đồng nghĩa và hình thức biểu diễn từ. ....... 26
2.3.4 Mở rộng truy vấn sử dụng đồ thị khái niệm wikipedia .................................. 27
2.4 Tóm tắt chương 2 .................................................................................................. 29
Chương 3. Mô hình đề xuất ................................................................................................ 30
3.1 Cơ sở thực tiễn ...................................................................................................... 30
3.2 Mở rộng truy vấn .................................................................................................. 31
3.3 Mô hình hệ thống tìm kiếm thực thể áp dụng cho tiếng Việt ............................... 36
3.4 Tóm tắt chương 3 .................................................................................................. 37
Chương 4. Thực nghiệm và đánh giá ................................................................................. 38
4.1. Môi trường thực hiện ............................................................................................ 38
4.2. Quá trình thực nghiệm .......................................................................................... 38
4.2.1. Nội dung, kịch bản thực nghiệm .................................................................... 38
4.2.2. Thực nghiệm mở rộng truy vấn ...................................................................... 39
6
Tài liệu tham khảo .............................................................................................................. 52
7
Danh sách hình vẽ
Hình 1. Mô hình hệ thống tìm kiếm .................................................................................. 12
Hình 2. Các câu truy vẫn hỗ trợ khi nhập câu truy vấn “Hồ Chí Minh” ........................... 15
Hình 3. Mô hình của phương pháp xây dựng khối (building block) ................................. 18
Hình 4. Mối liên hệ giữa từ “car” với các từ khác thông qua các mối quan hệ ................ 19
Hình 5. Giới thiệu về YAGO ............................................................................................ 21
Hình 6. Đồ thị mô tả mối quan hệ cho câu truy vấn “jaguar”. .......................................... 25
Hình 7. Mô hình Mở rộng truy vấn sử dụng đồ thị khái niệm Wikipedia......................... 27
Hình 8. Mô hình Mở rộng truy vấn ................................................................................... 31
Hình 9. Mô hình chung của hệ thống tìm kiếm ................................................................. 36
Hình 10. Đồ thị mối quan hệ giữa các câu truy vấn chứa từ “máy tính” .......................... 45
8
Danh sách bảng
Bảng 1. Mối quan hệ ngữ nghĩa trong WordNet ................................................................ 20
Bảng 2. Tập câu truy vấn và session .................................................................................. 33
Bảng 3. Cấu hình phần cứng sử dụng trong thực nghiệm .................................................. 38
Bảng 4. Một số phần mềm sử dụng .................................................................................... 38
Bảng 5. Tập 10 câu truy vấn đầu tiên trong một phiên giao dịch của người dùng ............ 41
Bảng 6. Một số câu truy vấn và link kết quả các phiên giao dịch của người dùng ............ 42
Bảng 7. Thống kê số truy vấn, phiên giao dịch và tập luật liên kết dựa vào tập query log
ngày 11/04/2009 ................................................................................................................. 43
Bảng 8. Tập 20 câu truy vấn đầu tiên chứa từ “máy tính” ................................................. 43
Bảng 9. Một số luật liên kết giữa các câu truy vấn có chứa từ “máy tính” ........................ 44
Bảng 10. Thống kê số câu truy vấn chứa từ “máy tính” và tập luật liên kết .................... 44
Bảng 11. Tập 20 khái niệm liên quan câu truy vấn “máy tính” trọng số cao nhất ............. 46
Bảng 12. Một số các câu truy vấn mở rộng cho truy vấn “máy tính” ................................ 47
Bảng 13. Kết quả mở rộng truy vấn của một số câu truy vấn ............................................ 48
Bảng 14. Số lượng trang web tìm được khi thực hiện tìm kiếm ........................................ 49
Bảng 15. Số lượng trang web có nội dung khác nhau ........................................................ 49
Bảng 16. Số lượng trang web thực sự chứa cụm từ truy vấn ............................................ 50
9
Bảng viết tắt
STT Viết tắt Giải thích
1 WWW World Wide Web
2 TREC Text Retrieval Conference
3 TF Term Frequency
4 HAC Hierachical Agglomerative Clustering
10
Mở đầu
Các bài toán cơ bản cho trong xử lý ngôn ngữ tự nhiên vẫn luôn nhận được sự
quan tâm đặc biệt từ các nhà nghiên cứu. Đây là nền tảng cho việc xây dựng và phát triển
các bài toán ứng dụng khác. Mở rộng truy vấn là một trong số đó, bài toán này được đã
được nhiều nhà nghiên cứu quan tâm tới từ lâu [8, 12, 15, 13] và hiện nay vẫn được
nghiên cứu và cải tiến. Bài toán mở rộng tập truy vấn với mục đích xác định cụ thể mục
đích, ngữ cảnh tìm kiếm của người sử dụng thông qua việc bổ sung thêm một số từ, khái
niệm liên quan nhằm đưa ra những kết quả chính xác đáp ứng nhu cầu của người dùng.
Đồng thời, mở rộng truy vấn được ứng dụng trong nhiều bài toán khác như: Hệ thống tìm
kiếm [14, 21], Hệ thống hỏi đáp [14],…Vì vậy, bài toán Mở rộng truy vấn đã nhận được
sự quan tâm từ các nhà nghiên cứu tại các hội nghị lớn trên thế giới trong những năm gần
đây như: ACM1, WWW2, Text Retrieval Conference (TREC)3….
Trong thời gian gần đây, mặc dù đã có nhiều phương pháp mới đưa ra nhằm cải
tiến việc mở rộng truy vấn nhưng đây vẫn là bài toán nhận được nhiều sự quan tâm từ các
nhà nghiên cứu cho các ngôn ngữ nói chung và tiếng Việt nói riêng. Tương tự như tiếng
Anh, mở rộng truy vấn cũng là một bài toán được đề cập nhiều từ xưa tới nay nhằm cải
tiến việc tìm kiếm để đưa ra kết quả chính xác trong các hệ thống như Hệ thống tìm kiếm,
Hệ thống hỏi đáp,... Việc đưa ra một phương pháp tốt nhất cho tiếng Việt hiện nay vẫn
đang là một vấn đề còn gặp nhiều khó khăn do hiện tại các kĩ thuật về xử lý ngôn ngữ, tài
nguyên ngôn ngữ học cũng như các kĩ thuật xử lý còn đang dần được hoàn thiện. Vì thế,
nhiều bài toán xử lý cho ngôn ngữ tiếng Việt còn gặp nhiều hạn chế.
Mục tiêu của luận văn này là tìm ra phương pháp nhằm nâng cao chất lượng kết
quả tìm kiếm của hệ thống tìm kiếm tiếng Việt. Để thực hiện công việc trên, luận văn
thực hiện khảo sát, nghiên cứu để đề xuất một phương pháp Mở rộng truy vấn tối ưu cho
ngôn ngữ Tiếng Việt. Để tiếp cận mục tiêu này, luận văn nghiên cứu và giới thiệu một số
phương pháp Mở rộng truy vấn được nghiên cứu từ trước tới nay, chú trọng tới các
phương pháp cập nhật. Từ đó, luận văn đề xuất mô hình pháp mở rộng truy vấn bằng
phương pháp sử dụng query log dựa trên nghiên cứu của Bruno và các cộng sự, 2005[4].
1http://www.acm.org/conferences
2http://www.iw3c2.org/conferences/index_html
3http://trec.nist.gov/
11
Thêm vào đó, luận văn áp dụng mô hình đề xuất vào Hệ thống tìm kiếm tiếng Việt. Thông
qua kết quả cung cấp cho người dùng khi sử dụng Hệ thống tìm kiếm, hệ thống cũng đánh
giá được hiệu quả của Mô hình xử lý cho bài toán Mở rộng truy vấn.
Nội dung của luận văn được chia thành các chương như sau:
Chương 1: Bài toán Mở rộng truy vấn trong hệ thống tìm kiếm. Chương này giới
thiệu sơ lược về mô hình của hệ thống tìm kiếm. Các bài toán liên quan để cải tiến
kết quả của Hệ thống tìm kiếm. Tiếp đó, trình bày định nghĩa về bài toán Mở rộng
truy vấn và một số vấn đề gặp phải
Chương 2: Một số phương pháp thực hiện mở rộng truy vấn giới thiệu một số
phương pháp mở rộng truy vấn tiêu biểu đã được đưa ra từ trước tới nay
Chương 3: Đề xuất mô hình Mở rộng truy vấn và mô hình cho Hệ thống tìm
kiếm tiếng Việt. Chương này thực hiện phân tích, đề xuất một phương pháp để giải
quyết bài toán Mở rộng truy vấn cho tiếng Việt và trình bày việc áp dụng phương
pháp đề xuất để xây dựng Hệ thống tìm kiếm tiếng Việt
Chương 4: Một số thực nghiệm và kết quả đạt được trình bày quá trình thực
nghiệm của luận văn và đưa ra một số đánh giá, nhận xét các kết quả đạt được.
12
Chương 1. Bài toán Mở rộng truy vấn trong hệ thống tìm kiếm
Tìm kiếm thông tin là nhu cầu cần thiết trong cuộc sống, con người có được thông tin từ
rất nhiều nguồn tài liệu khác nhau như sách vở, tạp chí,… Hiện nay, việc tin học hóa vào
cuộc sống ngày càng cao và thời đại thông tin bùng nổ thì Internet là một trong những
nguồn tài liệu mà con người thường sử dụng nhất. Internet là một kho dữ liệu đồ sộ, tuy
nhiên để khai thác được nó là một thách thức lớn vì dữ liệu trên Internet quá đa dạng và
không có cấu trúc. Vì thế, để tìm được thông tin cần thiết và chính xác với mong muốn
của người sử dụng là một bài toán khó. Chương này sẽ giới thiệu tổng quát về hệ thống
tìm kiếm và trình bày bài toán Mở rộng truy vấn để giải quyết vấn đề trên.
1. 1. Giới thiệu hệ thống tìm kiếm
Thông tin trên World Wide Web rất đa dạng và là kho dữ liệu lớn. Tuy nhiên, để
khai thác nguồn tri thức này một cách hiệu quả là một vấn đề lớn. Đặc biệt khi lượng
thông tin ngày càng nhiều và luôn thay đổi. Ngoài ra, hình thức thông tin cũng ngày càng
đa dạng, từ văn bản tới âm thanh, hình ảnh,… Vì vậy sẽ gây khó khăn cho người dùng
trong việc tìm kiếm thông tin. Do đó, cần phải tổ chức, quản lý thông tin từ www cho phù
hợp nhằm thuận lợi cho việc khai thác. Máy tìm kiếm ra đời là một công cụ hữu ích cho
việc khai thác thông tin. Kiếm trúc chung của một hệ thống tìm kiếm được mô tả theo như
hình 1 bên dưới
Hình 1. Mô hình hệ thống tìm kiếm
13
Các module của hệ thống tìm kiếm bao gồm:
- Thu thập dữ liệu (Crawler): Thành phần này chịu trách nhiệm đi dọc theo các
siêu liên kết trên WWW để thu thập các trang web để đảm bảo tính đầy đủ, và tươi
mới của thông tin.
- Đánh chỉ mục (Indexer): Thành phần này thực hiện việc lưu trữ nội dung các
trang Web theo cấu trúc chỉ mục ngược đảm bảo việc truy suất nhanh thông tin.
- Xử lý truy vấn (Query Engine): Thành phần này thực hiện xử lý với các truy vấn
của người dùng rồi chuyển về dạng phù hợp thực hiện cho việc tìm kiếm.
- Xếp hạng (Ranking): Thành phần này thực hiện việc xếp hạng lại kết quả các
trang theo độ phù hợp với câu truy vấn trước đi khi trình bày tới người dùng.
Như đã đánh giá, để đưa ra được kết quả chính xác theo mong muốn của người sử
dụng thì hệ thống tìm kiếm phải ngày càng được hoàn thiện. Để tăng độ chính xác và cải
thiện hệ thống, có rất nhiều bài toán con được đặt ra. Dựa vào mô hình chung của hệ
thống tìm kiếm, ta có thể thấy một số bài toán được đề cập đến như: Xử lý truy vấn ban
đầu, việc thu thập dữ liệu, bài toán đánh chỉ mục dữ liệu hay bài toán xếp hạng,… Đây là
những bài toán đã nhận được nhiều nhà nghiên cứu đưa ra giải pháp nhằm cải thiện kết
quả [5][6].
Đối với luận văn này, chúng tôi đánh giá muốn một hệ thống tìm kiếm có thể đưa
ra kết quả chính xác cho người dùng thì hệ thống đó phải hiểu được người dùng mong
muốn tìm kiếm điều gì? Tức là phải hiểu được câu truy vấn người dùng nhập vào hay các
thông tin về ngữ cảnh, mục đích tìm kiếm phải xác định được. Với suy nghĩ trên, luận văn
này thực hiện tập trung vào bài toán xử lý truy vấn ban đầu, một trong những phương
pháp được đề cập là thực hiện Mở rộng truy vấn.
1. 2. Bài toán Mở rộng truy vấn
1.2. 1. Định nghĩa bài toán Mở rộng truy vấn
Khi sử dụng Hệ thống tìm kiếm, người dùng sẽ nhập vào câu truy vấn để trả về một
tập tài liệu có nội dung liên quan. Tuy nhiên, có rất nhiều kết quả được trả về với những
nội dung khác nhau, cụ thể như sau:
- Khi nhập vào hệ thống một câu truy vấn, hệ thống sẽ trả về nhiều khái niệm đồng
nghĩa
Ví dụ: nhập từ khóa “cafe”, kết quả trả về có thể có những tài liệu có thông tin liên
quan tới từ khóa “café”. Tuy nhiên, cũng có những tài liệu có nội dung liên quan
14
tới khái niệm “restaurant”. Vì vậy, dựa vào tập tài liệu trả về bao gồm thông tin
của cả 2 khái niệm trên, người dùng có thể tìm được thông tin đúng với yêu cầu.
- Trường hợp khác, hệ thống cũng có thể trả về những tập tài liệu chứa câu truy vấn
nhưng có thông tin khác nhau.
Ví dụ: Nhập từ “apple”, hệ thống có thể trả về các tập tài liệu chứa từ khóa và các
từ khóa liên quan như “company” và “fruit”
Từ “apple”, có nghĩa là quả táo. Có thể liên tưởng tới việc người dùng muốn tìm
thông tin liên quan tới một loại trái cây. Tuy nhiên, “apple” cũng là thương hiệu
của một công ty sản xuất máy tính nổi tiếng. Vì vậy, để tìm được đúng tài liệu
mong muốn, người dùng phải thực hiện tìm kiếm trong tập tài liệu trả về. Điều này
gây bất tiện cho người sử dụng.
Nhận xét: Khi người dùng nhập vào các từ khóa không “tốt”, tức các từ khóa đa
nghĩa, không có ý nghĩa hoặc từ khóa thiếu thông tin về miền tri thức tìm kiếm. Thông
qua máy tìm kiếm, kết quả trả về sẽ bao gồm nhiều thông tin và người dùng sẽ mất thêm
thời gian cho việc tìm kiếm để có được thông tin mà mình mong muốn. Để giải quyết vấn
đề trên, bài toán “Mở rộng truy vấn” được đặt ra nhằm bổ sung thêm thông tin và xác
định ngữ cảnh giúp hệ thống tìm kiếm đưa ra kết quả chính xác nhất.
Định nghĩa: Mở rộng truy vấn là quá trình bổ sung một số từ vào truy vấn của
người dùng nhằm tạo ra các truy vấn mới tương đồng ngữ nghĩa, để từ đó giúp hệ thống
có thêm thông tin theo ngữ cảnh nhằm cải tiến các kết quả truy vấn [19].
Ví dụ: Câu truy vấn của người dùng: “car”
Sau khi mở rộng truy vấn, câu truy vấn mở rộng sẽ bao gồm: car, cars, automobile,
auto,..
Theo Efthimiadis [7] đã nhận xét phần lớn các lợi ích thu được trong việc tìm kiếm
thông tin có độ truy hồi cao phụ thuộc vào việc so trùng các từ khóa. Đối với việc mở
rộng truy vấn, hệ thống xác định ngữ nghĩa truy vấn được chính xác hơn, điều đó cho
phép kết quả truy vấn tốt hơn. Thông qua kết quả truy vấn mở rộng, người dùng có thể
học tập cách phát biểu truy vấn rõ ràng và chính xác hơn để thu được các kết quả hữu ích.
1.2. 2. Một số cần quan tâm khi thực hiện mở rộng truy vấn
Năm 2010, qua quá trình nghiên cứu Sean [19] đã đưa ra hai vấn đề cần quan tâm tới khi
thực hiện bài toán mở rộng truy vấn là:
15
Nguồn dữ liệu
Các khái niệm như thế nào được sử dụng cho việc mở rộng truy vấn? Tức là ta
quan tâm tới nguồn thông tin được sử dụng cho việc mở rộng truy vấn để đảm bảo bao
trùm được toàn bộ được tất cả các ý nghĩa của câu truy vấn.
Hiện nay, nhiều máy tìm kiếm cũng đã hỗ trợ người dùng trong việc bổ sung thêm
thông tin vào câu truy vấn.Ví dụ: Như máy tìm kiếm Google hỗ trợ cho câu truy vấn “Hồ
Chí Minh” như sau:
Hình 2. Các câu truy vẫn hỗ trợ khi nhập câu truy vấn “Hồ Chí Minh”
Dựa vào những gợi ý của Google thì những câu truy vấn trên chỉ là bổ sung thêm
các thông tin để nói đến một người, có thể là Bác Hồ hay Nguyễn Ái Quốc, Nguyễn Tất
Thành. Tuy nhiên, khi nhập vào câu truy vấn “Hồ Chí Minh”, người dùng cũng có thể
mong muốn tìm kiếm những thông tin liên quan tới một địa danh như “Thành phố Hồ Chí
Minh”, hay những thông tin khác như “Giải thưởng Hồ Chí Minh”, “tư tưởng Hồ Chí
Minh”,….
Ta có thể nhận thấy, những thông tin gợi ý mở rộng trên của máy tìm kiếm Google
chưa bao hàm hết được những thông tin có thể được mở rộng của câu truy vấn ban đầu.
Vì vậy, ta cần quan tâm tới nguồn dữ liệu phục vụ cho việc mở rộng truy vấn phải đảm
bảo có đầy đủ thông tin về câu truy vấn.
Độ đo được sử dụng cho việc đánh trọng số các khái niệm
Để có thể đưa ra những câu truy vấn mở rộng nhằm làm rõ ý nghĩa cũng như ngữ
cảnh cho câu truy vấn thì cần phải có một cách thức đánh giá thứ tự ưu tiên cho các khái
16
niệm có liên quan, hay cần phải có một phương thức hay độ đo để đánh trọng số cho các
khái niệm.
1. 3. Tóm tắt chương 1
Trong chương này, luận văn giới thiệu khái quát về kiến trúc chung của hệ thống tìm
kiếm, một số bài toán được đặt ra nhằm cải thiện độ chính xác cho hệ thống. Đồng thời,
đề cập tới bài toán Mở rộng truy vấn – một phương pháp xử lý truy vấn đầu vào cho hệ
thống tìm kiếm. Trong chương tiếp theo, luận văn trình bày một số phương pháp Mở rộng
truy vấn đã được nghiên cứu và công bố.
17
Chương 2. Một số phương pháp mở rộng truy vấn
Mở rộng truy vấn được nhiều nhà khoa học trên thế giới quan tâm vào có nhiều
công trình nghiên cứu về bài toán này [13, 15, 18]. Đã có rất nhiều nhóm giải pháp và
hướng tiếp cận khác nhau, mỗi phương pháp có những ưu nhược điểm riêng. Chương này
thực hiện trình bày các phương pháp đã được nghiên cứu và áp dụng vào Hệ thống tìm
kiếm, Hệ thống hỏi đáp, mỗi phương pháp trình bày một hướng xử lý cụ thể.
Bài toán mở rộng truy vấn được đặt ra trong việc xây dựng truy vấn ban đầu cho
việc tìm kiếm trực tuyến. Theo Efthimiadis [8], các phương pháp chính được sử dụng để
mở rộng truy vấn như sau:
- Phương pháp thủ công
- Phương pháp tự động
- Phương pháp kết hợp
2.1 Phương pháp thủ công
Đây là mở rộng truy vấn chủ yếu kết hợp việc tìm kiếm Boolean. Có rất nhiều mô
hình tìm kiếm trực tuyến đã được phát triển dựa trên mô hình Boolean và các phương
pháp tương tác giữa người dùng và hệ thống truy hồi. Có nhiều phương pháp được công
bố, như: xây dựng khối (building block), tìm kiếm đơn giản (brief search), successive
fraction,…
Phương pháp xây dựng khối (building block):
Được MARKEY và COCHRANE đưa ra năm 1981 [15],phương pháp này được người
dùng sử dụng thường xuyên.
Phương pháp này gồm các bước chính sau:
- Bước 1: Dựa vào câu truy vấn ban đầu, người tìm kiếm (người dùng hệ thống) sẽ
thực hiện phân tích chủ đề của câu truy vấn
- Bước 2: Dựa vào chủ đề của câu truy vấn được xác định, tiếp tục phân tích và đưa
ra một tập các khái niệm có liên quan.
o Việc lựa chọn các khái niệm liên quan dựa vào mối quan hệ từ đồng nghĩa
(synonyms) và từ gần nghĩa (quasi-synonyms).
- Bước 3:
o Tất cả các khái niệm trong tập khái niệm được xác định ở bước 2, nối với
nhau bởi phép toán OR, làm đầu vào cho máy tìm kiếm.
18
o Đầu ra tương ứng với mỗi câu truy vấn sẽ có các tài liệu có nội dung liên
quan. Các tập tài liệu này được nối với nhau bằng phép toán AND.
Ví dụ: Có một khái niệm t. Sau khi người dùng phân tích khái niệm trên sẽ đưa ra 3
chủ đề có liên quan tới khái niệm t là A, B, C. Từ các chủ đề lựa chọn các khái niệm
có liên quan tới câu truy vấn, thực hiện lựa chọn các khái niệm đồng nghĩa hoặc gần
nghĩa
A B C
Term A1 Term B1 Term C1
Term A2 Term B2 Term C2
Term A3 Term B3 Term C3
….
Term A3 Term B3 Term C3
Term (A1,..., An) OR-ed Term (B1,..., An) OR -ed Term (C1,..., Cn) OR-ed
AND-ed
Hình 3. Mô hình của phương pháp xây dựng khối (building block)
2.2 Phương pháp tự động
Phương pháp này tận dụng các khái niệm có sẵn trong tập từ điển và các mối quan hệ giữa
chúng để thực hiện mở rộng truy vấn.
2.2.1 Mối quan hệ giữa các khái niệm
Mối quan hệ giữa các khái niệm (khái niệm ở đây có thể là một từ hoặc một cụm
danh từ) được biểu diễn dưới dạng cấu trúc phân cấp. Dựa vào những đặc trưng và đặc
tính ngữ nghĩa, ta có thể phân thành nhiều loại mối quan hệ khác nhau.
Theo Girju, một số mối quan hệ ngữ nghĩa quan trọng là thường dùng để thể hiện
mối quan hệ giữa các khái niệm như: hyponymy/ hypernymy (is - a),
meronymy/holonymy (part - whole), synonymy và antonymy [11]. Ngoài ra, các khái
niệm và mối quan hệ giữa chúng cũng được thể hiện thông qua các tập corpus, từ điển
ngôn ngữ học,….Vì thế, cũng có rất nhiều mối quan hệ khác nhau để biểu diễn chúng.
19
Giới thiệu về WordNet
WordNet4 là một từ điển trực tuyến trong Tiếng Anh, được phát triển bởi các nhà
từ điển học trường đại học Princeton. WordNet bao gồm khoảng 100.000 khái niệm bao
gồm danh từ, động từ, tính từ, phó từ liên kết với nhau thông qua 17 mối quan hệ (được
mô tả trong bảng 1) [11]. Thông thường, người ta thường hay sử dụng WordNet cho việc
tìm kiếm các mối quan hệ ngữ nghĩa. Đồng thời, dựa vào các mối quan hệ này, một từ
trong WordNet có thể tìm được các mối liên hệ với các khái niệm khác.
Ví dụ: Từ “car” trong WordNet có thể tìm được mối liên hệ với các từ như:
Vehicle, Owner, Wheels, high,… thông qua các mối quan hệ như: is-a, has part,
hasOwner, hasSpeed,… (như hình 4)
Hình 4. Mối liên hệ giữa từ “car” với các từ khác thông qua các mối quan hệ
4http://wordnet.princeton.edu/
20
Bảng 1. Mối quan hệ ngữ nghĩa trong WordNet
Mối quan hệ Các khái niệm được liên kết
với nhau bởi mối quan hệ Ví dụ
Hypernymy
(is - a)
Danh từ - Danh từ
Động từ - Động từ
Cat is-a feline
Manufacture is-a make
Hyponymy
(reverse is-a)
Danh từ - Danh từ
Động từ - Động từ
Feline reverse is-a cat
Manufacture reverse is-a make
Is-part-of Danh từ - Danh từ Leg is-part-of table
Has-part Danh từ - Danh từ Table has-part leg
Is-member-of Danh từ - Danh từ UK is-member-of NATO
Has-member Danh từ - Danh từ NATO has-member UK
Is-suff-of Danh từ - Danh từ Carbon is-stuff-of coal
Has-stuff Danh từ - Danh từ Coal has-stuff carbon
Cause-to Động từ - Động từ To develop cause-to to grow
Entail Động từ - Động từ To snore entail to sleep
Atribute Tính từ - Danh từ Hot attribute temperature
Synonymy
(synset)
Danh từ - Danh từ
Động từ - Động từ
Tính từ - Tính từ
Phó từ - Phó từ
Car synonym automobile
To notice synonym to observe
Happy synonym content
Mainly synonym primarily
Antonymy Danh từ - Danh từ
Động từ - Động từ
Tính từ - Tính từ
Phó từ - Phó từ
Happines antonymy unhappiness
To inhale antonymy to exhale
Sincere antonymy insincere
Always antonymy never
Similarity Tính từ - Tính từ Abridge similarity shorten
See-also Động từ - Động từ Touch see-also touch down
21
Tính từ - Tính từ Inadequate see-also insatisfactory
Giới thiệu về ontology YAGO
Năm 2007, Fabian nghiên cứu và giới thiệu ontology YAGO[9]. YAGO được xây
dựng tự động từ sự kết hợp giữa Wikipedia và từ điển Wordnet. Nó bao gồm các thực thể
và các mối quan hệ giữa chứng. Hiện tại, YAGO có khoảng 1,7 triệu thực thể và 15 triệu
sự kiện. Chúng bao gồm các mối quan hệ phân cấp và không phân cấp. Thông qua kết quả
thực nghiệm, Fabian đánh giá độ chính xác của ontology YAGO là 95%.
Hình 5. Giới thiệu về YAGO
22
2.2.2. Một số nghiên cứu về mở rộng truy vấn sử dụng tập từ điển
Năm 1993, Voorhess đã khai thác các ngữ nghĩa chứa trong worknet nhằm cải tiến
hiệu quả của truy vấn bằng chỉ mục với các ngữ nghĩa của từ thay cho các từ gốc [8]. Kết
quả cho thấy hiệu quả của những vector tạo ra bởi kĩ thuật khử nhập nhằng có phần xấu
hơn các vector gốc. Qua thực nghiệm, các tác giả nhận thấy những phát biểu truy vấn
ngắn có thể gặp khó khăn trong bước khử nhặp nhằng khi tìm kiếm thông tin, vì quan hệ
phân cấp is-a không đủ mạnh cho việc chọn các nghĩa chính xác của từ. Từ đó, trong vấn
đề về giải pháp mở rộng truy vấn sử dụng tự động các synsset được tạo hoặc vấn đề giải
quyết các ngữ nghĩa không chính xác, việc so trùng chính xác các thiếu sót có hiệu suất
truy hồi thông tin thấp hơn so với các giải pháp so trùng không chính xác.
Năm 1994, Voorhees, đã sử dụng WordNet để tiến hành thực nghiệm trên các tập
TREC trong miền chuyên biệt. Các kết quả cho thấy việc mở rộng truy vấn có thể cải tiến
những vấn đề từ vựng không trùng khớp, đặc biệt trong trường hợp các từ được mở rộng
có liên quan về từ vựng với các từ trong truy vấn. Ngược lại, việc mở rộng truy vấn cho
các truy vấn dài chỉ cải thiện rất nhỏ tính hiệu quả của truy vấn thông tin, vì bản thân truy
vấn nguyên thủy đã mô tả đầy đủ yêu cầu thông tin.
Năm 1998, theo phân tích của nhóm Mandala [17] WordNet có nhược điểm là các
danh từ riêng không đầy đủ và không có khả năng để hình thức hóa các quan hệ giữa các
từ thuộc các phần khác nhau của từ loại. Ngoài ra, quan hệ bộ phận (meronymy) bị hạn
chế trong sự diễn dịch của nó. Để giải quyết vấn đề này, năm 2006 Grootjen và Van De
Weider [10] dùng giải pháp kết hợp bao gồm một từ điển chuyên đề toàn cục và từ điển
chuyên đề cục bộ được tạo tự động. Điều này đã bổ sung những khiếm khuyết về từ vựng
trong quá trình khai thác WordNet.
Năm 2005, nhóm Nilsson [12] đã sử dụng một ontology miền đặc trưng dựa trên
hệ thống SuiS (Stockholm University Information System) để thực hiện mở rộng truy vấn
SuiS chỉ cho phép các kiểu câu hỏi gồm Who, What, When, Where và chỉ có các từ đồng
nghĩa và trái nghĩa được sử dụng để tăng độ chính xác. Thực nghiệm cho thấy sự cải tiến
mang lại kết quả tốt. Tuy nhiên, phương pháp này giới hạn đối với câu hỏi WHO, chưa
thực hiện được với các truy vấn tự do
Năm 2011, tận dụng các mối quan hệ cũng như các sự kiện đã được định nghĩa
trong ontology YAGO được mô tả ở trên, nhóm tác giả Abdullah và Rehab [1] đã sử dung
23
YAGO để thực hiện mở rộng truy vấn. Ngoài ra, nhóm tác giả đã sử dụng kết quả của
việc mở rộng truy vấn vào Hệ thống hỏi đáp QASYO.
2.3 Phương pháp kết hợp
Khác với các phương pháp đã trình bày ở trên, việc mở rộng truy vấn sử dụng
phương pháp này được thực hiện kết hợp giữa hệ thống và người sử dụng. Hệ thống sẽ
thực hiện liệt kê và xếp hạng tập các từ có liên quan và người sử dụng phải quyết định lựa
chọn các khái niệm theo quan điểm tìm kiếm để tự thêm vào câu truy vấn. Vì vậy, người
dùng là người quyết định cuối cùng việc mở rộng của một từ. Nó phản ảnh tầm quan
trọng tương đối và tính hữu dụng của các khái niệm dựa vào quan điểm của người sử
dụng, do đó tăng sự hài lòng của người sử dụng.
2.3.1 Tự động sinh ra tập từ đồng nghĩa
Phương pháp này được thực hiện sử dụng các từ đồng nghĩa và có liên quan tới
khái niệm ban đầu nhằm cải thiện độ chính xác và độ hồi tưởng của việc mở rộng truy
vấn.
Ví dụ 1: Từ khóa “feline” (có nghĩa là: như mèo). Sau khi sử dụng các từ đồng nghĩa
hoặc các từ liên quan, ta có từ khóa mở rộng là “feline cat”
Ví dụ 2: Các đối tượng liên quan tới việc: grow (trồng), eaten (ăn), digested (tiêu hóa) thì
liên quan tới khái niệm “food” (thức ăn)
Theo Pushpak [26], phương pháp trên được thực hiện qua các bước thực hiện như sau:
- Bước 1: Người dùng tạo ra câu truy vấn ban đầu tập tài liệu ban đầu trả về
- Bước 2: Người dùng lựa chọn một tập các tài liệu liên quan tới kết quả mong
muốn
- Bước 3: Hệ thống sẽ đánh trọng số cho các từ có trong tập tài liệu. Từ đó, lấy ra
tập từ vựng có trọng số cao có liên quan tới câu truy vấn, tập từ này sẽ phục vụ cho
việc mở rộng câu truy vấn ban đầu.
2.3.2 Phương pháp sử dụng query log
Năm 2005, Bruno và Paulo đưa ra một phương pháp thực hiện mở rộng truy vấn
dựa trên các khái niệm [4]. Phương pháp thực hiện gồm 3 bước:
- Bước 1: Xác định các mối quan hệ giữa các câu truy vấn dựa vào query log của
người dùng.
24
Để tìm được các mối quan hệ giữa các truy vấn có trong tập log, ông cùng các cộng sự
đưa ra phương pháp dựa vào tập luật kết hợp, với phương pháp này tác giả đề cập tới 6
luật kết hợp
Ví dụ:
Ta có log của 3 người SS1, SS2, SS3 và có log của 3 transaction đó theo như bảng dưới:
Query log
SS1 Qa
Qb
Qc
SS2 Qa
Qb
Qd
SS3 Qa
Qb
Qe
Tương ứng với mỗi sesstion của một người, ta có T1 = {Qa, Qb, Qc}, T2 = {Qa, Qb, Qd},
T3 = {Qa, Qb, Qe}
Ta có một tập gồm 5 câu truy vấn I = {Qa, Qb, Qc, Qd, Qe}, trongđó: Qa thường xuyên xuất
hiện cùng Qb. Ta sẽ có luật: Qb Qa nếu Qb có liên quan tới Qa hay Qa được mở rộng truy
vấn nhờ vào Qb
- Bước 2: Xây dựng đồ thị thể hiện mối quan hệ các khái niệm
Sử dụng tập querylog và tập các luật kết hợp đã được tìm thấy từ bước 1, chúng ta
có thể tìm thấy các câu truy vấn đã được thực hiện trước đó có liên quan tới câu truy vấn
hiện tại của người dùng. Cụ thể là: Chúng ta sẽ thực hiện tìm kiếm một câu truy vấn có
trong log mà có ý nghĩa tương đồng với câu truy vấn hiện tại, hay nó bao gồm các khái
niệm có trong câu truy vấn hiện tại.
Chúng ta có câu truy vấn Qa, sau đó sẽ tìm kiếm các câu truy vấn khác có liên quan
tới Qa thông qua luật kết hợp mà chúng ta đã xác định. Nếu như Qc Qb và Qb Qa thì
Qc cũng là một ứng cử viên được sử dụng để mở rộng cho Qa.
25
Thông qua các mối quan hệ chúng ta sẽ xây dựng được một đồ thị thể hiện các mối
quan hệ cho câu truy vấn Qa. Gọi Ra là một tập các truy vấn trong log có liên quan tới Qa.:
• Với mỗi Qi và Qj thuộc Ra , ta tìm được luật Qi Qj
• Xây dựng được đồ thị quan hệ Ga cho câu truy vấn Qa. Trong đó:
– Qi, Qj là các đỉnh kề trong đồ thị Ga
– Mối quan hệ Qi Qj là cạnh của đồ thị trong Ga
Hình 6. Đồ thị mô tả mối quan hệ cho câu truy vấn “jaguar”.
- Bước 3: Dựa vào đồ thị, chỉ ra các khái niệm có liên quan để mở rộng câu truy vấn
người dùng
Dựa vào hình 6 thì ta có thể thấy các khái niệm có liên quan tới như sau:
Concept1 = {renautl, sauber, ferrari}
Concept2 = {atari, cars}
Concept3 = {lion, tiger}
Việc mở rộng truy vấn dựa vào các khái niệm
Sau khi tìm kiếm và liệt kê ra được một tập các khái niệm có liên quan tới câu truy
vấn của người dùng, chúng ta cần chỉ ra khái niệm nào là tốt nhất để thỏa mãn thông tin
mà người dùng cần. Khi người dùng lựa chọn một khái niệm có liên quan tới câu truy
vấn, chúng ta sẽ thêm những khái niệm này vào câu truy vấn ban đầu của người dùng để
thực hiện mở rộng truy vấn.
Để phân loại các khái niệm được sử dụng cho việc mở rộng, người ta phân thành 4
loại như sau:Từ đồng nghĩa, Từ cụ thể, Từ khái quát, Từ kết hợp
26
2.3.3 Mở rộng truy vấn dựa vào tập từ đồng nghĩa và hình thức biểu
diễn từ.
Năm 2007, để cải tiến kết quả của hệ thống hỏi đáp RAPOSA, Sarmento đưa ra một
phương pháp mở rộng truy vấn dựa vào tập từ đồng nghĩa [16]. Hệ thống RAPOSA bao
gồm 6 module
- Phân tích cú pháp câu hỏi (Question Parser)
- Xử lý truy vấn (Query Generator)
- Tìm kiếm các đoạn chứa từ khóa (Snippet Searcher)
- Trích xuất câu trả lời (Answer Extractor)
- Kết hợp các câu trả lời (Answer Fusion)
- Lựa chọn câu trả lời (Answer Selector)
Đối với module Xử lý truy vấn (Query Generator), Sarmentothực hiện bằng phương
pháp mở rộng câu hỏi nhờ tập từ đồng nghĩa, cách thức thực hiện như sau:
- Bước 1: Dựa vào cấu trúc ngữ pháp, xác định được cách biểu diễn của từ đưa
từ về hình thức cơ bản của từ
- Bước 2: Sử dụng từ điển đồng nghĩa Lựa chọn ra n từ liên quan đầu tiên
- Bước 3: Xác định các hình thức biểu diễn khác của tập từ đó. Tập hợp tất cả các
từ đồng nghĩa được biểu diễn dưới dạng mọi hình thức là tập truy vấn mở rộng
cho câu truy vấn ban đầu.
Ví dụ: Câu hỏi: “Quantas vezes ganhou Portugal a Taca Davis"
- Động từ trong câu: “ganhou”, đưa về dạng cơ bản của từ là: “ganhar”
- Thực hiện lựa chọn 5 từ đồng nghĩa nhất với từ “ganhar” là: “poupar”,
“vencer”, “conquistar”, “perder”, “ter” (“angariar”, “dar”, “disputar”)
- Lựa chọn những hình thức biểu diễn khác của các từ được mở rộng, như:
“ganh*”, “poup*”, “venc*”, “conquist*”, “perd*”, “ter”
- Sau đó sẽ thực hiện lấy tập từ mở rộng này để tìm kiếm tiếp.
27
2.3.4 Mở rộng truy vấn sử dụng đồ thị khái niệm wikipedia
Đồ thị khái niệm là một trong những phương pháp được sử dụng trong trí tuệ nhân
tạo nhằm đại diện cho kiến thức tiềm ẩn trong các văn bản. Dựa vào đồ thị khái niệm, ta
có thể biết được mối quan hệ giữa các khái niệm. Năm 2008, Hadi và Abolfazl dựa trên
tập dữ liệu wikipedia đã xây dựng đồ thị khái niệm [13]. Mô hình của phương pháp theo
như hình 7 bên dưới:
Hình 7. Mô hình Mở rộng truy vấn sử dụng đồ thị khái niệm Wikipedia
- Bước 1: Thu thập dữ liệu
Dựa vào câu query q và tập tài liệu từ Wikipedia, hệ thống sử dụng máy tìm
kiếm Lemur Toolkit để thu thập dữ liệu.
- Bước 2: Phân cụm dữ liệu
Hệ thống thực hiện phân cụm dữ liệu thông qua thuật toán phân cụm EM dựa
vào công cụ Weka. Sau khi thực hiện phân cụm dữ liệu, tương ứng với mỗi
cụm sẽ có một vector đặc trưng riêng.
28
- Bước 3: Phân cụm các khái niệm
Dựa vào các vector đặc trưng cho từng cụm tài liệu, lựa chọn k khái niệm có
trọng số cao nhất. Vì vậy, tương ứng với mỗi cụm dữ liệu sẽ có một cụm khái
niệm
- Bước 4: Thể hiện mối quan hệ giữa các khái niệm bằng đồ thị
Dựa vào vector đặc trưng cho từng cụm tài liệu và các cụm khái niệm, thực
hiện xây dựng đồ thị khái niệm thể hiện các khái niệm có liên quan tới câu truy
vấn ban đầu. Trong đó:
o Tâm là câu truy vấn ban đầu
o Các đỉnh là các khái niệm có liên quan tương ứng có trong cụm
o Cạnh của đồ thị thể hiện mối quan hệ giữa câu truy vấn và các khái niệm
liên quan thông qua trọng số tương ứng.
- Bước 5: Lựa chọn câu truy vấn mới
Thông qua các cụm khái niệm, hệ thống sẽ liệt kê ra các khái niệm liên quan có
trọng số tương ứng, từ đó bổ sung vào câu truy vấn ban đầu để xây dựng câu
truy vấn mở rộng. Tập truy vấn mở rộng này sẽ được làm giàu cho tập query
log ban đầu.
Ngoài các phương pháp trên, một số phương pháp khác cũng đã được nhiều nhà
nghiên cứu giới thiệu và áp dụng vào một số hệ thống, như:
- Năm 1996, Aland [2] đề xuất phương pháp mở rộng truy vấn sử dụng các
độ đo UMLS
- Năm 2007, Anand xây dựng hệ thống tìm kiếm Meta-Search, trong đó việc
xử lý câu truy vấn được sử dụng theo phương pháp sử dụng việc phân tích
chủ đề ẩn [3].
- Năm 2001, Weining Qianvà cộng sự cũng đã thực hiện mở rộng truy vấn
dựa vào cấu trúc, phương pháp này đã được áp dụng vào máy tìm kiếm
XMLS [21]
- Tháng 01/2010, máy tìm kiếm được sử dụng riêng cho Mobile được xây
dựng bởi Huy-Nguyen. Việc xây dựng máy tìm kiếm dựa trên bài toán Phân
cụm và Mở rộng truy vấn [14].
- Năm 2010, Sérgio và cộng sự giới thiệu một phương pháp mở rộng truy vấn
dựa vào các mối quan hệ giữa các gens trong lĩnh vực y tế [20].
29
2.4 Tóm tắt chương 2
Trong chương hai, luận văn giới thiệu chi tiết một số phương pháp đã được sử
dụng cho việc mở rộng truy vấn. Đồng thời, cũng giới thiệu về một số hệ thống tìm
kiếm hay hệ thống hỏi đáp sử dụng một số phương pháp mở rộng truy vấn.
Trong chương tiếp theo, luận văn thực hiện đánh giá các phương pháp đã tìm
hiểu được, từ đó đề xuất một mô hình mở rộng truy vấn phù hợp với ngôn ngữ tiếng
Việt. Tiếp theo đó, áp dụng kết quả của bài toán mở rộng truy vấn vào hệ thống tìm
kiếm tiếng Việt.
30
Chương 3. Mô hình đề xuất
3.1 Cơ sở thực tiễn
Như đã trình bày ở chương 2, để mở rộng truy vấn đã có 3 phương pháp chính
được đề cập. Mỗi phương pháp đưa ra có những ưu điểm, nhược điểm riêng.
Đối với phương pháp thủ công, độ chính xác cho câu truy vấn mở rộng cao. Tuy
nhiên phương pháp có nhược điểm lớn, đó là về chi phí và thời gian cho việc xây dựng và
phát triển. Từ đó, kinh phí cho việc bảo trì hệ thống bỏ ra sẽ vượt lợi nhuận thu vào.
Thêm vào đó, với sự phát triển ngày càng cao về công nghệ và kĩ thuật hiện đại thì việc
duy trì theo phương pháp này là sẽ khó.
Đối với phương pháp tự động thì việc tận dụng các mối quan hệ ngữ nghĩa giữa
các khái niệm đã được xây dựng trong tập từ điển hay các ontology (như Wordnet,
YAGO,..) sẽ giúp cho việc mở rộng truy vấn có kết quả cao. Tuy nhiên, để sử dụng được
tập từ điển hay ontology trên thì tốn chi phí cho các chuyên gia trong việc xây dựng và
phân tích dữ liệu.
Dựa trên những điều kiện hiện tại, để lựa chọn và đưa ra được phương pháp tốt
nhất cho tiếng Việt vẫn là một vấn đề còn gặp nhiều khó khăn do hiện nay các kĩ thuật về
xử lý ngôn ngữ (phân tích cú pháp, …), tài nguyên ngôn ngữ học (Wordnet, tập từ đồng
nghĩa,..) cũng như các kĩ thuật xử lý đang trong quá trình hoàn thiện dần. Vì vậy, phương
pháp kết hợp được đề cập để thực hiện cho bài toán mở rộng truy vấn cho tiếng Việt. Tuy
nhiên, để lựa chọn một phương pháp phù hợp với hoàn cảnh hiện tại là một vấn đề khó.
Hiện nay, việc xây dựng đồ thị thể hiện mối quan hệ giữa các khái niệm cũng là
một chủ đề nhận được nhiều nhà nghiên cứu đưa ra và nhận sự quan tâm lớn trong lĩnh
vực khai phá tri thức. Thông qua đồ thị, ta tìm được mối quan hệ giữa các khái niệm có
liên quan tới câu truy vấn. Để xây dựng được đồ thị mối quan hệ thì có nhiều hướng tiếp
cận khác nhau [4,13]. Bruno và cộng sự [4] đã thực hiện xây dựng đồ thị dựa vào tập các
luật thể hiện mối quan hệ giữa các câu truy vấn thông qua việc khai phá tập query log của
người dùng hay qua lịch sử các phiên giao dịch của người dùng khi tìm kiếm.
Dựa vào các đánh giá trên và ý tưởng của Bruno và cộng sự, luận văn này thực
hiện bài toán mở rộng truy vấn cho tiếng Việt bằng việc xây dựng đồ thị khái niệm thông
qua việc thống kê và phân tích các câu truy vấn có trong tập query log của người dùng.
Phương pháp này sẽ được trình bày cụ thể trong phần 3.2
31
3.2 Mở rộng truy vấn
Qua quá trình khảo sát các phương pháp mở rộng truy vấn và dựa trên điều kiện
thực tế về kĩ thuật xử lý ngôn ngữ, tài nguyên ngôn ngữ học cũng như các kĩ thuật học
máy phục vụ cho quá trình xử lý ngôn ngữ tiếng Việt, luận văn đề xuất phương pháp mở
rộng truy vấn bằng phương pháp khai phá query log của người dùngdựa trên nghiên cứu
của Bruno và cộng sự [4]. Dưới đây là nội dung của phương pháp:
Đầu vào:
- Tập câu truy vấn lấy từ tập log truy vấn tiếng Việt (bao gồm hơn 3 triệu truy
vấn) của người sử dụng được thu thập bởi Google vào ngày 11/04/2009
- Câu truy vấn q của người dùng
Đầu ra: Tập các câu truy vấn mở rộng cho truy vấn ban đầu.
Phương pháp thực hiện: Theo như mô hình bên dưới
Hình 8. Mô hình Mở rộng truy vấn
Query
log
Xác định mối
quan hệ giữa
các truy vấn
Tập luật
quan hệ
Xây dựng
đồ thị quan
hệ truy vấn
Câu truy
vấn Q
Đồ thị mối
quan hệ
Xác định
khái niệm Tập các
khái niệm
Mở rộng
truy vấn
Truy vấn
mở rộng
Cải tiến
32
a. Bước 1: Xác định các mối quan hệ giữa các câu truy vấn
Đầu vào: Tập các truy vấn được lấy từ query log của người dùng
Đầu ra: Tập các luật giữa các câu truy vấn thể hiện mối quan hệ giữa chúng
Phương pháp thực hiện: Đây là bước xử lý offline, gồm 2 bước:
- Thực hiện tìm tập các truy vấn có trong 1 phiên giao dịch (session) của một
người dùng dựa vào tập query log.
Để xác định được các câu truy vấn có trong một phiên giao dịch, dựa vào một
số định nghĩa do Bronu và cộng sự, ta định nghĩa như sau [4]:
Định nghĩa1: Một câu truy vấn trong dữ liệu query log ta quan tâm tới những
thông tin sau <qi, idi, ti, li>, trong đó:
o idi là địa chỉ IP của người sử dụng
o ti là thời gian mà câu truy vấn được người dùng gửi lên hệ thống
o qi là tập các câu truy vấn
o li là link liên kết trả về từ hệ thống
Định nghĩa2: Một phiên giao dịch của người dùng là một tập gồm các thành phần
{<q1, id1, t1, l1>, <q2, id2, t2 , l2>,…., <qn, idn, tn, ln>}, trong đó id1 = id2 = … = idn
và (t2 - t1) < T; (t3 – t2) < T; …; tn – tn-1 < T. Trong đó, tham số T định nghĩa là
thời gian tối đa cho phép tìm kiếm giữa hai truy vấn liên tiếp trong cùng một phiên
giao dịch.
- Thực hiện tìm các luật liên kết giữa các câu truy vấn
o Thông qua các phiên giao dịch tìm được ở bước 1, ta xác định được một tập
các câu truy vấn có mối quan hệ với nhau nếu như chúng sắp xếp liền kề
nhau và cùng xuất hiện nhiều lần trong nhiều phiên giao dịch. Tập các câu
truy vấn này có mối quan hệ với nhau thì giữa chúng có các luật liên kết
o Ngoài ra, một số luật được sử dụng để xác định mối quan hệ giữa các câu
truy vấn
Nếu có 2 luật được xác định như sau: Qb Qa, Qc Qa. Câu truy
vấn Qb, Qc đều được sử dụng để mở rộng truy vấn cho Qa
Khi có luật Qb Qa thì luật Qa Qb cũng được định nghĩa.
Một câu truy vấn Qi bất kì thì cũng có luật Qi Qi
33
o Dựa vào một tập log các truy vấn của người dùng, ta sẽ thực hiện tìm một
tập các luật liên kết giữa một số cặp câu truy vấn. Đầu ra của việc này sẽ là
một tập Ri các câu truy vấn có liên quan tới câu truy vấn Qi có trong log.
Ví dụ: Ta có log các phiên giao dịch của 3
người SS1, SS2, SS3 và tập các câu truy vấn
tương ứng như bảng 2
Tương ứng với mỗi session của một người,
ta có T1 = {Qa, Qb, Qc}, T2 = {Qa, Qb, Qd},
T3 = {Qa, Qb, Qe}
Ta có một tập gồm 5 câu truy vấn I = {Qa,
Qb, Qc, Qd, Qe}, trongđó: Qa thường xuyên
xuất hiện nhiều lần liên tiếp trong câu truy
vấn Qb. trong nhiều phiên giao dịch của
người dùng. Ta sẽ có luật: Qb Qa , hay
Qb có liên quan tới Qa hay Qa được mở
rộng truy vấn nhờ vào Qb
Bảng 2. Tập câu truy vấn và session
b. Bước 2: Xây dựng đồ thị thể hiện mối quan hệ giữa các câu truy vấn
Đầu vào:
- Các luật liên kết thể hiện mối quan hệ giữa các truy vấn được xác định ở bước 1
- Câu truy vấn q của người dùng
Đầu ra: Đồ thị thể hiện mối quan hệ giữa câu truy vấn Qa và các câu truy vấn có
liên quan
Phương pháp thực hiện:
- Với câu truy vấn q ban đầu của người dùng, ta thực hiện tìm một câu truy vấn
Qa trong tập query log có chứa chính xác các từ có trong với câu truy vấn hiện
tại của người dùng nhập vào hệ thống
- Với câu truy vấn Qa được xác định, thực hiện tìm tất cả các câu truy vấn có liên
quan thông qua các luật đã được xây dựng ở bước 1, ta thu được một tập Ra
chứa các câu truy vấn có liên quan tới Qa
o Ngoài những câu truy vấn có liên quan trực tiếp thông qua các luật liên kết
đã được xác định, các câu truy vấn gián tiếp cũng được lấy, cụ thể: Khi ta
Query log
SS1 Qa
Qb
Qc
SS2 Qa
Qb
Qd
SS3 Qa
Qb
Qe
34
có tập luật được xác định như sau: Qc Qb, Qb Qa thì Qc cũng được
xem là một câu truy vấn có liên quan tới câu truy vấn Qa
o Thông qua các mối quan hệ giữa Qi, Qj hay tập luật Qi Qj (Với mọi Qi,
Qj thuộc Ra) đã được xác định, thực hiện xây dựng đồ thị khái niệm cho câu
truy vấn Qa, đồ thị được xây dựng như sau:
Qi, Qj là các đỉnh kề trong đồ thị Ga
Mối quan hệ Qi Qj là cạnh của đồ thị trong Ga
c. Bước 3: Xác định các khái niệm
Đầu vào: Đồ thị mối quan hệ giữa câu truy vấn Qa.
Đầu ra: Các khái niệm có trong đồ thị quan hệ truy vấn được xác định ở bước 2
Phương pháp thực hiện:
Dựa vào đồ thị quan hệ truy vấn Ga cho câu truy vấn Qa đã được xây dựng, thực
hiện xác định các khái niệm liên quan tới câu truy vấn ban đầu.
Định nghĩa: Một tập các khái niệm Cj là tập hợp các nút của Ga, bắt đầu từ nút
Qi Cj, thực hiện tìm tất cả các nút trong Cj và quay về Qi (không thực hiện
thăm lần hai). Lưu ý, sẽ không có tập khái niệm C’ mà C C’
Các khái niệm có đặc điểm như sau:
o Các khái niệm được lấy ra là những khái niệm (sau khi đã loại bỏ từ dừng)
kết hợp với câu truy vấn Qa có chứa trong tập các câu truy vấn
o Các khái niệm này là riêng biệt.
o Các khái niệm có trọng số tương ứng. Trọng số này là tần số xuất hiện của
các khái niệm hay của câu truy vấn chứ nó có trong query log.
o Một khái niệm chỉ ra một nhóm các câu truy vấn có liên quan xuất hiện
nhiều lần cùng nhau
d. Bước 4: Mở rộng truy vấn
Đầu vào: Các khái niệm có liên quan tới câu truy vấn đã xác định ở bước 3
Đầu ra: Các câu truy vấn mở rộng
Phương pháp thực hiện:
- Sau khi xác định được một tập các khái niệm có liên quan tới câu truy vấn của
người dùng, chúng ta cần xác định các khái niệm nào là tốt nhất để thực hiện hỗ
trợ mở rộng truy vấn nhằm đem lại kết quả tốt nhất cho người dùng. Để thực
hiện việc này, ta thực hiện đánh trọng số cho các khái niệm.
35
o Trọng số của các khái niệm được xác định chính bằng tần suất xuất hiện
của các câu truy vấn có mối quan hệ với nhau trong query log.
- Khi thực hiện lựa chọn một khái niệm để thêm vào câu truy vấn ban đầu nhằm
xây dựng câu truy vấn mở rộng, ta cần xác định được khái niệm mới thêm vào
sẽ ảnh hưởng tới mối quan hệ giữa câu truy vấn ban đầu và câu truy vấn mở
rộng như thế nào. Để phân loại các khái niệm được sử dụng cho việc mở rộng,
dựa theo nghiên cứu của Bruno và các cộng sự thì các khái niệm được phân
thành 4 loại là: Từ đồng nghĩa, Từ mang nghĩa cụ thể, Từ mang nghĩa khái quát
và Từ kết hợp.
o Từ đồng nghĩa: Các khái niệm mô tả về mối quan hệ đồng nghĩa.
Ví dụ: Câu truy vấn “máy tính”, khái niệm mới là “máy tính xách tay”.
Trong trường hợp này, câu truy vấn mở rộng có dạng:
“máy tính” OR “laptop”
o Từ mang nghĩa cụ thể: Các khái niệm mô tả cụ thể về mặt ngữ nghĩa cho
một câu truy vấn thông thường
Ví dụ: Câu truy vấn là “Chủ tịch Hồ Chí Minh” và khái niệm “Nguyễn Ái
Quốc” thì câu truy vấn mở rộng phải là :
“Chủ tịch Hồ Chí Minh” AND “Nguyễn Ái Quốc”
o Từ mang nghĩa khái quát: Một khái niệm mô tả mang nghĩa chung chung
cho một câu truy vấn thông thường.
Ví dụ: Câu truy vấn Jaguar và khái niệm “Formula One”. Câu truy vấn mở
rộng: “jaguar OR Formula one”.
o Từ mang nghĩa kết hợp: Khái niệm mô tả việc kết hợp về ngữ nghĩa cho
một câu truy vấn thông thường
Ví dụ: câu truy vấn “tour du lịch” và khái niệm “biển, núi”, câu truy vấn
mở rộng là: “tour du lịch AND (biển OR núi)”
e. Bước 5: Cải tiến
Đầu vào: Tập query log của người dùng
Đầu ra: Mối quan hệ giữa các câu truy vấn được thể hiện thông qua luật liên kết
36
Phương pháp thực hiện:
- Dựa vào tập query log ta thấy cấu trúc của một câu query bao gồm nhiều thành
phần, luận văn thực hiện khai thác một thành phần có chứa trong log của tập
truy vấn là link liên kết tới kết quả khi tìm kiếm một câu truy vấn
Định nghĩa 3: Hai câu truy vấn cùng trỏ tới một đường link kết quả thì hai câu
này có mối quan hệ với nhau hay nói cách khái giữa hai câu này có một luật
liên kết được sinh ra
Ví dụ: Ta có 2 câu truy vấn:
Q1: \"siêu thị máy tính\" http://www.trananh.vn/
Q2: \"máy tính trần anh\” http://www.trananh.vn/
Hai câu truy vấn trên đều có một liên kết với link http://www.trananh.vn/,
suy ra hai câu trên có mối quan hệ với nhau hay có luật Q1 Q2 (nếu Q2 là
câu truy vấn có trong đồ thị, Q1 là câu truy vấn cùng link kết quả hoặc
ngược lại)
3.3 Mô hình hệ thống tìm kiếm thực thể áp dụng cho tiếng Việt
Từ những nghiên cứu liên quan được nêu ở các mục trên, luận văn đưa ra mô hình
cho Hệ thống tìm kiếm tiếng Việt, trong đó Module xử lý truy vấn đầu vào được áp dụng
phương pháp Mở rộng truy vấn được trình bày ở mục 3.2. Dưới đây là mô hình của hệ
thống:
Hình 9. Mô hình chung của hệ thống tìm kiếm
Dựa vào mô hình, Hệ thống tìm kiếm trên được thực hiện giải quyết bài toán qua 2 bước
chính:
Truy vấn
Module Mở rộng truy vấn
Truy vấn mở rộng
Tìm kiếm dữ liệu Tập tài liệu
kết quả
37
Bước 1: Thực hiện mở rộng truy vấn
- Đầu vào: Câu truy vấn người dùng nhập vào khi sử dụng máy tìm kiếm
- Đầu ra: Tập các câu truy vấn mở rộng hỗ trợ cho người dùng, thứ tự các câu truy
vấn mở rộng được sắp xếp theo trọng số tương ứng
- Phương pháp thực hiện: Theo như mô hình được trình bày ở mục 4.1
Bước 2: Thực hiện tìm kiếm dữ liệu
- Đầu vào: Câu truy vấn mở rộng đã được người dùng lựa chọn
- Đầu ra: Tập các tài liệu liên quan được trả về từ máy tìm kiếm
- Phương pháp thực hiện: Sử dụng máy tìm kiếm Google để thực hiện tìm kiếm và
trả về một tập các tài liệu có liên quan tới câu truy vấn mới.
3.4 Tóm tắt chương 3
Trong chương ba, luận văn đã thực hiện đánh giá các phương pháp đã nghiên cứu và tìm
hiểu được, từ đó giới thiệu chi tiết mô hình đề xuất cho bài toán Mở rộng truy vấn cho
ngôn ngữ tiếng Việt bằng phương pháp sử dụng query log. Đồng thời, áp dụng kết quả
mở rộng truy vấn để áp dụng vào bài toán cho Hệ thống tìm kiếm tiếng Việt. Trong
chương tiếp theo, luận văn sẽ tiến hành làm thực nghiệm dựa trên mô hình đã xây dựng
dựa vào query log từ Google và sử dụng máy tìm kiếm Google.
38
Chương 4. Thực nghiệm và đánh giá
Dựa vào cơ sở lý thuyết và mô hình đề xuất ở chương 3, luận văn tiến hành thực
nghiệm. Quá trình thực nghiệm bao gồm thực nghiệm cho phần mở rộng truy vấn và thực
nghiệm việc áp dụng mở rộng truy vấn cho hệ thống tìm kiếm tiếng Việt
4.1. Môi trường thực hiện
Cấu hình phần cứng
Bảng 3. Cấu hình phần cứng sử dụng trong thực nghiệm
Thành phần Chỉ số
CPU 2.2 GHz Core Duo Intel
RAM 2 GB
OS WindowsXP Service Pack 2, Windows 7
Bộ nhớ ngoài 160GB
Công cụ phần mềm sử dụng:
Bảng 4. Một số phần mềm sử dụng
STT Tên phần mềm Nguồn
1 Mysql http://www.mysql.com
2 Microsoft Visual Studio 2010 http://www.microsoft.com/visualstudio/en-us
Ngoài ra các công cụ trên, chúng tôi tiến hành cài đặt các module xử lý dựa trên ngôn ngữ
Visual C++, bao gồm các package chính như sau:
- Querylog.jar: Được sử dụng cho việc xác định tập các truy vấn tương ưng với các
session của người dùng dựa vào query log. Đồng thời, thực hiện tìm các luật liên
kết thể hiện mối quan hệ giữa các câu truy vấn có liên quan.
4.2. Quá trình thực nghiệm
4.2.1. Nội dung, kịch bản thực nghiệm
Dựa vào mô hình được đề xuất ở mục 3.2, luận văn tiến hành thực nghiệm, cụ thể hơn về
việc thực nghiệm như sau:
39
Dữ liệu thực nghiệm
- Câu truy vấn q của người dùng
- Tập querylog của người dùng khi sử dụng Google. Tập query log được từ một
nguồn5 đã thu thập query log từ Google vào ngày 11/04/2009 (có khoảng trên 3,8
triệu câu truy vấn)
Quá trình thực hiện gồm hai công việc chính
- Mở rộng truy vấn sử dụng query log người dùng
o Thông qua tập query log, xác định được các mối quan hệ giữa các câu truy
vấn, mối quan hệ này được thể hiện thông qua tập liên kết.
o Thực hiện xây dựng đồ thị thể hiện mối quan hệ giữa các câu truy vấn
o Xác định các khái niệm có chứa trong đồ thị
o Mở rộng truy vấn dựa vào các khái niệm đã được xác định
- Áp dụng kết quả mở rộng truy vấn vào hệ thống tìm kiếm tiếng việt
o Thực hiện tìm kiếm sử dụng hệ thống tìm kiếm tiếng Việt Google với đầu
vào là câu truy vấn mở rộng. Để đánh giá được hiệu quả của phương pháp,
thực hiện lựa chọn các khái niệm không quá phổ dụng.
4.2.2. Thực nghiệm mở rộng truy vấn
4.2.2.1. Xác định mối quan hệ giữa các câu truy vấn
Để xác định được mối quan hệ giữa các truy vấn thông qua tập luật, ta thực hiện 2
bước sau:
Tìm tập các câu truy vấn có trong một phiên giao dịch (session)
Với một câu truy vấn, theo như trình bày ở Định nghĩa 1 trong mục 3.2a, ta cần quan tâm
tới các tham số sau:
- Thời gian hệ thống nhận câu truy vấn của người dùng, t
- Địa chỉ IP của người dùng, id
- Câu truy vấn nhập vào hệ thống, q
- Link kết quả trả về, l
Trong đó, để xác định được các truy vấn nào của người dùng nằm trong một
session, ta xác định như sau: Dựa vào IP của người dùng và thời gian nhập câu truy vấn
vào hệ thống, ta xác định được một tập các câu truy vấn người dùng thực hiện tìm kiếm
5http://itim.vn
40
một phiên giao dịch trong khoảng thời gian T = 10 phút (T: thời gian tối đa cho phép tìm
kiếm giữa hai truy vấn liên tiếp trong cùng một phiên giao dịch)
Ví dụ: Câu truy vấn của người dùng được lưu lại trong log có dạng như sau:
/logbak1/cacheftp/CE178/celog_203.160.1.72_20090411_050000.txt.gz:12:00:11:
222.254.11.106 74.220.215.224 "GET http://tivitructuyen.net/ HTTP/1.1" 304
"http://www.google.com.vn/search?hl=vi&q=tivitructuyen.net&meta=&aq=0&oq=tivitru
ctuyen"
Trong đó:
- Thời gian người dùng nhập câu truy vấn vào hệ thống: 12:00:11
- Địa chỉ IP của người dùng: 222.254.11.106
- Câu truy vấn của người dùng: tử vi trực tuyến
- Link kết quả trả về: http://tivitructuyen.net
41
Bảng 5. Tập 10 câu truy vấn đầu tiên trong một phiên giao dịch của người dùng
STT IP của người
dùng
Thời gian
thực hiện
truy vấn
Tập câu truy
vấn
Link chứa kết quả trả về
1 222.254.10.187 12:03:24 trang báo gia đình http://afamily.channelvn.net
2 222.254.10.187 12:04:25 trang báo gia đình http://giadinh.net.vn/
3 222.254.10.187 12:05:07 trang báo gia đình http://www.thegioiphunu-
pnvn.com.vn/
4 222.254.10.187 12:06:30 đời sống vợ
chồng
http://afamily.channelvn.net/
5 222.254.10.187 12:07:36 đời sống vợ
chồng
http://www.thegioiphunu-
pnvn.com.vn/
6 222.254.10.187 12:08:49 đời sống vợ
chồng
http://hanhphucgiadinh.vn/
7 222.254.10.187 12:09:18 nuôi dạy con http://afamily.channelvn.net/
8 222.254.10.187 12:09:48 nuôi dạy con http://giadinh.net.vn/
9 222.254.10.187 12:10:22 gia đình trẻ http://www.thegioiphunu-
pnvn.com.vn/
10 222.254.10.187 12:10:24 báo gia đình http://afamily.channelvn.net/
Tìm luật liên kết giữa các câu truy vấn
Như đã trình bày ở mục 3.2 a, các câu truy vấn có mối quan hệ với nhau thì sẽ có
luật liên kết giữa chúng. Luận văn xác định các câu truy vấn được sắp xếp kề nhau trong
cùng 1 phiên giao dịch được xuất hiện lớn hơn hoặc bằng lần trong các phiên giao dịch thì
sẽ có mối quan hệ với nhau.
42
Ví dụ: Ta có một số phiên giao dịch được mô tả như bảng 5 bên dưới như sau:
Bảng 6. Một số câu truy vấn và link kết quả các phiên giao dịch của người dùng
Phiên giao dịch Câu truy vấn Link kết quả
SS1 …
sửa chữa máy tính
siêu thị máy tính
cửa hàng máy tính
..
…
http://cuumaytinh.com/
http://www.dangkhoa.vn
http://www.phucanh.vn
…
SS2 ..
siêu thị máy tính
cửa hàng máy tính
máy tính xách tay
..
…
http://www.trananh.vn/
http://www.ankhang.vn/
http://www.maytinhxachtay.com
SS3 ..
Linh kiện máy tính
..
…
http://www.dangkhoa.vn
..
Dựa vào 3 phiên giao dịch trên của người dùng ta có thể thấy 2 câu truy vấn “siêu
thị máy tính” và “cửa hàng máy tính” có thứ tự xuất hiện liền kề nhau qua 2 phiên giao
dịch của người dùng, vì vậy giữa chúng có mối quan hệ với nhau hay có luật:
“siêu thị máy tính” “cửa hàng máy tính”, và
“cửa hàng máy tính” “siêu thị máy tính”
Đồng thời, dựa vào bảng 6 trên, ta có thể thấy hai câu truy vấn “siêu thị máy tính”
và “linh kiện máy tính” đều có link kết quả là http://www.dangkhoa.vn . Vì vậy, ta có thể
đánh giá 2 câu truy vấn trên có mối quan hệ với nhau giữa chúng có luật liên kết:
“Linh kiện máy tính” “siêu thị máy tính”
43
Bảng 7. Thống kê số truy vấn, phiên giao dịch và tập luật liên kết dựa vào tập
query log ngày 11/04/2009
Ngày
11/04/2009
Query log
Số lượng câu truy vấn 3092113
Số lượng session 437910
Số lượng luật liên kết giữa các câu
truy vấn
3513636
4.2.2.2. Xây dựng đồ thị thể hiện mối quan hệ giữa các câu truy vấn
Luận văn thực nghiệm với câu truy vấn của người dùng đưa vào là “Máy tính”. Thông
qua tập query log, ta tìm được một tập các câu truy vấn có chứa từ “máy tính”
Bảng 8. Tập 20 câu truy vấn đầu tiên chứa từ “máy tính”
STT Câu truy vấn chứa từ “máy tính STT Câu truy vấn chứa từ “máy tính
1 Siêu thị máy tính 11 Sửa máy tính xách tay
2 Siêu thị điện máy máy tính 12 Máy tính để bàn
3 Cửa hàng máy tính 13 Máy tính Sony
4 Máy tính trần anh 14 Báo giá máy tính
5 Máy tính linh kiện 15 Những thủ thuật máy tính
6 Máy tính xách tay mini 16 Hình nền đẹp máy tính
7 Máy tính xách tay 17 pc suite có kết nối mạng với máy
tính được không
8 Loa máy tính 18 Download phần mềm máy tính
9 Máy tính giá rẻ 19 sửa mainboard máy tính
10 An khang máy tính 20 Máy tính xách tay giá rẻ
44
Bảng 9. Một số luật liên kết giữa các câu truy vấn có chứa từ “máy tính”
STT Luật liên kết STT Luật liên kết thông qua link kết quả
1 Máy tính xách tay mini Máy tính
bảng
1 Máy tính bảng điện thoại
Link http://www.samsung.com/
2 Báo giá máy tính máy tính giá rẻ 2 Linh liện máy tính siêu thị máy
tính
Link: http://www.trananh.vn/
3 Máy tính xách tay notebook 3 Máy tính xách tay notebook
Link
http://www.maytinhxachtay.com/
4 Siêu thị máy tính cửa hàng máy
tính
4 Máy tính để bàn desktop pc
http://www.vatgia.com/1256/may-
tinh-desktop.html
5 Sửa chữa máy tính sửa máy tính
xách tay
5 Báo giá máy tính máy vi tính
http://www.sieuthicomputer.com.vn/
Bảng 10. Thống kê số câu truy vấn chứa từ “máy tính” và tập luật liên kết
Số câu truy vấn chứa từ “máy tính 1183
Số câu truy vấn chứa từ “máy tính” riêng biệt 154
Số luật liên kết giữa các câu truy vấn 157
Số khái niệm riêng biệt 195
Dựa vào các tập luật liên kết thể hiện mối quan hệ giữa các câu truy vấn trên, ta xây dựng
đồ thị thể hiện mối quan hệ giữa chúng. Hình 10 thể hiện một phần của đồ thị G cho câu
truy vấn “máy tính”
45
ô
Hình 10. Đồ thị mối quan hệ giữa các câu truy vấn chứa từ “máy tính”
Máy tính
giá rẻ Máy tính xách
tay giá rẻ
An Khang
Báo giá máy tính
Máy vi tính
Máy tính bảng
Sam Sung
F250
Máy tính xách tay mini
Màn hình
LCD
Máy ảnh
Điện thoại
Notebook Laptop Máy tính
SONY Máy tính
xách tay
Desktop pc
Máy tính
để bàn
Máy tính bộ
Máy tính
trần anh
Siêu thị
máy tính
Cửa hàng
máy tính
Linh kiện
máy tính
Siêu thị điện
máy máy tính
Sửa máy
tính xách tay
Sửa chữa
máy tính
Các lỗi thường gặp khi
sử dụng máy tính
Những thủ thuật
máy tính
46
4.2.2.3. Xác định các khái niệm
Thực hiện xác định các khái niệm có liên quan, các khái niệm được lấy ra là những khái
niệm kết hợp với câu truy vấn “máy tính” (sau khi đã loại bỏ từ dừng) có chứa trong tập
các câu truy vấn và các khái niệm này là riêng biệt. Dựa vào đồ thị hình 10, một số khái
niệm được liệt kê ra như sau:
Khái niệm1 = {báo giá, giá rẻ, xách tay}
Khái niệm2 = {máy vi tính}
Khái niệm3 = {xách tay, bàn, desktop pc, máy tính bộ}
Khái niệm4 = {an khang}
Khái niệm5 = {samsung F250}
Khái niệm6 = {điện thoại}
Khái niệm7 = {siêu thị, cửa hàng, linh kiện}
Khái niệm8 = {linh kiện}
…
Bảng 11. Tập 20 khái niệm liên quan câu truy vấn “máy tính” trọng số cao nhất
STT Khái niệm Trọng số STT Khái niệm Trọng số
1 xách tay 95 11 Sửa 51
2 Laptop 84 12 Sửa chữa 51
3 Lỗi 75 13 Linh kiện 48
4 Sử dụng 75 14 Phần mềm 48
5 Thủ thuật 64 15 Download 45
6 Báo giá 62 16 Hệ thống 45
7 Giá rẻ 62 17 Game online 39
8 Cửa hàng 51 18 Kiến trúc 39
9 Siêu thị 51 19 Máy vi tính 31
10 Format 51 20 SONY 31
47
Nhận xét: Dựa vào tập 20 khái niệm có trọng số cao nhất theo như bảng trên, ta có thể
nhận thấy các khái niệm trên có liên quan tới câu truy vấn và cũng mang nhiều thông tin
khác nhau khi kết hợp với câu truy vấn ban đầu. Vì thế, hệ thống có thể hỗ trợ người dùng
trong việc lựa chọn câu truy vấn ban đầu nhằm làm rõ ý nghĩa, mục đích cũng như ngữ
cảnh của việc tìm kiếm của người sử dụng.
4.2.2.4. Mở rộng truy vấn
Dựa vào các khái niệm đã được xác định ở bước 3, sử dụng tập khái niệm để mở rộng cho
câu truy vấn ban đầu. Như đã trình bày ở mục 3.3a cần xác định mối quan hệ giữa câu
truy vấn ban đầu và câu truy vấn mở rộng sau khi thêm khái niệm. Dựa vào việc định
nghĩa 4 loại khái niệm theo như đã trình bày, ta có tập truy vấn mở rộng cho truy vấn
“máy tính” theo như bảng dưới
Bảng 12. Một số các câu truy vấn mở rộng cho truy vấn “máy tính”
STT Loại mở rộng Câu truy vấn mở rộng Số kết quả trả về từ
1 Từ đồng nghĩa Máy tính OR (laptop OR notebook)
Máy tính OR desktop PC
..
128.000.000
31.600.000
2 Từ cụ thể Máy tính AND trần anh
..
17.000.000
3 Từ khái quát Máy tính OR Máy vi tính
…
27.500.000
4 Từ kết hợp Máy tính AND phần mềm
Máy tính AND (lỗi OR sử dụng)
Máy tính AND (sửa OR sửa chữa)
..
95.200.000
114.000.000
82.900.000
Nhận xét: Dựa theo bảng 12, ta có thể nhận thấy đối với việc mở rộng truy vấn dùng loại
mở rộng là “từ đồng nghĩa” và “từ kết hợp” thì số lượng kết quả trả về của Google nhiều
48
hơn so với “từ cụ thể” và “từ khái quát”. Vì vậy, chúng tôi lựa chọn phương án sử dụng
các “Từ đồng nghĩa” và “Từ kết hợp” cho việc mở rộng truy vấn.
Ngoài ra, luận văn thực hiện thực nghiệm tương tự cho một số câu truy vấn khác,
kết quả đạt được theo như bảng 13 bên dưới.
Bảng 13. Kết quả mở rộng truy vấn của một số câu truy vấn
STT Câu truy vấn Câu truy vấn mở rộng
1 Trạng lường “Trạng lường” OR “Lương Thế Vinh”
“Trạng Lường” AND “Đền thờ”
“Trạng Lường” AND “Giai thoại”
“Trạng lường” AND “Chuyện đời”
…
2 Chung cư “Chung cư” OR “liền kề”
“Chung cư” OR “nhà”
“Chung cư” AND “giá cả”
“Chung cư” AND “mua bán”
..
4.2.3. Thực nghiệm và đánh giá kết quả tìm kiếm trả về thông qua việc
mở rộng truy vấn
Để thực hiện đánh giá kết quả của việc mở rộng truy vấn, luận văn thực hiện so
sánh kết quả và số lượng trả về của hệ thống giữa câu truy vấn ban đầu và câu truy vấn
mở rộng. Nhằm thấy được hiệu quả của phương pháp trên, chúng tôi thực hiện lựa chọn
câu truy vấn ban đầu không quá phổ dụng, chẳng hạn câu truy vấn ban đầu là “Trạng
Lường”. Với câu truy vấn “Trạng Lường”, thông qua việc mở rộng truy vấn được thực
hiện theo phương pháp trên, ta có câu truy vấn mở rộng là “Trạng lường” OR “Lương
Thế Vinh”.
49
Chúng tôi thực hiện công việc trên sử dụng máy tìm kiếm Google, đánh giá theo
các tiêu chí sau:
Số lượng trang web tìm được
Thực hiện nhập câu truy vấn “Trạng lường” và “trạng lường” OR “lương thế vinh”
vào máy tìm kiếm Google, ta xác định được số lượng trang web kết quả trả về. Cụ thể về
kết quả theo hình 14 bên dưới.
Bảng 14. Số lượng trang web tìm được khi thực hiện tìm kiếm
Câu truy vấn “trạng lường” “trạng lường” OR “lương thế vinh”
Số lượng trang web
trả về theo Google
26.800 2.440.000
Số lượng trang web có nội dung khác nhau
Máy tìm kiếm Google có thể ước lượng được số lượng trang web có nội dung khác
nhau khi tìm kiếm một câu truy vấn. Vì vậy, luận văn thực hiện đánh giá số lượng trang
web kết quả trả về có nội dung khác nhau khi nhập hai câu truy vấn trên. Cụ thể về kết
quả theo bảng 15 bên dưới.
Bảng 15. Số lượng trang web có nội dung khác nhau
Câu truy vấn “trạng lường” “trạng lường” OR “lương thế vinh”
Số lượng trang web từ
26.800 2.440.000
Số lượng trang web khác
nhau
584 836
- Với câu truy vấn “trạng lường”, đến trang hiện thị kết quả thứ 59 sẽ gặp thông
báo từ Google như sau: Ðể hiển thị cho bạn những kết quả thích hợp nhất, chúng
tôi đã loại bỏ những kết quả tương tự với 584 kết quả đã được hiển thị. Nếu muốn,
bạn có thể lặp lại quá trình tìm kiếm bao gồm cả những kết quả đã bị loại bỏ.
- Tương tự, với câu truy vấn "trạng lường" OR "lương thế vinh", trang thứ 84 sẽ
gặp thông báo: Để hiển thị cho bạn những kết quả thích hợp nhất, chúng tôi đã
loại bỏ những kết quả tương tự với 836 kết quả đã được iển thị. Nếu muốn, bạn có
thể lặp lại quá trình tìm kiếm bao gồm cả những kết quả đã bị loại bỏ.
50
Số lượng trang web thực sự chứa cụm từ truy vấn
Thực hiện kiểm tra và thống kê số trang web có nội dung thực sự chứa câu truy vấn.
Kết quả được thể hiện trong bảng 16
Bảng 16. Số lượng trang web thực sự chứa cụm từ truy vấn
Câu truy vấn trạng lường trạng lường or lương thế vinh
Số lượng trang web thực sự chứa trong
50 trang web đầu tiên
49 50
Số lượng trang web thực sự chứa trong
100 trang web đầu tiên
92 100
Số lượng trang web thực sự chứa trong
200 trang web đầu tiên
167 198
Số lượng trang web thực sự chứa trong
500 trang web đầu tiên
311 489
Số lượng trang web thực sự chứa trong
650 trang web đầu tiên
380 563
Nhận xét: Với câu truy vấn mở rộng, số lượng kết quả trả về từ máy tìm kiếm nhiều hơn,
đồng thời số lượng trang web thực sự chứa cụm từ cần tìm kiếm cũng nhiều hơn. Dựa vào
các kết quả của bảng 13, 14,15, ta có thể nhận thấy việc áp dụng mở rộng truy vấn đạt kết
quả cao và chính xác hơn.
51
Kết luận
Nhu cầu tìm kiếm thông tin thông qua Máy tìm kiếm cho ngôn ngữ tiếng Việt ngày càng
trở nên cần thiết nhằm khai thác các thông tin hiệu quả. Nhiều bài toán và các phương
pháp được đưa ra, bài toán Mở rộng truy vấn là một phần trong số đó. Để xác định
phương pháp phù hợp cho bài toán Mở rộng truy vấn với ngôn ngữ tiếng Việt là một phần
quan trọng trong quá trình xây dựng một hệ thống tìm kiếm
Luận văn tiếp cận vấn đề trên, tiến hành nghiên cứu và lựa chọn phương pháp xây dựng
đồ thị khái niệm dựa vào lịch sử giao dịch của người dùng nhằm phục vụ cho việc giải
quyết bài toán Mở rộng truy vấn nhằm tích hợp vào hệ thống tìm kiếm tiếng Việt.
Luận văn đã đạt được những kết quả sau:
- Trình bày một cách có hệ thống một số nội dung liên quan trực tiếp tới bài toán mở
rộng truy vấn trong hệ thống tìm kiếm như Xử lý truy vấn đầu vào, Thu thập dữ
liệu, Xếp hạng tài liệu để làm rõ ý nghĩa và nội dung của bài toán mở rộng truy vấn
trong hệ thống tìm kiếm.
- Phân tích ba phương pháp chính mở rộng câu hỏi là Phương pháp thủ công [13],
Phương pháp tự động [1,8, 17], Phương pháp kết hợp [4, 13, 16]. Qua xem xét điều
kiện về bộ công cụ xử lý tiếng Việt và kho ngữ liệu tiếng Việt, luận văn định
hướng vào phương pháp kết hợp để mở rộng truy vấn tiếng Việt..
- Đề nghị một mô hình Mở rộng truy vấn tiếng Việt dựa trên phương pháp sử dụng
tập query log [4]. Thông qua đồ thị khái niệm được xây dựng từ tập các mối quan
hệ giữa các câu truy vấn tiếng Việt, luận văn áp dụng mô hình đề nghị vào Hệ
thống tìm kiếm tiếng Việt Google.
- Kết quả ban đầu của thực nghiệm cho thấy, tập câu truy vấn mở rộng chứa nhiều
thông tin liên quan tới câu truy vấn, có thể hỗ trợ cho người dùng trong việc tìm
kiếm chính xác được thông tin mong muốn. Đồng thời, kết quả trả về từ máy tìm
kiếm khi nhập các câu truy vấn mở rộng có độ chính xác và số lượng kết quả cao
hơn.
Do hạn chế về thời gian và kiến thức có sẵn, luận văn mới chỉ dừng lại ở mức thử
nghiệm mô hình trên một số câu truy vấn. Trong thời gian tới, tiến hành thực nghiệm
trên nhiều câu truy vấn có trong tập query log của Google nhằm đáp ứng nhu cầu tìm
kiếm của người dùng khi sử dụng máy tìm kiếm.
52
Tài liệu tham khảo
Tiếng Anh.
1. Abdullah M. Moussa and Rehab F. Abdel-Kader (2011), QASYO: A Question
Answering System for YAGO Ontology
(http://www.sersc.org/journals/IJDTA/vol4_no2/9.pdf )
2. Alan R. Aronson (1996), Query Expansion Using the UMLS Metathesaurus, Ph.D
thesis, National Library of Medicine.
3. Anand Arun Atre (2007), Meta-Search Engine based on Query-Expansion Using
Latent Semantic Analysis and Probabilistic Latent Semantic Analysis, Master thesis.
4. Bruno M. Fonseca, Paulo Golgher, Bruno Pôssas, Berthier Ribeiro-Neto, Nivio
Ziviani (2005), Concept-based interactive query expansion, The 14th ACM
international conference on Information and knowledge management: 696 – 703,
2005.
5. David Eichmann (1994), The RBSE Spider – Balancing Effective Search Against Web
Load. In Proceedings of the First International World Wide Web Conference, 1994.
6. Daniel Rocco, James Caverlee, Ling Liu, Terence Critchlow (2005), Posters:
Exploiting the Deep Web with DynaBot : Matching, Probing, and Ranking. Special
interest tracks and posters of the 14th international conference on World Wide Web,
May 2005
7. E. N. Efthimiadis (1996). Query expansion, Annual Review of Information Systems
and Technology, 31:121–187 (http://faculty.washington.edu/efthimis/pubs/Pubs/qe-
arist/QE-arist.html ).
8. Ellen M. Voorhees (1993), Using wordnet to disambiguate word senses for text
retrieval. Annual ACM Conference on Research and Development in Information
Retrieval. Proceedings of the 16th annual international ACM SIGIR conference on
Research and development in information retrieval, pp.171–180. Pennsylvania, United
States. 1993.
9. Fabian M. Suchanek, Gjergji Kasneci, Gerhard Weikum (2007), Yago: A Large
Ontology from Wikipedia and WordNet. MPI–I–2007–5-003 December 2007
10. Franc A. Grootjen, Theo P. Van Der Weide (2006), Conceptual query expansion. Data
& Knowledge Engineering, Volume 56, Issue 2 (February 2006), pp.174–193. 2006.
ISSN: 0169-023X.
53
11. Ismail Fahmi (2009). Automatic term and relation extraction for medical question
answering system, PhD Thesis, the University of Groningen
12. Kristina Nilsson, Hans Hjelm, Henrik Oxhammar (2005), SUiS–cross-language
ontology driven information retrieval in a restricted domain. Proceedings of the 15th
Nodalida Conference, pp.139-145. 2005. [online]
http://www.ling.su.se/staff/hans/artiklar/nilsson05suis.pdf .
13. Hadi Amiri, Abolfazl Ale Ahmad, Masoud Rahgozar, Farhad Oroumchian (2008),
Query Expansion Using Wikipedia Concept Graph, University of Wollongong in
Dubai – Papers 2008.
14. Huy Nguyen (2010), Mobile search engine using Clustering and Query expansion,
Master thesis, San Jose State University, 01/2010
15. MARKEY, KAREN; COCHRANE, PAULINE ATHERTON (1981), ONTAP: Online
Training and Practice Manual for ERIC Database Searchers, 2nd edn, Syracuse
University, N.Y. October 1981. ERIC Clearinghouse on Information Resources.
16. Sarmento, L., Teixeira, J., Oliveira, E. (2008). Experiments with query expansion in
the raposa (fox) question answering system,In: Borri, F., Nardi, A., Peters, C. (eds.)
Working Notes for the CLEF 2008 Workshop, Aarhus, Denmark, September 17-19
(2008)
17. Rila Mandala, Tokunaga Takenobu, Tanaka Hozumi (1998). The use of WordNet in
information retrieval. Proceedings of Coling-ACL '98 Workshop, pp.191–197. 1998.
18. Robert Krovetz, W. Bruce Croft. Lexical ambiguity and information retrieval. ACM
Transactions on Information Systems (TOIS), Volume 10, Issue 2 (April 1992),
pp.115–141. 1992. ISSN: 1046-8188
19. Sean McGettrick, Query Expansion,
www.ist.psu.edu/faculty_pages/giles/IST497/presentations/McGettrick.ppt
20. Sérgio Matos, Joel P Arrais, João Maia-Rodrigues, José Luis Oliveira (2010).
Concept-based query expansion for retrieving gene related publications from
MEDLINE, BMC Bioinformatics 2010, 11:212.
21. Weining Qian, Hailei Qian, Li Wei, Yan Wang, and Aoying Zhou. Structure-based
Query Expansion for XML Search Engine(2001). In Proc. Of 11th International
Conference of New Information Technology, pp. 235-242, Beijing, China, 2001.
22. http://jtextpro.sourceget.net
Recommended