Upload
hieu-bui-duc
View
1.043
Download
4
Embed Size (px)
DESCRIPTION
Lý thuyết về đồ thị Web và các thuật toán phân hạng trang Web
Citation preview
Seminar Tin ứng dụngWeb graph and Page rank
Bùi Đức HiệuPhạm Anh TuấnNguyễn Văn Vũ
Đại học Bách Khoa Hà NộiViện Toán ứng dụng và Tin học
Giới thiệu
Seminar 2012
Ảnh chụp của đồ thị Internet(Nguồn: Wikipedia)
Giới thiệu
Đồ thị Web
Thuật toán PageRank
Cải tiến thuật toán PageRank
Thuật toán HITS
Cài đặt các thuật toán
Nội dung
Seminar 2012
Trong 2 thập kỷ qua, mạng internet phát triển rất mạnh mẽ. Trang web đầu tiên trên thế giới là info.cern.ch (Tim Berners-Lee), đến năm 2008 chúng ta đã có 162 triệu trang web
Giới thiệu
Seminar 2012
Giới thiệu
Seminar 2012
Vấn đề đặt ra: làm sao để khai thác tối đa những thông tin mà người sử dụng cần ???
Giới thiệu
Seminar 2012
Giải pháp:
Tạo sự liên kết giữa các trang web với nhau
Giới thiệu
Seminar 2012
Đồ thị: là một tập các đối tượng gọi là đỉnh nối với nhau bởi các cạnh.
Đồ thị
Seminar 2012
Một số khái niệm liên quan đến đồ thị:
Đồ thị vô hướng
Đồ thị
Seminar 2012
Đồ thị có hướng
Đồ thị
Seminar 2012
Ma trận: trong toán học ma trận là một bảng chứa dữ liệu theo hàng và cột
A=
Ma trận
Seminar 2012
AA B C D
A 0 1 2 3
B 0
C 0 3
D 0
C D
B1
3
632
Có một số dạng ma trận: Ma trận chéo = Ma trận tam giác = Ma trận đơn vị =
Ma trận
Seminar 2012
Vector riêng và trị riêng:A: ma trận vuông
A=
A = , vector riêng , giá trị riêng
. 3.
Ma trận
Seminar 2012
Giới thiệu
Đồ thị Web
Thuật toán PageRank
Cải tiến thuật toán PageRank
Thuật toán HITS
Cài đặt các thuật toán
Nội dung
Seminar 2012
Định nghĩa
Các tính chất của đồ thị web
Cấu trúc vi mô
Luật tăng trưởng
Mô hình
Đồ thị web
Seminar 2012
Định nghĩa:Các trang web ngoài các đặc trưng về sự hiển thị trên trình
duyệt qua ngôn ngữ HTML, CSS mà chúng còn có sự liên kết, kết nối đến nhau. Chính những liên kết này tạo nên đồ thị web.
Đồ thị web
Seminar 2012
Đồ thị web
Seminar 2012
Đồ thị web
Seminar 2012
Đồ thị và ma trận biểu diễn sự liên kết giữa các trang
Đồ thị web
Seminar 2012
1 2 3 4
1 1
2 0 0 0
3 0
4 0 0
Tính chất của đồ thị webCác trang web được xem như là các nút của đồ thịCác siêu liên kết được xem như là các cạnh của đồ thị
Đồ thị web
Seminar 2012
Cạnh
Nút
Các thuật toán phân hạng web hiện nay:
PageRank
Topic Sensitive PageRank
Adaptive PageRank
Timed PageRank
HITS
Đồ thị web
Seminar 2012
Có 4 thành phần:
SCC(strongly connected component)
IN
OUT
TENDRILS
Cấu trúc đồ thị web
Seminar 2012
Cấu trúc đồ thị web
Seminar 2012
Liên kết được nhiều trang web với nhau
Mạng lưới của những liên kết này là nguồn phong phú của các thông tin tiềm ẩn.
Ý nghĩa của đồ thị web
Seminar 2012
S: kích thước của trang web ở thời điểm 𝗍SS
: là việc thực hiện một biến ngẫu nhiên Bernouili
Sau bước T:
Luật tăng trưởng
Seminar 2012
Để
Cuối cùng ta có thể viết:
l: biến số động dương
Luật tăng trưởng
Seminar 2012
Các thuộc tính trong mô hình đồ thị web
On-line property
Power law degree distribution
Small world property
Mô hình trong đồ thị web
Seminar 2012
Đồ thị cố định hữu hạn H Chuỗi đồ thị (t: t) Cho tất cả t
(1)
(2) là đồ thị con cảm sinh của
(3) = + 1;
(4)
Mô hình đồ thị web
Seminar 2012
Một số mô hình trong đồ thị web:Mô hình tập tin đính kèm ưu đãi ( preferential attachment
models)Mô hình LCD PA (The LCD PA model)Mô hình sao chép (The copying model)Mô hình growth-deletion ( growth – deletion models)Mô hình hình học (geometric model)Mô hình off – line (off – line model)
Mô hình trong đồ thị web
Seminar 2012
Giới thiệu
Đồ thị Web
Thuật toán PageRank
Cải tiến thuật toán PageRank
Thuật toán HITS
Cài đặt các thuật toán
Nội dung
Seminar 2012
Vấn đề:
Thuật toán PageRank
Seminar 2012
Vấn đề Số lượng lớn Thay đổi liên tục Thông tin rác Độ phân tán
Thuật toán PageRank
Seminar 2012
CẦN MỘT PHƯƠNG PHÁP KHAI THÁC THÔNG TIN
CẦN GÌ
Thuật toán PageRank
Seminar 2012
Nhanh
Dễ dàng cài đặt
Chính xác
Tổng quan
Thuật toán PageRank
Seminar 2012
Kết quả thừa nhận
Thuật toán PageRank
Seminar 2012
Trang A được trỏ bởi càng nhiều link thì càng quan trọng.
“A => B thì độ quan trọng của trang A cũng ảnh hưởng đến độ quan trọng của trang B”.
Ý tưởng. Sử dụng:
Thuật toán PageRank
Seminar 2012
Xây dựng mô hình bài toán. Xây dựng đồ thị có hướng G=(V,E):
• V={Vi : Vi đại diện cho 1 web, i = 1..n }
• E={(i,j): có liên kết từ i tới j; i,j=1..n}
Mọi tính toán hạng trang thực hiện trên đồ thị này.
Thuật toán PageRank
Seminar 2012
Thuật toán PageRank
Seminar 2012
Thuật toán Đầu vào:
• Đồ thị web.• Các trang web đã có page rank mặc định
Đầu ra:• Các trang được xếp hạng theo page rank thực
Thuật toán PageRank
Seminar 2012
Thuật toán - Hướng tiếp cận ban đầu. Giả thuyết: G(V,E) liên thông Công thức:
• Trong đó: – r(i): Hạng của trang web i.– N(j): Số liên kết ra khỏi trang j– B(i): Tập các trang có liên kết trỏ tới trang i
Thuật toán PageRank
Seminar 2012
Vấn đề: Số lượng thông tin rất lớn.
Giải quyết: Thử đưa về mô hình toán học, áp dụng các
thuật toán tính toán nhanh
Thuật toán PageRank
Seminar 2012
Cần phương pháp để tính toán
Xây dựng mô hình toán học ĐẶT:
• : vectơ PageRank• = ma trận kích thước n*n
Thuật toán PageRank
Seminar 2012
DẠNG TOÁN HỌC:
Nhận thấy:
• r chính là vectơ riêng của ma trận
Phương pháp giải:• Các thuật toán tìm vectơ riêng trong đại số.
Thuật toán PageRank
Seminar 2012
Thuật toán – Cải tiến Vì sao phải cải tiến? Liệu có trang web nào có page rank bằng 0?
Thuật toán PageRank
Seminar 2012
Thuật toán cải tiến
Trong đó: • r(v): Hạng của trang v.• : Hằng số hội tụ, thường = 0.85• : Tổng số trang.• : Tập hợp các nút có liên kết tới v.• : Số liên kết đi ra khỏi trang w.
Thuật toán PageRank
Seminar 2012
Lưu ý. Thuật toán sử dụng lặp để tính toán liên tiếp, tác
giả đã khẳng định sau khoảng 50 vòng lặp sẽ nhận kết quả với sai số chấp nhận được
Đánh giá.
Thuật toán PageRank
Seminar 2012
Giới thiệu
Đồ thị Web
Thuật toán PageRank
Cải tiến thuật toán PageRank
Thuật toán HITS
Cài đặt các thuật toán
Nội dung
Seminar 2012
Topic Sensitive PageRank
Seminar 2012
Taher H. Haveliwala đề xuất, 2002Ý tưởng:
Tạo một danh sách n chủ đề cần quan tâm, và thư mục lưu trữ dữ liệu liên quan đến chủ đề , n >0
Với mỗi chủ đề, áp dụng thuật toán PageRank thường.
Kết quả:Mỗi trang nhận được 1 vectơ
Topic Sensitive PageRank
Seminar 2012
Adaptive PageRank
Seminar 2012
Sepandar D. Kamvar và cộng sự, 2003Tận dụng những trang hội tụ sớm và kết quả độ quan
trọng của các trang đã hội tụ có thể không cần tính tiếp
Adaptive PageRank
Seminar 2012
Timed PageRank
Seminar 2012
Tích hợp tìm kiếm PageRank theo thời gianXin Li, Bing Liu, và Philip S. Yu đề xuất, 2006Thay hệ số hãm d bằng hàm thời gian f(t)
f(t) sẽ chọn đi theo 1 outbound link (liên kết đi) (1-f(t)) sẽ nhảy sang 1 trang khác
Timed PageRank
Seminar 2012
Giới thiệu
Đồ thị Web
Thuật toán PageRank
Cải tiến thuật toán PageRank
Thuật toán HITS
Cài đặt các thuật toán
Nội dung
Seminar 2012
HITS - Hypertext Induced Topic Selection Jon M. Kleinberg đề xuất, 1998 - 1999 Không giống như PageRank - một thuật toán xếp hạng tĩnh,
HITS phụ thuộc vào truy vấn tìm kiếm.
HITS
Seminar 2012
Authority pages: là những trang được xem là phù hợp nhất đối với mỗi câu truy vấn cụ thể nào đó.
Authority
Seminar 2012
Auth
Hub pages: là những trang không cần có đặc tính “authority” nhưng lại trỏ tới nhiều trang có đặc tính “authority”.
Hub
Seminar 2012
Hub
Hub và Authority
Seminar 2012
Trang có hub tốt là trang có nhiều liên kết ra.
Trang có authority tốt là trang có nhiều liên kết tới.
Trang trỏ tới trang có authority cao thì trọng số hub
càng cao, trang nào được nhiều trang có hub cao trỏ
tới thì trọng số authority càng cao.
Ý tưởng của HITS
Seminar 2012
Xác định tập hợp cơ sở SCho phép thiết lập các dữ liệu trả về bởi một công cụ
tìm kiếm tiêu chuẩn được gọi là các root set (thiết lập gốc) R
Khởi tạo S cho R
HITS - 1
Seminar 2012
Thêm vào S tất cả các trang được trỏ đến bởi bất kỳ trang nào trong R.
Thêm vào S tất cả các trang trỏ đến bất kỳ trang nào trong R
Duy trì cho mỗi trang p trong S:Trọng số authority : (vector a)Trọng số hub : (vector h)
HITS - 2
Seminar 2012
Đối với mỗi nút khởi tạo và với 1/n
Trong mỗi lần lặp tính toán trọng số authority cho mỗi nút trong S
HITS - 3
Seminar 2012
Trong mỗi lần lặp tính toán trọng số hub cho mỗi nút trong S
Lưu ý: Các trọng số hub được tính từ trọng số authority hiện hành, và trọng số hub trước đó.
HITS - 4
Seminar 2012
Sau khi trọng số mới được tính toán cho tất cả các nút, các trọng số được chuẩn hóa:
HITS - 5
Seminar 2012
Initialize for all
For i = 1 to k:
For all
For all
For all c:
For all c:
Giả mã của HITS
Seminar 2012
Root Set R {1,2,3,4} Mở rộng nó để tạo thành Base Set S
Ví dụ
Seminar 2012
Kết quả của ví dụ
Seminar 2012
AuthorityHub
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
HITS nhấn mạnh tăng cường lẫn nhau giữa các trang authority và hub, trong khi PageRank thì không. PageRank xếp hạng trang chỉ bởi các trang authority.
HITS được áp dụng cho các vùng lân cận của các trang xung quanh kết quả của một truy vấn trong khi PageRank được áp dụng cho toàn bộ trang web
HITS là truy vấn phụ thuộc nhưng PageRank là truy vấn độc lập
PageRank - HITS
Seminar 2012
Cả HITS và PageRank đều tính toán trên ma trận.Đều không ổn định: thay đổi một số liên kết có thể
dẫn đến bảng xếp hạng khác nhau.PageRank không quản lý các trang không có cạnh
ngoài rất tốt, vì nó giảm PageRank tổng thể
PageRank - HITS
Seminar 2012
Khai phá dữ liệu Web(Web mining) có ý nghĩa quan trọng trong cuộc sống và công nghệ.
PageRank hay HITS là các thuật toán cơ bản để xây dựng các Search Engine.
Tuy nhiên, các search engine nổi tiếng như Google, Yahoo hay Bing đều có những cải tiến và các thuật toán khác không được công bố!
Kết luận
Seminar 2012
Giới thiệu
Đồ thị Web
Thuật toán PageRank
Cải tiến thuật toán PageRank
Thuật toán HITS
Cài đặt các thuật toán
Nội dung
Seminar 2012
Q & A
Seminar 2012