46
XÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG PHÂN TÁN Nhóm thực hiện: Trần Kinh Lý – 0612252 Phạm Quốc Mỹ – 0612271 Giáo viên hướng dẫn: GVC. Cao Đăng Tân ThS. Đào Anh Tuấn

XÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG PHÂN TÁN Nhóm thực hiện: Trần Kinh Lý – 0612252 Phạm Quốc Mỹ – 0612271 Giáo viên hướng dẫn:

  • View
    216

  • Download
    2

Embed Size (px)

Citation preview

Page 1: XÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG PHÂN TÁN Nhóm thực hiện: Trần Kinh Lý – 0612252 Phạm Quốc Mỹ – 0612271 Giáo viên hướng dẫn:

XÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG

PHÂN TÁN

Nhóm thực hiện:

Trần Kinh Lý – 0612252

Phạm Quốc Mỹ – 0612271

Giáo viên hướng dẫn:

GVC. Cao Đăng Tân

ThS. Đào Anh Tuấn

Page 2: XÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG PHÂN TÁN Nhóm thực hiện: Trần Kinh Lý – 0612252 Phạm Quốc Mỹ – 0612271 Giáo viên hướng dẫn:

Page 2

– Tổng quan về luận văn.

– Tổng quan về thư rác.

– Các kỹ thuật quét thư rác sử dụng trong hệ thống xây dựng.

– Hệ thống thử nghiệm.

– Các vấn đề đạt được.

– Hướng phát triển.

Nội dung

Page 3: XÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG PHÂN TÁN Nhóm thực hiện: Trần Kinh Lý – 0612252 Phạm Quốc Mỹ – 0612271 Giáo viên hướng dẫn:

Page 3

Page 4: XÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG PHÂN TÁN Nhóm thực hiện: Trần Kinh Lý – 0612252 Phạm Quốc Mỹ – 0612271 Giáo viên hướng dẫn:

Page 4

Lịch sử thư rác có thể chia thành 3 giai đoạn sau: • Giai đoạn thứ nhất – những năm đầu của thư rác

» 1978 thư rác xuất hiện lần đầu tiên. » 1988 xuất hiện nhiều loại thư rác khác nhau.

• Giai đoạn hai – thư rác được gởi thông qua phần mềm» Thư rác Jesus và thư rác “Cantel và Siegel” là loại thư rác điển hình cho

giai đoạn này. » 1995, Jeff Slaton là một trong những người đầu tiên kiếm lợi nhuận từ

các thư rác mà ông gửi đi.

• Giai đoạn thứ ba – phần mềm chống thư rác chống lại các phần mềm gửi thư rác

» 1996 xuất hiện các phần mềm chống thư rác đầu tiên như Spamblock, Internet Death Penalty.

» 97% tổng số thư điện tử được gửi trên mạng là các thư rác (BBC news).

Tổng quan về thư rác

Page 5: XÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG PHÂN TÁN Nhóm thực hiện: Trần Kinh Lý – 0612252 Phạm Quốc Mỹ – 0612271 Giáo viên hướng dẫn:

Page 5

Định nghĩa thư rác:

thư rác là “số lượng lớn thư điện tử không yêu cầu” và trong số đó các thư điện tử quảng cáo, thương mại chiếm đa số

Tổng quan về thư rác

Page 6: XÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG PHÂN TÁN Nhóm thực hiện: Trần Kinh Lý – 0612252 Phạm Quốc Mỹ – 0612271 Giáo viên hướng dẫn:

Page 6

Mục đích gửi thư rác: • Quảng cáo sản phẩm, dịch vụ, … của tổ chức, công ty

thương mại nào đó.• Lợi dụng sự cả tin của người dùng để lừa gạt họ, như các

hình thức kiếm tiền trực tuyến, …• Gửi kèm virus trong tập tin kèm theo của thư điện tử, từ đó

đưa virus vào máy nạn nhân và hệ thống mạng mà nạn nhân sử dụng.

• Nói xấu, xuyên tạc ai đó, tuyên truyền những điều sai trái về chính trị.

Tổng quan về thư rác

Page 7: XÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG PHÂN TÁN Nhóm thực hiện: Trần Kinh Lý – 0612252 Phạm Quốc Mỹ – 0612271 Giáo viên hướng dẫn:

Page 7

Các đặc tính của thư rác: • Thư rác mang tính tương đối. • Tính bất biến trong một thư rác. • Header của thư rác có một số đặc điểm đặc biệt.

» Giấu các địa chỉ nhận vào “Bcc:” thay vì để ở “To:” hoặc “Cc:”. » Tồn tại các dòng mã HTML không đúng quy tắc hoặc khoảng trắng

tuần tự.

...

• Nội dung của thư chứa các từ thường xuất hiện phổ biến trong thư rác (kiếm tiền, giàu nhanh, chọn nhanh,...).

• Sự giống nhau ở kích thước/ loại tập tin/ tên tập tin attach thư rác ở các lần spam.

Tổng quan về thư rác

Page 8: XÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG PHÂN TÁN Nhóm thực hiện: Trần Kinh Lý – 0612252 Phạm Quốc Mỹ – 0612271 Giáo viên hướng dẫn:

Page 8

Các kỹ thuật tạo thư rác: • Chỉnh sửa phần header của thư rác.

» Giấu các địa chỉ nhận ở “Bcc:”. » Dùng mã HTML và khoảng trắng để che dấu thông tin nhằm mục đích

đánh lừa người nhận thư rác.

• Chỉnh sửa phần nội dung của thư rác. » Thay đổi một phần nội dung (đảo, thêm, xóa) cho lần gửi thư rác kế

tiếp. » Thay đổi cách dùng từ nhưng ý nghĩa văn bản thư rác vẫn không đổi. » Dùng hình ảnh thay cho văn bản để tránh các bộ lọc thư rác thông qua

văn bản.

• Tổ hợp của các cách.

Tổng quan về thư rác

Page 9: XÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG PHÂN TÁN Nhóm thực hiện: Trần Kinh Lý – 0612252 Phạm Quốc Mỹ – 0612271 Giáo viên hướng dẫn:

Page 9

Blacklisting

Các kỹ thuật lọc thư rác

Page 10: XÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG PHÂN TÁN Nhóm thực hiện: Trần Kinh Lý – 0612252 Phạm Quốc Mỹ – 0612271 Giáo viên hướng dẫn:

Page 10

Whitelisting

Các kỹ thuật lọc thư rác

Page 11: XÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG PHÂN TÁN Nhóm thực hiện: Trần Kinh Lý – 0612252 Phạm Quốc Mỹ – 0612271 Giáo viên hướng dẫn:

Page 11

Heuristic Filtering• Heristic filtering làm việc dựa trên hàng ngàn luật được định

nghĩa trước. • Mỗi luật đều được gán một điểm số để biết xác xuất thông

điệp có phải là thư rác không, kết quả cuối cùng của biểu thức gọi là Spam Score.

• Tập luật được thiết kế để mọi người sử dụng.

Các kỹ thuật lọc thư rác

Page 12: XÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG PHÂN TÁN Nhóm thực hiện: Trần Kinh Lý – 0612252 Phạm Quốc Mỹ – 0612271 Giáo viên hướng dẫn:

Page 12

Challenge/ Response• Challenge/ Response là cách tiếp cận tương tự với kỹ thuật

whitelisting. • Challenge/ Response sẽ tự động gửi một thông điệp

challenge tới người gửi thư.Trong thông điệp này, người gửi được yêu cầu làm một vài thao tác (như ấn vào một liên kết) để thông điệp đầu tiên được tới người nhận đồng thời người gửi được đưa vào danh sách whitelist, nếu không thông điệp sẽ không được gửi.

Các kỹ thuật lọc thư rác

Page 13: XÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG PHÂN TÁN Nhóm thực hiện: Trần Kinh Lý – 0612252 Phạm Quốc Mỹ – 0612271 Giáo viên hướng dẫn:

Page 13

Throttling• Throttling là cách để giảm lưu lượng mà một mạng hay một

host có thể gửi.

• Kỹ thuật này sẽ bảo vệ các tài nguyên quan trọng đang bị kẻ phát tán thư rác sử dụng và làm cho lượng thư rác đi vào đường mạng ít hơn.

Các kỹ thuật lọc thư rác

Page 14: XÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG PHÂN TÁN Nhóm thực hiện: Trần Kinh Lý – 0612252 Phạm Quốc Mỹ – 0612271 Giáo viên hướng dẫn:

Page 14

Address Obfuscation• Là kỹ thuật làm rối địa chỉ thư điện tử nhằm ẩn địa chỉ đó đối

với kẻ phát tán thư rác.

• Kỹ thuật này được dùng chống lại các con bot chuyên thu thập địa chỉ thư điện tử mới trên các trang web để đưa là danh sách của những kẻ phát tán thư rác.

Các kỹ thuật lọc thư rác

Page 15: XÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG PHÂN TÁN Nhóm thực hiện: Trần Kinh Lý – 0612252 Phạm Quốc Mỹ – 0612271 Giáo viên hướng dẫn:

Page 15

Collaborative Filtering (lọc hợp tác)• Cho phép những cá nhân trong các nhóm tin cậy chia sẻ các

thông điệp thư rác với nhau làm nhân tố chống lại một loại thư rác cụ thể nào đó.

Các kỹ thuật lọc thư rác

Page 16: XÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG PHÂN TÁN Nhóm thực hiện: Trần Kinh Lý – 0612252 Phạm Quốc Mỹ – 0612271 Giáo viên hướng dẫn:

Page 16

Kỹ thuật thống kêKỹ thuật so khớp

Các kỹ thuật quét thư rác sử dụng trong hệ thống xây dựng

Page 17: XÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG PHÂN TÁN Nhóm thực hiện: Trần Kinh Lý – 0612252 Phạm Quốc Mỹ – 0612271 Giáo viên hướng dẫn:

Page 17

Kỹ thuật thống kê• Tổng quan

» Là phương pháp sử dụng các thống kê và xác xuất để xác định một thông điệp có giống với thư rác hay không.

» Phương pháp lọc thống kê chủ yếu dựa trên việc “dạy” cho bộ lọc biết làm sao để có thể phân biệt được các loại thư khác nhau.

» Chức năng cơ bản của bộ lọc thống kê: phân tích, học các đặc trưng» Khái niệm máy học trong phân loại thư điện tử» Có 2 cách huấn luyện cho bộ lọc:

» Huấn luyện từ kho có sẵn, sau đó việc huấn luyện tiếp tục theo thời gian hệ thống hoạt động.

» Hệ thống chưa có dữ liệu, việc huấn luyện phải theo thời gian hệ thống hoạt động sau này.

» Cho phép học lại các thư đã phân loại sai.

Các kỹ thuật quét thư rác sử dụng trong hệ thống xây dựng

Page 18: XÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG PHÂN TÁN Nhóm thực hiện: Trần Kinh Lý – 0612252 Phạm Quốc Mỹ – 0612271 Giáo viên hướng dẫn:

Page 18

Kỹ thuật thống kê• Các thành phần

Các kỹ thuật quét thư rác sử dụng trong hệ thống xây dựng

Page 19: XÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG PHÂN TÁN Nhóm thực hiện: Trần Kinh Lý – 0612252 Phạm Quốc Mỹ – 0612271 Giáo viên hướng dẫn:

Page 19

Kỹ thuật thống kê• Cơ sở toán học

» Công thức tính xác xuất của một từ (token) - công thức Graham

Với: • Ptoken: Xác xuất của một từ

• SH (Spam hit): Số lần token xuất hiện trong thư rác

• NSH (Nonspam hit): Số lần token xuất hiện trong thư hợp lệ

• TS (Total Spam): Tổng số thư rác đã được học

• TNS (Total Nonspam): Tổng số thư hợp lệ đã được học.

• Cho phép học lại các thư đã phân loại sai.

Các kỹ thuật quét thư rác sử dụng trong hệ thống xây dựng

Page 20: XÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG PHÂN TÁN Nhóm thực hiện: Trần Kinh Lý – 0612252 Phạm Quốc Mỹ – 0612271 Giáo viên hướng dẫn:

Page 20

Kỹ thuật thống kê• Cơ sở toán học

» Công thức chọn các token quan trọng nhất

Dtoken = |0.5 - P|» Ưu tiên chọn token có D lớn hơn.

Các kỹ thuật quét thư rác sử dụng trong hệ thống xây dựng

Page 21: XÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG PHÂN TÁN Nhóm thực hiện: Trần Kinh Lý – 0612252 Phạm Quốc Mỹ – 0612271 Giáo viên hướng dẫn:

Page 21

Kỹ thuật thống kê• Cơ sở toán học

» Công thức tính xác xuất của một thông điệp - Công thức Paul Graham

Dtoken = |0.5 - P|

(0.0 <= P <= 1.0)

Với: • P: Xác xuất chung của thông điệp

• A,B,C,..N là xác xuất của các token

» Xác định kết quả: • P = 0.5 : Giá trị trung lập

• P > 0.5: Thông điệp là thư rác

• P < 0.5: Thông điệp là thư hợp lệ.

Các kỹ thuật quét thư rác sử dụng trong hệ thống xây dựng

Page 22: XÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG PHÂN TÁN Nhóm thực hiện: Trần Kinh Lý – 0612252 Phạm Quốc Mỹ – 0612271 Giáo viên hướng dẫn:

Page 22

Kỹ thuật thống kê• Đánh giá

» Khả năng thích nghi (học) cao với sự tiến hóa của thư rác rất nhanh.» Thể hiện tính cá nhân hóa mạnh mẽ do mỗi người dùng có thể có một

tập dữ liệu riêng. Chính điều này làm cho độ chính xác đối với từng người dùng tăng lên đáng kể.

Các kỹ thuật quét thư rác sử dụng trong hệ thống xây dựng

Page 23: XÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG PHÂN TÁN Nhóm thực hiện: Trần Kinh Lý – 0612252 Phạm Quốc Mỹ – 0612271 Giáo viên hướng dẫn:

Page 23

Kỹ thuật thống kê• Cải tiến

» Bỏ các tag HTML.» Bỏ các dấu chấm câu, các ký hiệu không có nghĩa.» Đối với tiếng Việt nên bỏ các hư từ (thì, là, mà..) để giảm nhiễu. Đồng

thời do tiếng Việt là đơn âm tiết nên tách từ dựa vào khoảng trắng sẽ làm giảm độ chính xác, do đó nên tách thành từ có nghĩa (Ví dụ: Tách thành từ “hợp tác” thay vì thành 2 từ “hợp” và “tác”.

» Quét các tập tin đính kèm để trích văn bản nội dung cho bộ tách từ» Lấy các cụm từ xuất hiện nhiều lần trong một thông điệp vì khả năng

nó là token mạnh cao.

Các kỹ thuật quét thư rác sử dụng trong hệ thống xây dựng

Page 24: XÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG PHÂN TÁN Nhóm thực hiện: Trần Kinh Lý – 0612252 Phạm Quốc Mỹ – 0612271 Giáo viên hướng dẫn:

Page 24

Kỹ thuật thống kê• Mô hình huấn luyện

» Training Everything • Huấn luyện mọi thư điện tử khi nó đến

• Có thể làm mất cân bằng giữa số lượng thư rác và thư hợp lệ được học

» Training On Error• Huấn luyện bộ lọc chỉ khi xảy ra lỗi.

• Tiết kiệm không gian bộ nhớ.

» Hệ thống thử nghiệm chọn chế độ “Training On Error”.

Các kỹ thuật quét thư rác sử dụng trong hệ thống xây dựng

Page 25: XÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG PHÂN TÁN Nhóm thực hiện: Trần Kinh Lý – 0612252 Phạm Quốc Mỹ – 0612271 Giáo viên hướng dẫn:

Page 25

Kiểm tra độ chính xác của bộ lọc thư rác

Page 26: XÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG PHÂN TÁN Nhóm thực hiện: Trần Kinh Lý – 0612252 Phạm Quốc Mỹ – 0612271 Giáo viên hướng dẫn:

Page 26

Kiểm tra độ chính xác của bộ lọc thư rác

Page 27: XÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG PHÂN TÁN Nhóm thực hiện: Trần Kinh Lý – 0612252 Phạm Quốc Mỹ – 0612271 Giáo viên hướng dẫn:

Page 27

Kỹ thuật so khớp • Đặt vấn đề

Các ví dụ khác:

• Tên người nước ngoài» “C.J.Date’”và “Date.C.J”, “Christian Charras” và “Charas C.”

• Sự sai khác do biến đổi hình thái từ, cấu trúc câu» “approximate searching” và “search approximately”

• Thứ tự ghép từ khác nhau» “toán logic” và “logic toán”, “lung linh” và “linh lung”

• Thứ tự sai» “toán giải tích” và “giải tích toán”

Các kỹ thuật quét thư rác sử dụng trong hệ thống xây dựng

Page 28: XÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG PHÂN TÁN Nhóm thực hiện: Trần Kinh Lý – 0612252 Phạm Quốc Mỹ – 0612271 Giáo viên hướng dẫn:

Page 28

Kỹ thuật so khớp • Phát biểu bài toán

Cho hai chuỗi sau:» Mẫu P độ dài m (P = P1P2…Pm)» Chuỗi đích S độ dài n (S = S1S2….Sn)

hãy xác định độ tương tự ngữ nghĩa của S so với P, độ tương tự ở đây được hiểu là giá trị thực nằm trong khoảng [0,1] thỏa mãn:

» Độ tương tự càng lớn nếu số khúc con trong P xuất hiện trong S càng nhiều.

» Độ tương tự bằng 1 nếu chuỗi P xuất hiện trong S.» Độ tương tự bằng 0 nếu không có một phần nào của P xuất hiện trong

S.

Các kỹ thuật quét thư rác sử dụng trong hệ thống xây dựng

Page 29: XÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG PHÂN TÁN Nhóm thực hiện: Trần Kinh Lý – 0612252 Phạm Quốc Mỹ – 0612271 Giáo viên hướng dẫn:

Page 29

Kỹ thuật so khớp • Ý tưởng giải quyết

» Gọi PiPi+1…Pi+t-1 là một khối độ dài t của mẫu P và ký hiệu khối này là (t,i)

» Lần lượt xét tất cả các khối độ dài t, t = 1,2,…,m và kiểm tra xem khối đó có xuất hiện trong S hay không

Các kỹ thuật quét thư rác sử dụng trong hệ thống xây dựng

Page 30: XÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG PHÂN TÁN Nhóm thực hiện: Trần Kinh Lý – 0612252 Phạm Quốc Mỹ – 0612271 Giáo viên hướng dẫn:

Page 30

Kỹ thuật so khớp • Ý tưởng giải quyết

» Gọi giá trị H tính theo công thức:

với k là số khối độ dài t có xuất hiện trong chuỗi S» H sẽ đạt giá trị cực đại khi S = P, gọi giá trị cực đại này là M:

» độ tương tự ngữ nghĩa của S so với P là tỷ số H và M:

F = H/M

Các kỹ thuật quét thư rác sử dụng trong hệ thống xây dựng

Page 31: XÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG PHÂN TÁN Nhóm thực hiện: Trần Kinh Lý – 0612252 Phạm Quốc Mỹ – 0612271 Giáo viên hướng dẫn:

Page 31

Kỹ thuật so khớp • Nhận xét

» Nếu chuỗi so sánh S có sự khác biệt càng nhiều so với chuỗi mẫu P thì độ tương tự sẽ giảm rất nhiều (tiến nhiều về 0)

• Ý tưởng cải tiến thuật toán đo độ tương tự gốc» Tách từ ở cả chuỗi mẫu P và chuỗi so sánh S

T_P = {T1, T2,…,Tk} với k là số lượng từ được tách ra tự chuỗi P. T_S = {T1, T2,…,Tl} với l là số lượng từ được tách ra tự chuỗi S.

» Tính độ tương tự lớn nhất của từng từ trong P so với cả mảng từ của S, đặt độ tương tự này là fi (1 ≤ i ≤ k)

» Tính trung bình cộng các fi ta được độ tương tự cần tính là F

Các kỹ thuật quét thư rác sử dụng trong hệ thống xây dựng

Page 32: XÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG PHÂN TÁN Nhóm thực hiện: Trần Kinh Lý – 0612252 Phạm Quốc Mỹ – 0612271 Giáo viên hướng dẫn:

Page 32

Kỹ thuật so khớp • Thực nghiệm so sánh độ tương tự của thuật toán gốc và cải

tiến» Thực nghiệm trên câu

Các kỹ thuật quét thư rác sử dụng trong hệ thống xây dựng

Page 33: XÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG PHÂN TÁN Nhóm thực hiện: Trần Kinh Lý – 0612252 Phạm Quốc Mỹ – 0612271 Giáo viên hướng dẫn:

Page 33

Kỹ thuật so khớp • Thực nghiệm so sánh độ tương tự của thuật toán gốc và cải

tiến» Thực nghiệm trên câu

Các kỹ thuật quét thư rác sử dụng trong hệ thống xây dựng

Page 34: XÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG PHÂN TÁN Nhóm thực hiện: Trần Kinh Lý – 0612252 Phạm Quốc Mỹ – 0612271 Giáo viên hướng dẫn:

Page 34

Kỹ thuật so khớp • Thực nghiệm so sánh độ tương tự của thuật toán gốc và cải

tiến» Thực nghiệm trên văn bản

Các kỹ thuật quét thư rác sử dụng trong hệ thống xây dựng

Page 35: XÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG PHÂN TÁN Nhóm thực hiện: Trần Kinh Lý – 0612252 Phạm Quốc Mỹ – 0612271 Giáo viên hướng dẫn:

Page 35

Kỹ thuật so khớp • Thực nghiệm so sánh độ tương tự của thuật toán gốc và cải

tiến

Các kỹ thuật quét thư rác sử dụng trong hệ thống xây dựng

Page 36: XÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG PHÂN TÁN Nhóm thực hiện: Trần Kinh Lý – 0612252 Phạm Quốc Mỹ – 0612271 Giáo viên hướng dẫn:

Page 36

Kỹ thuật so khớp • Nhận xét

» Nếu tính độ tương tự theo thuật toán gốc thì độ tương tự giảm rất nhiều khi sự khác biệt giữa P và S tăng lên.

» Nếu tính độ tương tự theo thuật toán cải tiến thì độ tương tự giảm với giá trị chấp nhận được và tốt hơn rất nhiều nếu so sánh với độ tương tự tính theo thuật toán gốc.

» Thời gian thực hiện của thuật toán gốc lớn hơn nhiều lần so với thời gian thực hiện của thuật toán cải tiến.

vậy theo các thống kê trên cho thấy thuật toán đo độ tương tự cải tiến tốt hơn thuật toán đo độ tương tự gốc.

Các kỹ thuật quét thư rác sử dụng trong hệ thống xây dựng

Page 37: XÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG PHÂN TÁN Nhóm thực hiện: Trần Kinh Lý – 0612252 Phạm Quốc Mỹ – 0612271 Giáo viên hướng dẫn:

Page 37

Kỹ thuật so khớp • Thực nghiệm minh họa kỹ thuật so khớp không phụ thuộc độ

dài văn bản

Các kỹ thuật quét thư rác sử dụng trong hệ thống xây dựng

Page 38: XÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG PHÂN TÁN Nhóm thực hiện: Trần Kinh Lý – 0612252 Phạm Quốc Mỹ – 0612271 Giáo viên hướng dẫn:

Page 38

Mô hình hệ thống

Hệ thống thử nghiệm

Page 39: XÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG PHÂN TÁN Nhóm thực hiện: Trần Kinh Lý – 0612252 Phạm Quốc Mỹ – 0612271 Giáo viên hướng dẫn:

Page 39

Mô hình tính cá nhân hóa

Hệ thống thử nghiệm

Page 40: XÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG PHÂN TÁN Nhóm thực hiện: Trần Kinh Lý – 0612252 Phạm Quốc Mỹ – 0612271 Giáo viên hướng dẫn:

Page 40

Quá trình kết hợp quét thư rác

Hệ thống thử nghiệm

Page 41: XÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG PHÂN TÁN Nhóm thực hiện: Trần Kinh Lý – 0612252 Phạm Quốc Mỹ – 0612271 Giáo viên hướng dẫn:

Page 41

Quá trình huấn luyện cho [email protected]

Hệ thống thử nghiệm

Page 42: XÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG PHÂN TÁN Nhóm thực hiện: Trần Kinh Lý – 0612252 Phạm Quốc Mỹ – 0612271 Giáo viên hướng dẫn:

Page 42

Quá trình huấn luyện lại cho [email protected]

Hệ thống thử nghiệm

Page 43: XÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG PHÂN TÁN Nhóm thực hiện: Trần Kinh Lý – 0612252 Phạm Quốc Mỹ – 0612271 Giáo viên hướng dẫn:

Page 43

Hệ thống thử nghiệm

Kết quả thử nghiệm trên phân tán

Page 44: XÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG PHÂN TÁN Nhóm thực hiện: Trần Kinh Lý – 0612252 Phạm Quốc Mỹ – 0612271 Giáo viên hướng dẫn:

Page 44

• Tìm hiểu được khá chi tiết về đặc điểm của thư rác và các kỹ thuật phát hiện thư rác đã có.

• Mô tả khá đầy đủ về cơ sở lý thuyết của kỹ thuật quét thư rác thống kê và so khớp dùng trong hệ thống thử nghiệm.

• Cải tiến trong: » Kỹ thuật thống kê: bỏ đi các từ không quan trọng, quét thư rác bao

gồm cả tập tin đính kèm.» Kỹ thuật so khớp: cải tiến thuật toán gốc giúp tăng thời gian so khớp

văn bản.» Đưa ra các thực nghiệm minh họa độ tin cậy trong từng kỹ thuật trên

một máy.

• Với hệ thống thực nghiệm mà nhóm xây dựng đã đạt được tính chính xác là 94% sau khi thực nghiệm.

• Và một phần mới nữa trong luận văn là đưa việc quét thư rác lên môi trường phân tán, kết quả thực nghiệm khi thực nghiệm đã xác định được là có thể quét thư rác với tốc độ là 1 giây/ 1 thư.

Các vấn đề đạt được

Page 45: XÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG PHÂN TÁN Nhóm thực hiện: Trần Kinh Lý – 0612252 Phạm Quốc Mỹ – 0612271 Giáo viên hướng dẫn:

Page 45

• Kết hợp hệ thống thực nghiệm mà nhóm xây dựng với các hệ thống quét thư rác khác (như Spam Assassin, Spam Fighter, …).

• Tối ưu hóa việc giải quyết đụng độ khi xử lý trên phân tán.• Cài đặt kho dữ liệu chung như đã đề cập cho toàn người

dùng trong mạng.• Nâng khả năng lọc thư rác loại nội dung là hình ảnh, ký tự lạ,

….• Giải quyết tốt hơn ở các định dạng tập tin đính kèm khác

của thư rác.

Hướng phát triển

Page 46: XÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG PHÂN TÁN Nhóm thực hiện: Trần Kinh Lý – 0612252 Phạm Quốc Mỹ – 0612271 Giáo viên hướng dẫn:

Cảm ơn đã lắng nghe!

Nhóm thực hiện:

Trần Kinh Lý – 0612252

Phạm Quốc Mỹ – 0612271

Giáo viên hướng dẫn:

GVC. Cao Đăng Tân

ThS. Đào Anh Tuấn