23
Hoàng Hải Hưng Nguyễn Hồng Điệp

Hoàng Hải Hưng

  • Upload
    cricket

  • View
    69

  • Download
    1

Embed Size (px)

DESCRIPTION

Hoàng Hải Hưng. Nguyễn Hồng Điệp. Nội dung. Giới thiệu. 1. Mô hình T- Lex. 2. Các điểm yếu của T- Lex. 3. Phương pháp tấn công. 4. Giới thiệu. 1. Mô hình T- Lex. 2. Các điểm yếu của T- Lex. 3. Phương pháp tấn công. 4. Giới thiệu. Tấn công. Không có chủ ý. Có chủ ý. - PowerPoint PPT Presentation

Citation preview

Page 1: Hoàng Hải Hưng

Hoàng Hải Hưng

Nguyễn Hồng Điệp

Page 2: Hoàng Hải Hưng

Nội dung

Giới thiệu1

Mô hình T-Lex2

Các điểm yếu của T-Lex3

Phương pháp tấn công4

Page 3: Hoàng Hải Hưng

Giới thiệu1

Mô hình T-Lex2

Các điểm yếu của T-Lex3

Phương pháp tấn công4

Page 4: Hoàng Hải Hưng

Giới thiệu

Không có chủ ý

Tấn công

Có chủ ý

• Lỗi đường truyền•Mất mát thông tin khi nén•Đổi dịnh dạng …

• Dựa trên các thuộc tính thống kê

Page 5: Hoàng Hải Hưng

Giới thiệu1

Mô hình T-Lex2

Các điểm yếu của T-Lex3

Phương pháp tấn công4

Page 6: Hoàng Hải Hưng

Hệ thống ẩn dữ liệu T-Lex

T-Lex (Tyrannosaurus Lex) là hệ thống ẩn dữ liệu dựa trên mô hình thay thế từ vựng

Vấn đề cơ bản là phải giữ nguyên ý nghĩa của câu

Page 7: Hoàng Hải Hưng

Hệ thống ẩn dữ liệu T-Lex

Chuỗi văn bản cần nhúng

Nén Huffman

Chuỗi nhị phân

Nhúng vào văn bản

(10011011010)2

Page 8: Hoàng Hải Hưng

Hệ thống ẩn dữ liệu T-Lex

little

Ho Chi Minh city is a little

(101)2

Ho Chi Minh city is a great little town

Page 9: Hoàng Hải Hưng

Giới thiệu1

Mô hình T-Lex2

Các điểm yếu của T-Lex3

Phương pháp tấn công4

Page 10: Hoàng Hải Hưng

Tấn công hệ thống ADL text cấp độ từ

Yếu điểm pp ADL cấp độ từ.Mô hình hóa ngôn ngữ bằng thống kê (n-grams)Tấn công

Page 11: Hoàng Hải Hưng

Yếu điểm pp ADL văn bản dựa trên thay thế từ đồng nghĩa.

Văn bản sau khi thay thế từ đồng nghĩa. Không phù hợp với cách sử dụng ngôn ngữ (tiếng

Anh) thông thường. Ví dụ:• soon afterwards dispatched• soon subsequently dispatched

Không phù hợp với thể loại vàc phong cách tác giả trong văn bản.

Page 12: Hoàng Hải Hưng

Giới thiệu1

Mô hình T-Lex2

Các điểm yếu của T-Lex3

Phương pháp tấn công4

Page 13: Hoàng Hải Hưng

Mô hình hóa ngôn ngữ N-Grams

Một mô hình ngôn ngữ là một mô hình thống kê ước lượng xác suất của chuỗi các từ độ dài n (n-gram).

Nguồn ([1])

Ex: P(thi rớt) = p(rớt /thi) * p(thi)

Page 14: Hoàng Hải Hưng

P(W) = ?

P(w) = r(w)/N R(w) số lần xuất hiện của n-grams w. N số lượng N-gram cho trong văn bản huấn luyện.

Page 15: Hoàng Hải Hưng

Stanford Research Institute Language Modeling (SRILM)

Toolkit [3]

Tham số Loại n-gram được sử dụng. Loại giải thuật discounting được sử dụng. Good-

Turing, absolute, Witten-Bell, và Kneser-Ney - chỉnh sửa.

Tùy chọn một từ điển xác định trước. Loại bỏ các từ không phổ biến (stop-word) hay là xem

chúng như token xác định. Có loại bỏ trường hợp đặc biệt trong văn bản nhập.

(ảnh: http://www.speech.sri.com/images/logo_sri.gif)

Page 16: Hoàng Hải Hưng

Huấn luyện mô hình ngôn ngữ thống kê

Thay thế giá trị được gán cho 3 tham số quan trọng của SRILM để lấy 8 mô hình ngôn ngữ khác nhau. 3 tham số đó là: Từ vựng : đóng hay mở. Model order: bình thường hoặc bỏ qua Cắt bỏ tần số n-gram : có hoặc loại bỏ n-grams xuất

hiện 1 lần.

Page 17: Hoàng Hải Hưng

Vector đặc trưng của câu

Thống kê từ (số lượng từ, các từ không thuộc từ điển, các từ xác suất bằng 0).

Chiều dài ngữ cảnh n-gram nhỏ nhất , và lớn nhất.

Các thống kê về ước lượng xác suất cho n-gram trong câu (mean, min, max)

Các thống kê mô hình cho xác suất của n-gram trong câu (min, max).

Tổng xác suất của câu.

Page 18: Hoàng Hải Hưng

Ví dụ

Manfred Bender scored from a header in the 80th minute, four transactions after coming on.

Kết quả - vector đặc trưng cho câu trên Word statistics (Number of words (12), Out Of

Vocabulary (OOV) words (2), Zero probability words (0) )

Mimimum n-gram context length matchihg the model (1), and maximum (3) respectively

Statistics of model probability estimations for n-grams in the sentence (mean, min, max) (0.165, 0,0.827586)

Page 19: Hoàng Hải Hưng

Cách thức tấn công

Mục tiêu tấn công. Phân lớp câu có ẩn dữ liệu/ không ẩn dữ liệu

Phương pháp :Học máy SVM (support vector machine). Sử dụng thư viện libsvm (nguồn [2])

Page 20: Hoàng Hải Hưng
Page 21: Hoàng Hải Hưng

Kết quả đạt được

Kết quả:Độ chính xác khi

phân vào lớp : Có dữ liệu mật là

84.9% Không ẩn dữ liệu

38.6% , Độ phủ (recall) cao

nhưng độ chính xác(precision) thấp.

Page 22: Hoàng Hải Hưng

Tài liệu tham khảo

[1] Cuneyt M. Taskiran, Umut Topkara, Mercan Topkara, and Edward J. Delp, "Attacks on Lexical Natural Language Steganography Systems , " Proceedings- Spie The International Society For Optical Engineering, Vol. 6072, 2006

[2] Thư viện libsvm, http://www.csie.ntu.edu.tw/~cjlin/libsvm/

[3] Stanford Research Institue Language Model Toolkit, http://www.speech.sri.com/projects/srilm/ [4] Stanford Log-linear Part-Of-Speech Tagger,

http://nlp.stanford.edu/software/tagger.shtml

Page 23: Hoàng Hải Hưng