Upload
kanokorn-trakultaweekoon
View
208
Download
0
Embed Size (px)
Citation preview
ITC-CSCC 2010, Pattaya, Thailand
ระบบแจ้งเตือนการคัดลอกเนื้อหาบนเว็บ CopyAlert
สันติพงษ ์ไทยประยูร และอลิสา คงทน
ห้องปฏิบัติการวิจัยเทคโนโลยีเสียง (SPT) ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ (NECTEC)
TICTA 2013, Bangkok, Thailand
2
ความเป็นมาและแรงจูงใจ
แนะน าระบบ
เปรียบเทียบซอฟต์แวร์ในต่างประเทศ
ความพร้อมสู่ตลาดเชิงพาณิชย์และวางแผนการตลาด
แนวโน้มการพัฒนาในอนาคต
สาธิตการท างาน
หัวข้อ
ผู้ขโมยผลงาน เจ้าของผลงาน 3
ความเป็นมาและแรงจูงใจ
4
ความเป็นมาและแรงจูงใจ
5
ภาพรวมระบบ
Bing
API
Checking
Monitoring
Web
Send URLs
-Analyzed Results -Alert Email
- ความถูกต้อง 85.6% - เวลาที่ใช้ในการตรวจ 44.83 sec/URL
6
สนับสนุนการติดตามการคัดลอกหน้าเว็บบนอินเทอร์เน็ตแบบอัตโนมัติ ทั้งภาษาไทยและอังกฤษ
แจ้งเตือนอัตโนมัติด้วยอีเมลเมื่อเนื้อหาถูกคัดลอก
ผู้ใช้สามารถติดแท็ก (Tag) บนหน้าเว็บเพื่อเฝ้าระวังผลงานของตัวเองแบบ Real-Time
สามารถแสดงแถบสีข้อความที่คล้ายกันพร้อมทั้งเปอร์เซ็นต์ความคล้าย
ผู้ใช้สามารถปรับเปลี่ยนเปอร์เซ็นต์ความคล้ายได้ด้วยตนเอง
แสดงประวัติผลการตรวจสอบ
คุณสมบัติของระบบ
7
การติดแท็ก
คุณสมบัติของระบบ
8
แถบสีข้อความที่คล้ายกัน
คุณสมบัติของระบบ
9
ประวัติการตรวจสอบ
คุณสมบัติของระบบ
10
สามารถเข้าถึงได้ทุกที่ ทุกเวลา
ใช้งานง่าย ตรวจสอบได้รวดเร็ว
ช่วยปกป้องเนื้อหาเวบ็ไมใ่ห้ถูกคัดลอก
ช่วยนักเขียนและบรรณาธิการในการหาว่าใครขโมยต้นฉบับ
ช่วยบล็อกเกอร์และนักข่าวในการหาเวบ็เพจที่ถูกเว็บไซต์อื่นน าไปดัดแปลงหรือท าซ้ าโดยไม่มีการอ้างอิง
ประโยชน์แก่ผู้ใช ้
11
เปรียบเทียบซอฟต์แวร์ในต่างประเทศ
Products/Features
Thai-English Language Support
Automatically Monitor Pages
Send Notifications by Email
Embeddable Tag
Document Highlight and Similarity Score
12
ความพร้อมสู่ตลาดเชิงพาณิชย์
จุดแข็ง (Strength)
สนับสนุนการติดตามการคัดลอกหน้าเว็บบนอินเทอร์เน็ตแบบอัตโนมัติ ทั้งภาษาไทยและอังกฤษ
ลดเวลาเจ้าของผลงานในการตรวจสอบการคัดลอก
ตรวจสอบการคัดลอกรวดเร็วและถูกต้อง
โอกาส (Opportunity)
การคัดลอกเนื้อหาเว็บจากที่หนึ่งไปยังอีกที่หนึ่งเพิ่มมากขึ้น
นักเขียนมีความต้องการคอยติดตามเนื้อหาเว็บตนเอง
ประกาศใช้พระราชบัญญัติลิขสิทธิ์ พ.ศ. ๒๕๓๗
13
กลุ่มผู้ใช้เป้าหมาย
14
วางแผนการตลาด
บริการ ประเภท แพ็คเกจ กลุ่มลูกค้า เป้าหมาย ส่งเสริมการขาย
Online Service
Monthly -Free -Standard -Professional
นักเขียน/บุคคลทั่วไป
70% บูธ/โฆษณา/เว็บไซต/์ทดลองใช้งาน
API Monthly Enterprise องค์กร/บริษัท
30%
15
เพิ่มประสิทธิภาพระบบ
เพิ่มเครื่องมือสืบค้น (Search Engine) เพื่อสามารถตรวจสอบได้ครอบคลุม
วิเคราะห์ว่าลิงค์ไหนมีการอ้างอิงแหล่งที่มา
ตรวจสอบรูปภาพที่ถูกคัดลอกมาจากเว็บ
ระบุเฉพาะเว็บไซต์ที่ต้องตรวจสอบ
แนวโน้มการพัฒนาในอนาคต
16
สาธิตระบบ
17
Questions / Comments ?
Thank you for your attention
18
ขั้นตอนการท างานของระบบ
19
ประสิทธิภาพ
Method #URLs #Chunks Accuracy (%) Response
Time (Sec/Url)
Baseline 100 36 85.6 89.91
Randomly Selection
100 23 85.6 56.81
Intelligent Selection
100 18 85.6 44.82
Similarity Score Calculation Source
A 200 ค ำ
Source B
150 ค ำ
Source C
300 ค ำ
20 ค ำ
30 ค ำ
40 ค ำ
20/200 = 10%
30/150 = 20%
40/300 = 13%
20 ค ำ
30 ค ำ
40 ค ำ
Total similarity score is 90/500 = 18%
My work 500 ค ำ
- เปอร์เซน็ความคล้ายทัง้หมด (Total Similarity Score) คือ เปอร์เซน็ความคล้ายทัง้หมดท่ีเอกสารของเราเหมือนกบัแหล่งอ่ืน
- เปอร์เซน็ความคล้ายตามแหลง่ที่มา (Similarity Score by Source) คือ เอกสารของเรามีความคล้ายเป็นก่ีเปอร์เซน็ของแตล่ะแหลง่
21
TT = “กำร|ใช้|สำร|อินทรีย์|ใน|วงจร|อิเล็กทรอนิกส์| |ซึ่ง|จะ|มี|ต้น|ทุน|ใน|กำร|ผลิต|ถูก|ยิ่ง|กว่ำ|กำร|ผลิต||วงจร|จำก|ซลิิกอน|ที่|ใช้|ใน|ปัจจุบัน|และ|สำมำรถ|น ำ|ไป|ใช้|ได้|กับ|พืน้|ผิว|ที่|โค้งงอ”
T = “การใช้สารอินทรีย์ในวงจรอิเล็กทรอนิกส์ ซึง่จะมีต้นทุนในการผลิตถูกยิ่งกว่าการผลิต วงจรจาก”ซลิิกอน”ทีใ่ช้ในปัจจุบันและสามารถน าไปใช้ได้กับพื้นผิวทีโ่ค้งงอ”
Window Size = 10 Sliding Window = 6
1 10
6
C1 = “กำร|ใช้|สำร|อินทรีย์|ใน|วงจร|อิเล็กทรอนิกส์| |ซึ่ง|จะ|” C2 = “อิเล็กทรอนิกส์| |ซึ่ง|จะ|มี|ต้น|ทุน|ใน|กำร|ผลิต|”
C3 = “ทุน|ใน|กำร|ผลิต|ถูก|ยิ่ง|กว่ำ|กำร|ผลิต| |”
C4 = “กว่ำ|กำร|ผลิต| |วงจร|จำก|ซลิิกอน|ที่|ใช้|ใน|”
C5 = “ซลิิกอน|ที่|ใช้|ใน|ปัจจุบัน|และ|สำมำรถ|น ำ|ไป|ใช้|ได้|” C6 = “น ำ|ไป|ใช้|ได้|กับ|พืน้|ผิว|ที่|โค้งงอ|”
เทคนิคการเลือ่นกรอบ (Sliding Windows Technique)