Upload
meda-conferences
View
461
Download
0
Embed Size (px)
DESCRIPTION
Citation preview
Big Data ופרטיות
יהודית בר אילן
המחלקה ללימודי מידע
אילן-אוניברסיטת בר
Big Data בהקשר של חיפושי מידע במאגרים של Webמיליארדים רבים של מסמכי •
מנועי החיפוש
אך ישנן הערכות, המספר אינו ידוע•
...אם כי •
2
http://www.worldwidewebsize.com/
big dataגודל האינדקס הוא רק מרכיב אחד של ה
של מנועי החיפוש
/co6/2012http://www.comscore.com/Press_Events/Press_Releases/Search_Engine_Rankings_U.S._2012mScore_Releases_June_ 4
Search engine logs שאילתה בודדת•
ניסוח•
(אם בכלל)על מה הקליקו •
?מה קרה אחר כך• הקלקה נוספת•
מעבר לדף תוצאות הבא•
שינוי השאילתה•
זמנים•
•Session
יכולת לעקוב לאורך זמן על משתמשים מזוהים•
מעקב לאחר תנועות העכבר• eye trackingתחליף יעיל ופשוט ל •
•… 5
From: http://www.google.com/goodtoknow/data-on-google/search-logs/
?למה זה טוב
המשתמש" הבנת"•
שיפור חווית החיפוש•
פרסונליזציה•
(caching)זיהוי שאילתות פופולריות •
זיהוי דפים פופולריים•
תיקון טעויות •
related searches הצעות ל•
זיהוי מגמות•
6
Twitter mood predicts the stock market
Johan Bollen, Huina Mao, Xiao-Jun Zeng
Journal of Computational Science, 2(1), March 2011, Pages 1-8
(last year) last 30 days
...עלולה להיווצר פגיעה בפרטיות , אבל
11
http://commons.wikimedia.org/wiki/File:Privacy_caution.svg
AOLסיפור
שמות המשתמשים , יותר ממיליון רשומות, 2006אוגוסט • הוחלפו במספרים באופן סיסטמתי
אבל עד היום ניתן , יוםהנתונים הוסרו מהאתר כעבור • להשיג עותקים ממקומות אחרים ברשת
•AOL הפעיל את מנוע החיפוש שלGoogle
•http://en.wikipedia.org/wiki/AOL_search_data_scandal
12
AOL - המשך
ניתן ששמות המשתמשים הוחלפו במספרים למרות • משתמשים באמצעים של כריית נתוניםהיה לזהות
הגיע למשתמשת מספר New York Timesהכתב •היא אישרה . ב"שגרה בעיירה קטנה בארה 4417949
להשאכן היא שאלה את השאילתות שמיוחסות
דבר שפוגע , מאז מנועי החיפוש נזהרים עוד יותר• במחקר האקדמי בתחום
בטעות או לא )האם אחרי שהלוגים כבר שוחררו • ?מותר להשתמש בהם לצורכי מחקר, (בטעות
• Just because it’s accessible doesn’t make it ethical (boyd & Crawford)
...וגם שימושים אמנותיים , נעשו שימושים כאלה•13
http://www.youtube.com/watch?v=WpI4h2O8U4U http://www.minimovies.org/documentaires/view/ilovealaska
AOLדוגמה לממצא על סמך נתוני
15
מהשאילתות הם כאלה שהמשתמש לא 45%יותר מ • הקליק על אף תוצאה
מענהעל כך הלוגים אינם יכולים לתת ??? מדוע•
כדי להבין את תופעה יש לחקור את התנהגות המידע •נסו לחשוב מדוע מבצעים חיפוש ואחר . של המשתמשים
?כך לא מקליקים על כלום השאילתה לא הניבה תוצאות•
יש תוצאות אך הן בבירור לא מתאימות•
התשובה נמצאת כבר על דף התוצאות•
נמצאו מונחי חיפוש מתאימים יותר בדף התוצאות•
המשתמש החליט לעבור לדף התוצאות הבא•
...הטלפון צלצל והפסקתי את החיפוש •
מחקר אקדמיחוקרים באקדמיה זקוקים לנתונים מהלוגים כדי לקדם •
מחקר מדעי בתחום
•Crawling אבל מאגר נתונים אינו , קל יחסית לבצע מספיק
חשוב לדעת כיצד המשתמשים ניגשים למידע•
אבל זה לא מספיק, ניתן לבצע מחקרים איכותניים•
לחוקרים ללוגי חיפוש עדכניים כיום כמעט ואין גישה • חיפוששאינם קשורים למנועי
מידע על " לנדב"ישנם ניסיונות למצוא אנשים שמוכנים • .מיוחד toolbarהחיפושים שלהם באמצעות
16
ההיבט המשפטי
מנועי החיפוש חוששים מצווים ממשלתיים או •צווים של בתי משפט אשר מורים להם להעביר מידע
. על חיפושי משתמשיםב דרשה נתוני חיפושים "ממשלת ארה 2005בשנת •
. ממנועי החיפוש הגדולים( מונחי חיפוש בלבד)Microsoft ו-Yahoo נענו לדרישה ,Google סירבה .
בית המשפט קבע שאין להעביר נתונים אלה בהמשך • .מפאת חשש לפגיעה בפרטיות
17
Googleדרך ההתמודדות של • “We anonymize IP addresses after 9 months and
alter the cookie numbers in our logs permanently after 18 months.
• This breaks the link between the search query and the computer it was entered from and is similar to the way in which credit card receipts replace digits with hash marks to improve customer security.
• Here is what an IP address could look like in our logs after 9 months: 123.45.67.XXX. After 18 months, the cookie will be replaced by a newly-generated cookie number. “
• http://www.google.com/goodtoknow/data-on-google/search-logs/
18
סיכום
Bigלוגים של מנועי חיפוש הם רק דוגמה אחת ל Data
הם מאפשרים שיפור בחוויית החיפוש•
אך מעוררים בעיות אתיות קשות•
גישה מוגבלת לחוקרים באקדמיה•
"נתוני עתק"לא ניתן להסתמך רק על •
19
http://commons.wikimedia.org/wiki/File:Presa_de_decissions.png