19
Big Data ופרטיות יהודית בר אילן המחלקה ללימודי מידע אוניברסיטת בר- אילן

פרופ' יהודית בר אילן, ראש המחלקה ללימודי מידע באוניברסיטת בר אילן

Embed Size (px)

DESCRIPTION

 

Citation preview

Page 1: פרופ' יהודית בר אילן, ראש המחלקה ללימודי מידע באוניברסיטת בר אילן

Big Data ופרטיות

יהודית בר אילן

המחלקה ללימודי מידע

אילן-אוניברסיטת בר

Page 2: פרופ' יהודית בר אילן, ראש המחלקה ללימודי מידע באוניברסיטת בר אילן

Big Data בהקשר של חיפושי מידע במאגרים של Webמיליארדים רבים של מסמכי •

מנועי החיפוש

אך ישנן הערכות, המספר אינו ידוע•

...אם כי •

2

Page 3: פרופ' יהודית בר אילן, ראש המחלקה ללימודי מידע באוניברסיטת בר אילן

http://www.worldwidewebsize.com/

Page 5: פרופ' יהודית בר אילן, ראש המחלקה ללימודי מידע באוניברסיטת בר אילן

Search engine logs שאילתה בודדת•

ניסוח•

(אם בכלל)על מה הקליקו •

?מה קרה אחר כך• הקלקה נוספת•

מעבר לדף תוצאות הבא•

שינוי השאילתה•

זמנים•

•Session

יכולת לעקוב לאורך זמן על משתמשים מזוהים•

מעקב לאחר תנועות העכבר• eye trackingתחליף יעיל ופשוט ל •

•… 5

From: http://www.google.com/goodtoknow/data-on-google/search-logs/

Page 6: פרופ' יהודית בר אילן, ראש המחלקה ללימודי מידע באוניברסיטת בר אילן

?למה זה טוב

המשתמש" הבנת"•

שיפור חווית החיפוש•

פרסונליזציה•

(caching)זיהוי שאילתות פופולריות •

זיהוי דפים פופולריים•

תיקון טעויות •

related searches הצעות ל•

זיהוי מגמות•

6

Page 7: פרופ' יהודית בר אילן, ראש המחלקה ללימודי מידע באוניברסיטת בר אילן
Page 8: פרופ' יהודית בר אילן, ראש המחלקה ללימודי מידע באוניברסיטת בר אילן

Twitter mood predicts the stock market

Johan Bollen, Huina Mao, Xiao-Jun Zeng

Journal of Computational Science, 2(1), March 2011, Pages 1-8

Page 9: פרופ' יהודית בר אילן, ראש המחלקה ללימודי מידע באוניברסיטת בר אילן
Page 10: פרופ' יהודית בר אילן, ראש המחלקה ללימודי מידע באוניברסיטת בר אילן

(last year) last 30 days

Page 11: פרופ' יהודית בר אילן, ראש המחלקה ללימודי מידע באוניברסיטת בר אילן

...עלולה להיווצר פגיעה בפרטיות , אבל

11

http://commons.wikimedia.org/wiki/File:Privacy_caution.svg

Page 12: פרופ' יהודית בר אילן, ראש המחלקה ללימודי מידע באוניברסיטת בר אילן

AOLסיפור

שמות המשתמשים , יותר ממיליון רשומות, 2006אוגוסט • הוחלפו במספרים באופן סיסטמתי

אבל עד היום ניתן , יוםהנתונים הוסרו מהאתר כעבור • להשיג עותקים ממקומות אחרים ברשת

•AOL הפעיל את מנוע החיפוש שלGoogle

•http://en.wikipedia.org/wiki/AOL_search_data_scandal

12

Page 13: פרופ' יהודית בר אילן, ראש המחלקה ללימודי מידע באוניברסיטת בר אילן

AOL - המשך

ניתן ששמות המשתמשים הוחלפו במספרים למרות • משתמשים באמצעים של כריית נתוניםהיה לזהות

הגיע למשתמשת מספר New York Timesהכתב •היא אישרה . ב"שגרה בעיירה קטנה בארה 4417949

להשאכן היא שאלה את השאילתות שמיוחסות

דבר שפוגע , מאז מנועי החיפוש נזהרים עוד יותר• במחקר האקדמי בתחום

בטעות או לא )האם אחרי שהלוגים כבר שוחררו • ?מותר להשתמש בהם לצורכי מחקר, (בטעות

• Just because it’s accessible doesn’t make it ethical (boyd & Crawford)

...וגם שימושים אמנותיים , נעשו שימושים כאלה•13

Page 15: פרופ' יהודית בר אילן, ראש המחלקה ללימודי מידע באוניברסיטת בר אילן

AOLדוגמה לממצא על סמך נתוני

15

מהשאילתות הם כאלה שהמשתמש לא 45%יותר מ • הקליק על אף תוצאה

מענהעל כך הלוגים אינם יכולים לתת ??? מדוע•

כדי להבין את תופעה יש לחקור את התנהגות המידע •נסו לחשוב מדוע מבצעים חיפוש ואחר . של המשתמשים

?כך לא מקליקים על כלום השאילתה לא הניבה תוצאות•

יש תוצאות אך הן בבירור לא מתאימות•

התשובה נמצאת כבר על דף התוצאות•

נמצאו מונחי חיפוש מתאימים יותר בדף התוצאות•

המשתמש החליט לעבור לדף התוצאות הבא•

...הטלפון צלצל והפסקתי את החיפוש •

Page 16: פרופ' יהודית בר אילן, ראש המחלקה ללימודי מידע באוניברסיטת בר אילן

מחקר אקדמיחוקרים באקדמיה זקוקים לנתונים מהלוגים כדי לקדם •

מחקר מדעי בתחום

•Crawling אבל מאגר נתונים אינו , קל יחסית לבצע מספיק

חשוב לדעת כיצד המשתמשים ניגשים למידע•

אבל זה לא מספיק, ניתן לבצע מחקרים איכותניים•

לחוקרים ללוגי חיפוש עדכניים כיום כמעט ואין גישה • חיפוששאינם קשורים למנועי

מידע על " לנדב"ישנם ניסיונות למצוא אנשים שמוכנים • .מיוחד toolbarהחיפושים שלהם באמצעות

16

Page 17: פרופ' יהודית בר אילן, ראש המחלקה ללימודי מידע באוניברסיטת בר אילן

ההיבט המשפטי

מנועי החיפוש חוששים מצווים ממשלתיים או •צווים של בתי משפט אשר מורים להם להעביר מידע

. על חיפושי משתמשיםב דרשה נתוני חיפושים "ממשלת ארה 2005בשנת •

. ממנועי החיפוש הגדולים( מונחי חיפוש בלבד)Microsoft ו-Yahoo נענו לדרישה ,Google סירבה .

בית המשפט קבע שאין להעביר נתונים אלה בהמשך • .מפאת חשש לפגיעה בפרטיות

17

Page 18: פרופ' יהודית בר אילן, ראש המחלקה ללימודי מידע באוניברסיטת בר אילן

Googleדרך ההתמודדות של • “We anonymize IP addresses after 9 months and

alter the cookie numbers in our logs permanently after 18 months.

• This breaks the link between the search query and the computer it was entered from and is similar to the way in which credit card receipts replace digits with hash marks to improve customer security.

• Here is what an IP address could look like in our logs after 9 months: 123.45.67.XXX. After 18 months, the cookie will be replaced by a newly-generated cookie number. “

• http://www.google.com/goodtoknow/data-on-google/search-logs/

18

Page 19: פרופ' יהודית בר אילן, ראש המחלקה ללימודי מידע באוניברסיטת בר אילן

סיכום

Bigלוגים של מנועי חיפוש הם רק דוגמה אחת ל Data

הם מאפשרים שיפור בחוויית החיפוש•

אך מעוררים בעיות אתיות קשות•

גישה מוגבלת לחוקרים באקדמיה•

"נתוני עתק"לא ניתן להסתמך רק על •

19

http://commons.wikimedia.org/wiki/File:Presa_de_decissions.png