29
1 Selectivity Estimation in Spatial Databases S. Acharya, V. Poosala, S. Ramaswamy Presented By: Eyal Flato

1 Selectivity Estimation in Spatial Databases S. Acharya, V. Poosala, S. Ramaswamy Presented By: Eyal Flato

  • View
    219

  • Download
    4

Embed Size (px)

Citation preview

1

Selectivity Estimation in Spatial Databases

S. Acharya, V. Poosala, S. Ramaswamy

Presented By: Eyal Flato

2

מבנה

הקדמה - תאור הבעיה ובעייתיות בפתרונות •קיימים

פתרונות בסיסיים•

Min-Skewאלגוריתם •

תוצאות ניסויים•

מסקנות•

3

תאור הבעיה

•GIS - Geographic Information SystemESRI ARC/INFO, MapInfoמוצרים ייעודיים:

DB :עם תמיכה גיאוגפית Informix, Oracle

•Selectivity Estimation הערכת מספר - האלמנטים בשאילתה מסויימת:

query optimizers- חשוב ב- - הערכת זמן ביצוע שאילתה - לפני ביצועה

- שאילתות ייעודיות על הערכת כמות אלמנטים

4

תאור הבעיה - דוגמא

5

פתרונות קיימים

היסטוגרמה•

דגימה•

אפשרות לביצוע הערכה ע”ב מספר קטן מטרה:•של נתונים

הערכת , buckets חלוקת הנתונים ל-פתרון נפוץ:•bucketsהשאילתה לפי מענה לשאילתה על ה-

0

10

20

30

40

50

60

70

80

90

6

Spatial v. Traditional יכולים להיות בעלי גדלים DBהאלמנטים ב-•

שונים

התפלגות תדירות הופעה של נתונים היא אחידה•)יחסית מעט אלמנטים חופפים(

הערכים )מיקום במרחב( מפוזרים באופן מוטה•

Q

# in Q ? # of Milk ?

7

פישוט הבעיה

כל אלמנט מוגדר ע”י המלבן החוסם שלו •)מקביל לצירים(

השאילתה הינה מלבן•

גודל 9השאילתה:

אלמנטים

9

פתרון מדויק

מצריך מעבר על כל אוסף הנתונים•או שימוש באינדקס

שתי השיטות יקרות מדי לכן נסתפק בהערכה•

10

Uniformity Assumption

•Point Query:כמה אלמנטים חלים בנקודה -

TA / Area)T(

סך שטחי המלבנים יחסית לשטח הכללי

•Range Query - מניחים שמלבני הקלט זהיםבאורך וברוחב ומפוזרים באופן אחיד בשטח

n*Area)Q’( / Area)T(

‘Q - הגדלה של השאילתה בחציהגודל הממוצע

11

3 7

2 10

8

10

חלוקת השטח לאזורים

הפתרונות שיוצגו בהמשך מבוססים על חלוקת •השטח לאזורים - מספר האזורים קבוע מראש

מענה מדויק לאזורים שמוכלים במלואם •בשאילתה והסתמכות על אחידות באזורים

המוכלים חלקית

3 4 3

10

33

8

4

7615 19

12

•Equi-Area.אזורים בגודל אחיד -

ניסיון להביא למינימום את השגיאה המקסימלית •האפשרית )בד”כ שטח גדול = שגיאה גדולה(

אזורים עם הרבה אלמנטיםחסרון:•

חלוקה לאזורים שווים

13

חלוקה לאזורים שווים

•Equi-Count.בכל אזור מספר דומה של אלמנטים -

ניסיון להביא למינימום את השגיאה המקסימלית •האפשרית )בד”כ הרבה אלמנטים = שגיאה גדולה(

אזורים גדולים, הרבה אזורים גם אם אחידחסרון:•

14

R-Treeאזורים עפ”י אינדקס

הכנסת מלבנים לעץ שבו כל צומת פנימי מכיל •מלבן החוסם את כל המלבנים

בתת-העץ שלו2-3דומה לעץ בינארי/ עץ •

החלטה על פיצול בעץ לפי קריטריונים שונים •בנסיון להביא למינימום את השטח, חפיפה וכו’

15

R-Treeחסרונות של אזורים שווים ו-

דיוק:•Equi-Area לא מתייחס לשינויים בפיזור - האלמנטים

Equi-Count מייצר יותר אזורים במקומות - צפופים, אך אם ההתפלגות אחידה - זה מיותר

R-Tree מייצר הרבה אזורים לא אחידים -

16

R-Treeחסרונות של אזורים שווים ו-

זמן חישוב:•Equi-Area, Equi-Count דורש המצאות כל - הקלט בזיכרון בזמן הבנייה

R-Treeזמן חישוב יקר - (log) NB

NO B

17

Min-Skewאלגוריתם

מטרות:

טיפול בבעיות הדיוק - התייחסות בבניה •להתפלגות הקלט

חסכון בזמן וזיכרון הנדרשים לבניה•

שמירה על מספר אזורים נתון מראש•

שמירה על אחידות בתוך כל תתי האזור •

18

Min-Skewאלגוריתם

האלגוריתם מורכב משני שלבים עיקריים:•

. קירוב קומפקטי של הקלט שניתן להחזיק בזיכרון 1ולבנות על פיו את החלוקה לאזורים

לבניית החלוקה greedy. אלגוריתם 2

19

Min-Skewאלגוריתם קירוב הקלט

בגודל שאותו אפשר לנהל בזיכרוןgridחלוקה ל-•

מעבר אחד על הקלט וספירה של מספר האלמנטים •צפיפות מרחבית - gridהחלים בכל אחד מהתאים ב-

וערכי gridהקלט לשלב השני של האלגוריתם יהיו ה-•הצפיפות המרחבית לכל תא בו.

20

בניית : Min-Skewאלגוריתם החלוקה :spatial skew בחלוקה נגדיר Biלכל אזור •

Si השונות של ערכי הצפיפות המרחבית של = Bi שנמצאות בתוך gridנקודות ה-

:פונקצית המטרה•

(Ni-מספר נקודות ה = grid באזור Bi)

באופן חמדני מביאים למינימום את• פונקצית המטרה

Binary Space Partitionהאלגוריתם הוא •

ii SN

Ni = 6Si = 2.3

4 1 0 1

2 302

5

2 1

1

1

1

31

Bi

21

בניית : Min-Skewאלגוריתם החלוקה עם צפיפות מרחבית לכל תאgrid: נקודות קלט

נתחיל מאזור יחיד המכסה את כל אזור העניין

כל עוד יש פחות אזורים מהדרוש

- חשב לכל תא קיים את השונות לגבי כל ציר- בחר את התא שחלוקתו תפחית יותר את פונקצית המטרה

22

תוצאות ניסויים

ביצוע שאילתות בגדלים משתנים על נתונים •אמיתיים וסינתטיים

שגיאה יחסית ממוצעתמדד לאיכות ההערכה - •של השאילתות לעומת הספירה המדויקת של

אלמנטים בשאילתה

23

תוצאות ניסוייםהשפעת גודל השאילתה

24

תוצאות ניסוייםהשפעת מספר האזורים המותר

25

תוצאות ניסויים-Min על gridהשפעת צפיפות ה-Skew

26

Min-Skewשיפור Progressive Refinement

ביצוע אלגוריתם החלוקה במספר שלבים כאשר •gridכל שלב מעודנת צפיפות ה-

27

השפעתProgressive Refinement

28

זמני ריצה

29

מסקנות

selectivity estimationהשיטות הרגילות ל- • DB)דגימה, היסטוגרמה( לא מתאימות ל-

גיאוגרפי )מרחבי(

שיטות ספציפיות למידע גיאוגרפי נותנות •תוצאות טובות גם עם זיכרון מוקצה קטן

מנצח את שאר Min-Skewאלגוריתם •הטכניקות שנבחנו במאמר: מדויק יותר ומהיר

יותר

30