25
ההההה הההה – ההההההRegression ה"ה ההה ההההההה

כריית מידע – רגרסיה Regression

  • Upload
    caine

  • View
    100

  • Download
    16

Embed Size (px)

DESCRIPTION

כריית מידע – רגרסיה Regression. ד"ר אבי רוזנפלד. שימושי רגרסיה. ניבוי יש אוסף של נתונים ואנחנו רוצים להבין מה יהיה בעתיד דוגמא: רגרסיה לינארית (עשייתם כבר) סיווג יש אוסף של נתונים ואנחנו רוצים לקטלג אותם גם אפשר רגרסיה לינארית SVM ( Support Vector Machine ) Logistic Regression - PowerPoint PPT Presentation

Citation preview

Page 1: כריית מידע – רגרסיה Regression

רגרסיה – מידע כרייתRegression

רוזנפלד" אבי ר ד

Page 2: כריית מידע – רגרסיה Regression

רגרסיה שימושי

ניבוי 1..A יהיה מה להבין רוצים ואנחנו נתונים של אוסף יש

בעתיד.B:דוגמא) כבר ) עשייתם לינארית רגרסיה

סיווג2.אותם 1. לקטלג רוצים ואנחנו נתונים של אוסף יש

לינארית 1. רגרסיה אפשר גם

.2SVM (Support Vector Machine)

.3Logistic Regression

היום 2. ההרצאה של נושא

Page 3: כריית מידע – רגרסיה Regression

Regression

נתונים 1. של אוסף לך יש

טעות 2. של מדד איזשהו מצמצם שהוא קו מכניסים

.3 , לניבוי טוב כלי זה הצלחנו אם

Independent variable (x)

Dep

ende

nt v

aria

ble

ניבוי למען לינארית רגרסיה

Page 4: כריית מידע – רגרסיה Regression

דוגמא

Page 5: כריית מידע – רגרסיה Regression

לצמצם מנסים ?מהWhich Objective Function?

מוחלט )• ( Least Absolute Errorטעות

בריבוע )• (Least Square Errorטעות

Page 6: כריית מידע – רגרסיה Regression

Nonlinear Regression

Nonlinear functions can also be fit as regressions. Common choices

include Power, Logarithmic, Exponential, and Logistic, but any continuous function can be used.

לינארית לא רגרסיה

Page 7: כריית מידע – רגרסיה Regression

החלטות – עץ סיווג למען רגרסיה

Page 8: כריית מידע – רגרסיה Regression

רגרסיה -- יותר פשוט מודל

Page 9: כריית מידע – רגרסיה Regression

איפה– ברור תמיד לא הבעיהלחתוך

Page 10: כריית מידע – רגרסיה Regression

SVM – הקטגוריות בין רווח למקסם הכללי הרעיון

Page 11: כריית מידע – רגרסיה Regression

הפתרון הגדרת

נתונים: • של אוסף קייםו Xש מאפיינים של הוקטור הקטגוריות Yהוא הם

: רוצים אנחנו אידיאלי במצב

Page 12: כריית מידע – רגרסיה Regression

ההגדות ...לפי

Page 13: כריית מידע – רגרסיה Regression

נותן תמיד לא המציאות ...אבל

ה • את להקטין צורך או, HINGE LOSSיש" " נכון לא ה בצד שהם המופעים

•HINGE LOSS של אחת פונקציה רק LOSSהוא

Page 14: כריית מידע – רגרסיה Regression

Linear SVM Mathematically Goal: 1) Correctly classify all training data

if yi = +1

if yi = -1

for all i 2) Maximize the Margin same as minimize

We can formulate a Quadratic Optimization Problem and solve for w and b

Minimize subject to

wM

2

www t

2

1)(

1bwxi1bwxi

1)( bwxy ii

1)( bwxy ii

i

wwt2

1

Page 15: כריית מידע – רגרסיה Regression

Solving the Optimization Problem

Need to optimize a quadratic function subject to linear constraints. Quadratic optimization problems are a well-known class of

mathematical programming problems, and many (rather intricate) algorithms exist for solving them.

The solution involves constructing a dual problem where a Lagrange multiplier αi is associated with every constraint in the primary problem:

Find w and b such thatΦ(w) =½ wTw is minimized;

and for all {(xi ,yi)}: yi (wTxi + b) ≥ 1

Find α1…αN such that

Q(α) =Σαi - ½ΣΣαiαjyiyjxiTxj is maximized and

(1) Σαiyi = 0(2) αi ≥ 0 for all αi

Page 16: כריית מידע – רגרסיה Regression

נוספים שיפורים

לינארית )• לא בפונקציה (Kernel Trickשימושפולינומים––GAUSIAN ועוד...–

Page 17: כריית מידע – רגרסיה Regression

הסתברותית רגרסיהבפונקציה LOGITנתחיל

הקטגוריה • בתוך קיים שמופע מההסברות בנוישלו • המאיינים כל בהינתןהפונקציה • את למקסם הצורך את שוב יש•Log Likelihood (Log Odds)•! איטי מאוד נגדל

Page 18: כריית מידע – רגרסיה Regression

לקטגוריות הסתברויות הופכים איך

ש • לב בתור LOGISTIC REGRESSIONשימו מוציא) מספרים ) ולא קטגוריות פלט

•LOGIT- ( בין מספר פלט בתוך (7ל 7מוציאל: • המספרים את לתרגם דרך log-oddsפתרון

הפוכה = Logistic Functionפונקציה

Page 19: כריית מידע – רגרסיה Regression

הסתברותית רגרסיהLogistic Regression

ב • הסתברותי OBJECTIVE FUNCTIONשימוש(logistic)

ל • קרוב גבוה- 1ו 1מקטלג הסתברות אומר

is the intercept where f(x)=0

controls the graph shape

Page 20: כריית מידע – רגרסיה Regression

: ה למקסם הרגרסיה TRAINING DATAמטרת

יש • בתוך mאם רכיבים הרבה יש מאפייניםהפונקציה:

ש•של • המשקולות את לקבוע צורך יש שוב

ה ) השונים (βמהאפיינים

Page 21: כריית מידע – רגרסיה Regression

מודלים בין בדיוק הבדלים

Page 22: כריית מידע – רגרסיה Regression

המודלים בין עקרוניים הבדלים

• – שלב שלב אינקרמנטליים בנויים עציםזמנית • בו פרמטר לכל משקל בונה רגרסיההפונקציה • צורת לפי רק מחלקת רגרסיה

, .LOGISTICלינארית) .)' גמישים, יותר עצים וכוהרופאים ) • העץ של לפלט משמעות יותר יש

) אותם מעדיפים לקוחות ורובלרגרסיה • טוב יותר דיוק שיש להיות יכול

Page 23: כריית מידע – רגרסיה Regression

רגרסיה של הפלט

Page 24: כריית מידע – רגרסיה Regression

עצים של הפלט

Page 25: כריית מידע – רגרסיה Regression

ברגרסיה – המודלים בין שינוייםלינארית חלוקה תמיד לא