24
םםםםםם םםםםםםםםם: םםםםםםם םםםםםםםם)םםם םםםםםםםםםםם( ם"ם םםםם םםםםם םםם"ם םםםםםםם םםםםםם םםםםםםםםםםם םםםםםם םםםםם

מודלים סטטיסטיים: שימושים ופירושים (ללא סטטיסטיקאים)

Embed Size (px)

DESCRIPTION

מודלים סטטיסטיים: שימושים ופירושים (ללא סטטיסטיקאים). ד"ר חגית הוכנר ביה"ס לבריאות הציבור האוניברסיטה העברית והדסה. סוגי מודלים לפי סוגי המשתנים הנחקרים. רגרסיה לינארית פשוטה. קשר לינארי בין שני משתנים רציפים מקדם מתאם סימטרי -1≤ r ≤1 הגדרה של תפקידי X ו- Y דוגמאות: - PowerPoint PPT Presentation

Citation preview

Page 1: מודלים סטטיסטיים:  שימושים ופירושים  (ללא סטטיסטיקאים)

: סטטיסטיים מודליםופירושים שימושים

) סטטיסטיקאים) ללא

הוכנר" חגית ר דהציבור" לבריאות ס ביה

והדסה העברית האוניברסיטה

Page 2: מודלים סטטיסטיים:  שימושים ופירושים  (ללא סטטיסטיקאים)

משתנה תלוי )תוצאה(

רציף דיכוטומי זמן הישרדות

משתנה בלתי תלוי )חשיפה(

רציף, סדור, 1(קטגוריאלי,

דיכוטומייחיד, רבים2(

רגרסיה לינארית

רגרסיה לוגיסטית

COמודלX

הנחקרים המשתנים סוגי לפי מודלים סוגי

Page 3: מודלים סטטיסטיים:  שימושים ופירושים  (ללא סטטיסטיקאים)

פשוטה לינארית רגרסיה

רציפים • משתנים שני בין לינארי קשרסימטרי • מתאם r ≤1≥ 1-מקדםתפקידי • של - Xהגדרה Yו דוגמאות: •

הכנסה ) בין ( Xלהשכלה( )Yקשרהבן ) גובה בין האב( )Yקשר ( Xלגובה

שריפה לנזקי אש כיבוי מתחנת מרחק בין קשר

Page 4: מודלים סטטיסטיים:  שימושים ופירושים  (ללא סטטיסטיקאים)

פשוטה לינארית רגרסיה- Xתפקידי • :Yו

–X , , , , חשיפה תלוי בלתי מנבא מסביר covariateמשתנה–Y , , , תוצאה תלוי מוסבר outcomeמשתנה

של • הממוצע המשתנה Yאמידת ערכי .Xבהינתן : לניבוי) ביותר המתאימה הפונקציה אמידת כללי באופן או

) נוספים משתנים ערכי לפי אחד משתנה•: קשרים סוגי

סיבתי, – לא סיבתי

שימושים:•תופעות – בין קשרים הבנת–) מידול ) הקשר תמצותערך – ערך Yניבוי Xבאמצעות

Page 5: מודלים סטטיסטיים:  שימושים ופירושים  (ללא סטטיסטיקאים)

Galton 1886

הילד וגובה ההורה גובה

הקו מהומתאים" ה

ביותר"?

(X)

(Y)

Page 6: מודלים סטטיסטיים:  שימושים ופירושים  (ללא סטטיסטיקאים)

הרגרסיה קובין • הקשר לתיאור ביותר המתאים הקו - Xאמידת ו

Y•: הקשר מתקיים הנתונים זוגות עבור

, aכאשר , bחותך (eשיפוע רעש )= מקרית שגיאה

i i iy a bx e

ab

y

x

משמעויות :הקו של מתמטית תכונה חותך : בה המידה מקרית נמצא Yשגיאה

, ערך עבור לקו מתחת או נתון Xמעל .) התאמה)= טיב

:בין הקשר מידת - Xשיפוע - Yו - ב יחידה Yהשינוי של בשינוי הכרוך - ב Xאחת

Page 7: מודלים סטטיסטיים:  שימושים ופירושים  (ללא סטטיסטיקאים)

הרגרסיה קו• : מחפשים הפחותים הריבועים - aשיטת עבורם bו

ריבועי ) סכום מהקו הסטיות ריבועי סכוםבין לבין Yהמרחקים ( Yבפועל " הקו י ע המנובא. המינימלי הוא

דוגמא:בריטים 2000• ובנים אבות של זוגות•: הרגרסיה משוואת

Y predicted(son’s height)=a + b*X(father’s height)

אב: • " 170ניבוי בן מ "175.7ס מ ס

107.04

0.404

Page 8: מודלים סטטיסטיים:  שימושים ופירושים  (ללא סטטיסטיקאים)

הירושלמי: 1דוגמא הילודה מחקרThe Jerusalem Perinatal Family Follow-Up Study

• The Jerusalem Perinatal Study (JPS) included all 17,003 births during 1974-1976.

• Extensive archival data, e.g. maternal pre-pregnancy BMI, pregnancy weight gain, birth weight, demographics, life-style.

• Medical examinations at age 17 (~70%).• Follow-up of 1400 offspring: Measurement of cardio-metabolic

risk factors at age 32 (range 30-35) - BMI, waist circumference, glucose, insulin, blood pressure (BP), lipids.

• Medical and family history, socio-demographic, lifestyle, nutrition.

• Genotyping of ~180 candidate genes (~1400 tagSNPs) in mother-offspring pairs.

• 900 fathers recently recruited.

Page 9: מודלים סטטיסטיים:  שימושים ופירושים  (ללא סטטיסטיקאים)

בגיל משקל בין 32בגיל BMIלבין 17הקשר

• : שני בין המשותפת ההשתנות את מתאר הפיזור גרף. כמותיים משתנים

•? ? אותו לכמת ניתן כיצד קשר קיים האם

Page 10: מודלים סטטיסטיים:  שימושים ופירושים  (ללא סטטיסטיקאים)

פשוטה לינארית רגרסיה תוצאותDependent: BMI 32

B std. error 95% CI P-value

Weight 17, kg .239 .010 .218, .259 <.001

constant 11.099 .674 9.776, 12.422 <.001

XY *239.099.11

H0: B=0H1: B≠0

BMI

32

Weight 17

11.1

.24 units BMI

1 kg weight

- ה משמעות ?p-valueמהי ? מהי האפס השערת מהי

האלטרנטיבה?

Page 11: מודלים סטטיסטיים:  שימושים ופירושים  (ללא סטטיסטיקאים)

פשוטה לינארית רגרסיה תוצאות

המוסברת השונותBMI 32

Weight 17

32% - ב BMIמהשונות" 32בגיל י ע מוסברת

בגיל 17המשקל

Dependent: BMI 32

B std. error 95% CI P-value

Weight 17, kg .239 .010 .218, .259 <.001

constant 11.099 .674 9.776, 12.422 <.001

R squared 0.319

Page 12: מודלים סטטיסטיים:  שימושים ופירושים  (ללא סטטיסטיקאים)

מרובה לינארית רגרסיה

הפשוטה • הלינארית הרגרסיה של הרחבה•: מסבירים משתנים מספר

Y הילד גובהX1 , האב , X2גובה האם האב X3גובה השכלת

בין • הקשר המשתנים Yלבין Xiבדיקת כאשרמקובעים ) (. adjustmentהאחרים פיקוח,

– , למשל - b1כך ב השינוי את של Yמבטא שינוי עבורבמשתנה אחת - X2כאשר, X1יחידה מוחזקים X3ו

כקבועים.

iiii xbxbxbaY 332211

? חשוב מדוע

Page 13: מודלים סטטיסטיים:  שימושים ופירושים  (ללא סטטיסטיקאים)

לציון נקודות מספר

המשתנה ) • של השונות אחוז או התאמה טיבידי( על המוסברת .כללהתלוי המשתנים

•Adjusted R2 :המוסברת לשונות מתוקן מדדהבלתי המשתנים מספר את בחשבון המביא

תלויים.בין: • מאד חזק ליניארי קשר מולטיקולינאריות

. פוגעת מולטיקולינאריות המסבירים המשתנים. המודל של האמידה ביכולת

Page 14: מודלים סטטיסטיים:  שימושים ופירושים  (ללא סטטיסטיקאים)

מרובה לינארית רגרסיה תוצאותDependent: BMI 32MODEL I - univariate B std. error 95% CI P-value

Weight 17, kg .239 .010 .218, .259 <.001R squared .319MODEL II – multivariate B std. error 95% CI P-value

Weight 17, kg .263 .011 .241, .285 <.001Birth weight, kg -.671 .203 -1.070, -.272 .001Male -.914 .268 -1.440, -.388 .001Adjusted R squared .333

X2

Yb1

X1b2

Page 15: מודלים סטטיסטיים:  שימושים ופירושים  (ללא סטטיסטיקאים)

הספרות מן

Lawlor et al. Circulation 2004; 110:2417-23

Page 16: מודלים סטטיסטיים:  שימושים ופירושים  (ללא סטטיסטיקאים)

לוגיסטית רגרסיה

•( : ערכים שני מקבל דיכוטומי התלוי (0,1המשתנה–) / ( , / לא, כן יתר השמנת ביקורת מקרה למשל

•. רבים או יחיד מסביר משתנהבין ) • הסתברות של במונחים -0ניבוי (: 1ל

- ש .Xבהינתן Y=1ההסתברות מסוים לפתח, – ההסתברות עם MI (Y)למשל פרט BMIעבור

(X) 27של' / " מ ג 2ק

של גרפית הצגה להיראות צפויה כיצדהנתונים?

Page 17: מודלים סטטיסטיים:  שימושים ופירושים  (ללא סטטיסטיקאים)

Plot of the probability of detecting metastasis in a lymph node by H&E versus the natural logarithm of maximum tumor focus diameter (in millimeters) .

Vollmer R T et al. Clin Cancer Res 2003;9:5630-5635

) בין ) לינארי הלא ההסתברות Xהקשר לביןהלוגיסטית Y=1ל- הרגרסיה משוואת לפי

Nodes with metastases detected by H&E

Nodes with metastases not detected by H&E

S-shaped curve derived from a logistic regression

model fit to the data

)(1

1bXae

P

(X)

(Y )

Page 18: מודלים סטטיסטיים:  שימושים ופירושים  (ללא סטטיסטיקאים)

לציון נקודות מספר

לנתונים(: likelihoodנראות )• ההסתברות . הפרמטרים אומדני בהינתן

•-2*log(likelihood) . נרצה - התאמה לטיב מדד. האפשר ככל קטן יהיה זה שערך

•Odds ratio הסיכונים ליחס טוב אומדן הוא(relative risk )נמוכה המחלה הימצאות כאשר

<(10% .)

Page 19: מודלים סטטיסטיים:  שימושים ופירושים  (ללא סטטיסטיקאים)

מרובה לוגיסטית רגרסיה

“Higher levels of long-chain n-3 polyunsaturated fatty acids in red blood cell membranes are associated with lower risk of sudden cardiac arrest. Whether membrane levels of alpha-linolenic acid, a medium-chain n-3 polyunsaturated fatty acid, show a similar association is unclear.”

Lemaitre et al. Metabolism. 2009;58:534-40

המסקנה מהיהעולה

מהתוצאות?

Page 20: מודלים סטטיסטיים:  שימושים ופירושים  (ללא סטטיסטיקאים)

Cox proportional hazards model

הישרדות • אנליזת•) ( : המעקב סוף עד או אירוע עד זמן תלוי משתנה•( ... , , הישנות: מחלה מוות (0,1אירוע

follow-up: start TIME event•. רבים או יחיד מסביר משתנה• : הקשר כמו. )Hazard Ratio )HRמדד לפרש ניתן

OR אוRR

Page 21: מודלים סטטיסטיים:  שימושים ופירושים  (ללא סטטיסטיקאים)

אימהות ותמותת לידה משקל

“we have shown a U-shaped relationship between birth weight of offspring and long-term overall mortality rates in their mothers…findings suggest that a genetic pathway may explain, at least in part, the association between fetal development and chronic diseases later in life. However, maternal obesity, smoking, socioeconomic status and maternal health characteristics during pregnancy may confound this association.”

מבלבלים אכן אימהיים מאפיינים האם? האם ותמותת לידה משקל שבין בקשר

Friedlander et al. Ann Epidemiol. 2009;19:112-7

Page 22: מודלים סטטיסטיים:  שימושים ופירושים  (ללא סטטיסטיקאים)

סרטן אבחון לאחר תמותה של מנבאים

Page 23: מודלים סטטיסטיים:  שימושים ופירושים  (ללא סטטיסטיקאים)

Kaplan-Meier survival curves

IUFD+ IUFD- Crude RR

36.528.4-44.6

17.3 16.4-18.1

2.11 1.7-2.6

Death rates per 10,000PY: p<0.001, log rank test

Page 24: מודלים סטטיסטיים:  שימושים ופירושים  (ללא סטטיסטיקאים)

Models adjusting for: Sociodemographic

variables (SD)SD and maternal conditions

SD, maternal conditions and placental synd.

All Causes 1.71 )1.36-2.15( 1.56 )1.24-1.97( 1.40 )1.11-1.77(

CHD 2.96 )1.54-5.69( 2.42 )1.25-4.69( 2.00 )1.02-3.93(

Circulatory diseases

2.45 )1.49-4.04( 1.94 )1.17-3.21( 1.70 )1.02-2.84(

Cancer 1.33 )0.81-2.20( 1.38 )0.83-2.27( 1.29 )0.78-2.15(

Renal diseases

7.14 )2.36-21.6( 5.60 )1.81-17.3( 4.70 )1.47-15.0(

Other causes 1.28 )0.65-2.49( 1.09 )0.56-2.14( 0.96 )0.49-1.90(

Multivariate Cox proportional hazards models of all-cause and cause-specific mortality of mothers with and

without stillbirths. HR (95% CI)