41
ההההההההה

סטטיסטיקה תרגול 1

Embed Size (px)

Citation preview

Page 1: סטטיסטיקה תרגול 1

סטטיסטיקה

Page 2: סטטיסטיקה תרגול 1

סטטיסטיקה תיאורית

המטרה – ארגון תאור וייצוג הנתונים שהתקבלו מהמחקר

(..'מדדי פיזור, הצגה גרפית וכו)

Page 3: סטטיסטיקה תרגול 1

הסקה סטטיסטית

הכללה מתוך התוצאות שהתקבלו במדגם אל -שאר האוכלוסיה

(שאלת התוקף החיצוני...)

הסקה סטטיסטית הינה הסתברותית – המעבר ממדגם לאוכלוסיה לעולם אינו וודאי. ישנן גם

שיטות להעריך/ לכמת את ההסתברות לטעות האפשרית

Page 4: סטטיסטיקה תרגול 1

השערות המחקר

– מטרות המדע: לנסח חוקים על עולם הטבע שיאפשרו.ניבוי הבנה ושליטה

:השערות המחקר

H0 ,אין קשר בין המשתנים- הנחת הבסיס לגבי מצב העולם ,(למעשה , מה שנבקש להפריך) א' לא גורם ל ב'.

H1 - ) מה ישנו קשר בין המשתנים – ניבוי התיאוריה שלנושנשאף להוכיח).

Page 5: סטטיסטיקה תרגול 1

קריטריונים להשערת מחקר

יחס בין שני משתנים או יותרניסוח בהיראפשרות לבחינה אמפירית

דוגמא: ואליום מפחית חרדה

התעמלות מרובה מעלה מסת שריר

Page 6: סטטיסטיקה תרגול 1

משתנים

:משתנים – הגדרה

משתנה הוא תכונה המקבלת ערכים שונים באוכלוסיה (ערכי המשתנה .עשויים להשתנות בין המשתנים)

גיל , מין, צבע עינייםמשתנים:דוגמאות ל

לערכי משתניםדוגמאות :

20,30,40גיל –

מין – זכר/ נקבה (משתנה דיכוטומי)

...צבע עיניים – כחול,חום,ירוק

Page 7: סטטיסטיקה תרגול 1

מיון משתנים

-כדי להחליט על הניתוח הסטטיסטי ** חשוב חשוב להבין מהו סוג המשתנה המתאים למחקר

בו אנו משתמשים. סוג המשתנה מהווה הגבלה על איכות המבחן בו נשתמש לניתוח הנתונים.

(**מיון לפי רמת המדידה)

Page 8: סטטיסטיקה תרגול 1

מיון לפי כיוון התיאורמדובר בהבחנה בין מב"ת (משתנה בלתי תלוי) למ"ת (משתנה תלוי).

משתנה תלוי- המשתנה אותו נבקש לתאר בעזרת המשתנים האחרים במחקר משתנה בלתי תלוי – המשתנה המתאר את המשתנה התלוי.

מה שקובע את המשתנים והכיוון הוא השערת המחקר. המיון אינו מהותי למשתנה עצמו אלא לקביעה שרירותית של החוקר לפי הנושא. אותו משתנה יכול להיות תלוי במחקר

אחד ובלתי תלוי במחקר אחר

ממתן תרופה של החולים נובעת בלחץ הדםדוגמא: ירידה

. (המשפיע)משתנה בלתי תלוי (המושפע) המשתנה התלוי

הסיכון להתקף לב של החולה משפיע על לחץ הדם: 2דוגמא

(מושפע) משתנה תלוי (משפיע) משתנה בלתי תלוי

Page 9: סטטיסטיקה תרגול 1

מיון לפי מהות המשתנה

הבחנה בין משתנה איכותי למשתנה כמותי

משתנה איכותי- ערכי המשתנה נבחנים לפי סוג איכותי ואין להם ביטוי במספרים

.(מין,צבע עיניים,מחלקה בביה"ח)

משתנה כמותי – ערכי המשתנה מציינים כמות

(...גיל, גובה, ל"ד)

-עבור משתנים כמותיים ישנה אפשרות לתת מיון

קיים מספר משתנה כמותי בדיד: ערכי המשתנה בדידים, בין כל שני ערכים של המשתנה .1. (מספר חדרים, מספר נפשות וכו'..)סופי של ערכים

בין כל שני ערכים של המשתנה ישנם משתנה כמותי רציף: ערכי המשתנה רציפים, .2, גובה: 20-29,30-39ולכן ניתן להציגו בקבוצות של ערכים ( גיל : אינסוף ערכים אפשריים

160-166( .

Page 10: סטטיסטיקה תרגול 1

:ההבחנה מתבצעת לפי ההגדרה האופרטיבית של ערכי המשתנה

-0לדוגמא : המשתנה השכלה- ניתן להגדירו בעזרת מספר שנות לימוד: , ואז הוא משתנה כמותי12 .

או שניתן להגדירו לפי קטגוריה: יסודית, תיכונית, אקדמאית ובמקרה זה

.המשתנה הוא איכותי

Page 11: סטטיסטיקה תרגול 1

מיון לפי רמת המדידה

נבחין בין ארבע רמות מדידה

א. הרמה הנומינלית (משתנים שמיים)

ב. הרמה האורדינלית (משתנים בסולם סדר)

.ג. הרמה האינטרוולית (משתנים בסולם רווח)

.ד. רמת היחס (משתנים בסולם יחס)

.(לרוב מאחדים בין הרמות יחס ורווח)

Page 12: סטטיסטיקה תרגול 1

משתנים נומינליים )שמיים(

ערכי המשתנים הנומינליים נבחנים לפי שמות כאשר .אין משמעות לסדר בינם

לדוגמא : מין, מוצא, סוג מחלה

. b ו a בעל שני ערכים Xניתן לומר כי עבור משתנה

.b ≠ aניתן לומר כי(לעיתים (לשם קידוד במחשב) נסמן את הערכים השונים בעזרת

:גם אז למספרים אין משמעות ערכיתמספרים שונים אך

.2 , נקבה = 1לדוגמא – זכר =

)4 נקבה = 32 באותה המידה ניתן לבחור כי זכר =

Page 13: סטטיסטיקה תרגול 1

משתנים אורדינליים )סולם סדר(

ערכי המשתנים האורדינליים סדורים. ניתן לדרג את הערכים מהנמוך לגבוה ולהפך.

לדוגמא – שביעות רצון, דרגות בצבא וכו'... . ניתן לציין כי b ו- a בעל שני ערכיםX עבור המשתנה

a > b וכי , b ≠ a. .

גם אם נסמן את ערכי המשתנה בעזרת מספרים משמעות המספרים היא רק לצורך הדירוג!

מאוד מרוצה = 2 מרוצה = 1לדוגמא – סולם שביעות רצון : לא מרוצה = 3.

. 40 מאוד מרוצה = 30 מרוצה =20באותו האופן : לא מרוצה = אין משמעות אובייקטיבית למספר עצמו או למרווחים בינם.

Page 14: סטטיסטיקה תרגול 1

משתנה אינטרוולי )סולם רווח(

ערכי המשתנה האינטרוולי הם במספרים ויש משמעות לסדר .בינם, ולרווחים שבין הערכים

,לדוגמא – מנת משכל

ניתן להתייחס להפרש b ו- a לכל שני ערכים Xעבור משתנה כערך שיש לו משמעות . b ל- aבין

יש משמעות למרחקים בין הערכים וניתן להשוות בין ההפרשים

a-b= 10 a-d=10 כלומר המרחק בין .a ל b יחידות 10 שווה . בסולם זה לא ניתן לחלק ערך c ל aוהוא זהה למרחק בין

אחד בשני ולציין את היחס בינם וזאת משום שהוא נועד למשתנים שלערכיהם אין אפס מוחלט.

Page 15: סטטיסטיקה תרגול 1

משתנה יחס

ערכי משתנה היחס הם במספרים וקיים ערך אפס מוחלט. לכן , יש משמעות לחלוקת ערך אחד בשני

וציון היחס בינם (כמובן שיש משמעות גם להפרשים ולסדר).

ניתן לציין פי bו- a לכל שני ערכים Xעבור משתנה . b (a:b=5) מערך aכמה גדול ערך

2 גדול פי 60לדוגמא – המשתנה גיל – ניתן לומר כי שנה. 30מ-

Page 16: סטטיסטיקה תרגול 1

ככלל, משתנה ברמה גבוהה כולל תכונות של משתנים ברמה נמוכה ממנו. רמת המדידה של המשתנה היא שקובעת את הניתוח הסטטיסטי

שניישם על הנתונים. ניתן ליישם שיטה סטטיסטית המתאימה למשתנה ברמה נמוכה גם למשתנה ברמה גבוהה יותר. (מה שמתאים לסולם סדר

אך! בהכרח יתאים גם לסולם רווח או יחס). .ההיפך אינו נכון

Page 17: סטטיסטיקה תרגול 1

הקשר בין מיון לפי רמת מדידה ולפי מהות המשתנה

משתנה נומינלי / שמי – בהכרח משתנה איכותי.

משתנה אורדינלי – יכול להיות איכותי או כמותי.

משתנה אינטרוולי/יחס – בהכרח משתנה כמותי.

Page 18: סטטיסטיקה תרגול 1

סטטיסטיקה תיאורית – ארגון נתונים, הצגה גרפית

Page 19: סטטיסטיקה תרגול 1

דיאגרמת מעגלדיאגרמת המעגל – הצגה 1.

שמתאימה למשתנה איכותי נומינלי. (אין משמעות לסדר, ליחס

או לרווחים בין הערכים השונים).

כל גזרה צריך שטח. ביצירת המעגל- 2להיות פרופורציוני לשכיחות

המקרים של הערך אותו הוא מייצג.

החישוב מתבצע בעזרת שכיחויות. מהנבדקים הם 14.8% כ-:בדוגמה

בעלי שיער בלונדיני.

.53.3= 100)/14.8*360(לכן

בעלי השיער הבלונדיני מיוצגים על ידי מהמעלות של המעגל 53.3

14%

10%

62%

14%

שיער גינג'ישיער בלונדינישיער חוםשיער שחור

Page 20: סטטיסטיקה תרגול 1

דיאגרמת מקלות

הצגה גרפית המתאימה לתיאור או כמותי בדיד משתנה

. משתנה איכותי אורדינלי(כאשר ניתן לדרג את ערכי

המשתנה ויש משמעות לסדר).

מוצגים הערכים של xעל ציר המשתנה הנחקר (במקרה זה

Yמספר ילדים לכל עובד). על ציר מוצגות השכיחויות (מספר

ילדים). Xהעובדים שיש להם

** המשתנה אינו רציף ולכן אין משמעות לרציפות הקו/עובי

העמודה

0

2

4

6

8

10

12

ילד יחיד שניילדים

שלושהילדים

ארבעהילדים או

יותר

מספר עובדים

ארבעה ילדים או יותר

שלושה ילדים שני ילדים ילד יחיד  

3 8 10 5 מספר עובדים

Page 21: סטטיסטיקה תרגול 1

היסטוגרמה

הצגה גרפית המתאימה למשתנה כמותי רציף. ערכי המשתנה מוגדרים מסולם רווח או יחס.

. ויש משמעות לרוחבן של הקבוצותבקבוצות ההצגה הגרפית נותנת ביטוי לשכיחות כל ערך

בתוך הקבוצה.השכיחות של כל קטגוריה מיוצגת על ידי שטח העמודה ולא גובהה!

כל קבוצת ערכים/מחלקה יצירת הפרופורציות: . המרווח בין Xמיוצגת על ידי קטע על ציר

הקיצונים של המחלקה מיוצג על ידי אורך . Xהמקטע בציר

(חשוב מאוד לשמר את קנה המידה: בדוגמא זו – 5אורך של כסמ' אחד מתאים לרוחב קבוצה של

סמ'). 5 קג' יהיה כ-25קג' וכך רוחב קבוצה של כדי לייצג את השכיחות יש לבנות עבור כל קבוצה

מלבן בעזרת קנה המידה שקבענו. הנוסחה עבור כל מלבן היא חלוקת Yלאורך ציר

השכיחות ברוחב הקטגוריה. מקרים, רוחב 6לדוגמא – במחלקה השנייה

. לכן הגובה יהיה 70-65 5=הקטגוריה הוא 6:5=1.2 .

מקרים , רוחב הקטגוריה הוא5במחלקה הראשונה . 0.2=5:25 לכן הגובה יהיה25=65-40

משקל שכיחות

40  - 65 5

65  - 70 6

70  - 75 8

75  - 80 7

80  - 85 6

85  - 95 4

95  - 100 2

Page 22: סטטיסטיקה תרגול 1

פוליגון

גרף שנוצר מקו המחבר את נקודות האמצע של כל קטגוריה בהסיטוגרמה.

למעשה פוליגון מתאר לנו את המהלך הכללי של התפלגות המשתנה הנחקר. ישנן צורות מקובלות של התפלגויות והן

מסווגות על פי הנטייה לאסימטריה. את ההתפלגויות האסימטריות ממיינים להתפלגות אסימטרית חיובית

ואסימטרית שלילית.

Page 23: סטטיסטיקה תרגול 1

מדדי מרכז והתפלגויות

Page 24: סטטיסטיקה תרגול 1

מדדי מיקום מרכזי / ערכים מרכזיים

ערך מרכזי: ערך יחיד המסכם ומבליט תכונות מיוחדות של ההתפלגות.

שכיח

חציון

ממוצע

Page 25: סטטיסטיקה תרגול 1

שכיח

השכיח הוא הערך בעל התדירות הגבוהה ביותר.

את השכיח ניתן לחשב החל מהרמה הנומינלית.

תכונות השכיח:

ניתן לחישוב עבור כל סוגי המשתנים.1.

השכיח אינו מושפע מערכים קיצוניים 2.

.לא תמיד קיים שכיח ולעיתים יש יותר מאחד3.

התפלגות אחידה חסרת שכיח

התפלגות דו שכיחית

Page 26: סטטיסטיקה תרגול 1

חציון -

החציון הוא ערך בטווח הנתונים המסודרים לפי סדר עולה, שבדיוק מחצית מהנתונים .Mdקטנים או שווים לו. את החציון אני מסמנים ב-

ניתן לחשבו החל מהרמה האורדינלית (סולם סדר).

חישוב החציון:

):.f=1 של המשתנה Xבסדרת ערכים בודדים (לכל ערך 1.

יש לסדר את הנתונים מהנמוך לגבוה-

ימי אשפוז (מחצית 18 במקרה זה בו ישנו מספר אי-זוגי של ערכים ערך החציון יהיה מהמאושפזים מאושפזים פחות ימים ומחציתם יותר מכך).

במידה ומספר הערכים זוגי החציון הוא כל ערך בין שני הערכים האמצעיים:

26 = 2)/17+18(במקרה הזה:

מקום סידורי 9 8 7 6 5 4 3 2 1

מספר ימי אשפוז

במחלקה 40 35 20 19 18 17 14 13 11

מקום סידורי 8 7 6 5 4 3 2 1

מספר ימי אשפוז במחלקה 35 20 19 18 17 14 13 11

Page 27: סטטיסטיקה תרגול 1

x1,x2,….xnבאופן כללי, עבור כל סדרת ערכים

n+1/(2( הינו מספר אי-זוגי החציון יהיה nכאשר

הינו מספר זוגי החציון נמצא בין המקום nכאשר . n+2/(2( לבין n/2הסידורי

Page 28: סטטיסטיקה תרגול 1

חציון עבור משתנה רציף

– ב. למשתנה רציף. בונים טבלת שכיחויות מצטברות. 1

קובעים קבוצה שבה נמצא החציון לפי הערך שעד עליו מתפלגות מחצית מהתצפיות:.

191.5 =383/2במקרה הזה – מחצית מהמקרים:

. מכאן 351 לבין 169 מקרים. הוא נמצא בין השכיחות המצטברת 191עד לגיל החציוני נמצאים . 35-55החציון יהיה בקבוצות הגיל בין

f - שכיחות גיל F -שכיחות מצטברת Fn = f1+f2+…fn

18-24 31 31 31+0=31

25-34 138 169 31+138=169

35-54 182 351 169+182=351

55-64 31 382 351+31=382

סה"כ 383 383

Page 29: סטטיסטיקה תרגול 1

קובעים קבוצה שבה נמצא החציון לפי הערך שעד עליו מתפלגים מחצית מהתצפיות.

נסמן :

Lo הגבול התחתון של קבוצת החציון - Nסה"כ השכיחויות -lרוחב קבוצת החציון - fשכיחות קבוצת החציון -Fiשכיחות מצטברת עד לקבוצת החציון -

בדוגמה שלנו :

Md = 35+ 20/182 ×(191.5-169.4)=37.44

0 12

l NMd L F

f

Page 30: סטטיסטיקה תרגול 1

תכונות החציון

ניתן לחישוב החל מהרמה האורדינלית.

נמצא במרכז ההתפלגות.

מושפע מסדר הערכים ולא מהערכים עצמם! (גם אם הערכים הקטנים/הגדולים ממנו ישתנו כל עוד

הערך האמצעי קבוע הוא לא משתנה).

הוא אינו מושפע מערכים קיצוניים.

Page 31: סטטיסטיקה תרגול 1

הממוצע הממוצע הוא סכום ערכי המשתנה לכל הנחקרים חלקי מספר הנחקרים. זהו

מדד המשקף את הרמה הכללית של התופעה. הוא ניתן לחישוב החל מהרמה האינטרוולית.

- הממוצע החשבוני של קבוצה של מספרים מסומן ע"י ומוגדר למשתנה בדידכך:

אם המשתנים מופיעים לפי שכיחותם , אזי הממוצע שלהם הוא

מכיוון שבמשתנה רציף מדובר בקבוצות של משתנים, כדי למשתנה רציף –

לחשב את ממוצע הערכים, לכל קבוצה נחשב ערך אמצע שמייצג אותה ועמו .נחשב את הממוצע (לא לשכוח להכפיל בשכיחות)

x

1 2 1...

N

iN i

xx x x

xN N

1 1 2 2 1...

N

i iN N i

f xf x f x f x

xN N

Page 32: סטטיסטיקה תרגול 1

תכונות הממוצע

ניתן לחישוב רק עבור משתנה כמותי מרמה אינטרוולית לפחות.

הממוצע מתאר רמה כללית של התופעה ואינו בהכרח ערך הקיים בנתונים.

הממוצע מושפע מכל הערכים בסדרה הסטטיסטית כולל ערכים קיצוניים.

ועבור µכאשר הממוצע מחושב עבור אוכלוסיה סימונו הוא מדגם סימונו הוא

x

Page 33: סטטיסטיקה תרגול 1

התפלגויות ומדדי מרכז

: התפלגות סימטרית חד שכיחיתהממוצע החציון והשכיח מתלכדים

: התפלגות דו שכיחית

הממוצע והחציון מתלכדים ובקצוות השכיחים

השכיח = חציון = ממוצע

Page 34: סטטיסטיקה תרגול 1

:התפלגות אסימטרית חיוביתריכוז המקרים נמצא בערכים הנמוכים

< Md <שכיח

התפלגות אסימטרית שלילית:

ריכוז המקרים הוא בערכים הגבוהים

Md>xשכיח<

Page 35: סטטיסטיקה תרגול 1

מדדי פיזור פיזור נתונים הינו המידה בה נוטים נתונים מספריים להיות מפוזרים סביב ממוצע כלשהו. ישנן

שיטות שונות למדידת הפיזור כגון, טווח, טווח בין רבעוני, שונות וסטיית תקן.

– טווחRange .מתאים למשתנה אינטרוולי לפחות -

הטווח של קבוצת מספרים הוא ההבדל בין המספר הגדול ביותר והמספר הקטן ביותר בקבוצה.

הבעייתיות בטווח היא שהוא מראה רק פיזור הערכים הקיצוניים ולא אומר שום דבר על כלל פיזור הערכים.

6,6,6,7,6,7,7,7,4,19לדוגמא – סדרה א :

R:19-4=15

4,5,6,7,8,9,10,11,13,19סדרה ב-

R: 19-4=15

max minR X X

Page 36: סטטיסטיקה תרגול 1

טווח/ תחום בין רבעוני

). 25% רבעונים - מחלקים את ההתפלגות לארבעה חלקים שווים (כל אחד מעיד על טווח של החישוב הוא באותה צורה בה מחשבים חציון.

-Q3(התחום הבין רבעוני הוא ההפרש בין הרבעון העליון (השלישי) והרביעון התחתון (הראשון). Q1(

מהמקרים שבמרכז ההתפלגות לכן , הוא אינו מושפע מחציתבתחום הבין רבעוני מרוכזים מהקצוות אלא רק מהערכים במרכז ההתפלגות

. כמדד פיזור התחום הבין רבעוני מתאים לתאור משתנים מסולם אורדינלי לפחות

Q1 Q2 Q3

התחום הבין רבעוני

Page 37: סטטיסטיקה תרגול 1

שונות וסטיית תקן

השונות - מודדת את הפיזור של הנתונים סביב הממוצע

על ידי חישוב ממוצע ריבועי הסטיות של כל ערך :מהממוצע

סטיית התקן – השורש הריבועי של השונות היא מחזירה את המדד ליחידות המידה של המשתנה המקורי

.S: הנחקר

חישוב :

2S

2

2 2 21

1 1 1

2 2 2 2 2

1 1

12

1 12

N

i N N Ni

i ii i i

N N

i ii i

x xS x x x x

N N

x x x x xN N

Page 38: סטטיסטיקה תרגול 1

לדוגמה:

,2,4,3,6,5,8,7נתונים הערכים –

5=7) / 2+4+3+6+5+8+7(הממוצע הוא:

השונות?

)2-7(²/5) + 4-7(²/5) + 3-7 (²/5= ..…+ 4.88

SQRT 4.88= 2.2סטיית התקן –

Page 39: סטטיסטיקה תרגול 1

ציוני תקןמהם ציוני תקן? זה ציון המבטא את המרחק בין ציון גלם לממוצע

.ביחידות של סטיית תקן:נוסחת ציון תקן

ציון התקן שומר על כל התכונות של ציוני הגלם. אם ההתפלגות שלי היא תישאר כזו גם לאחר התקנון. לכן Uלפני כן הייתה התפלגות

ההפיכה לציוני תקן נקראת טרנספורמציה ליניארית (שינוי כיוון קבוע) שומרים על אותם הערכים שהיו קודם לכן. ציוני התקן יוצרים

בסיס משותף בין חוקרים ובסיס להשוואות בין התפלגויות שונות. אם נדרש לחשב ציוני תקן לכל סדרה סטטיסטית בעלת ממוצע

וסטיית תקן , נקבל סדרה של ציוני תקן וסטיית תקן תמיד שווה 0הממוצע של ציוני התקן תמיד יהיה שווה ל-

ללא תלות בנתונים סטטיסטיים וביחידות המדידה.1ל-

sd

xxz i

Page 40: סטטיסטיקה תרגול 1

בסדרת הנתונים Xציון תקן מתאר מיקום יחסי של תצפית אליה היא שייכת (בשונה מהממוצע וסטיית התקן

שמסכמים את התפלגות המשתנה מעבר לכל הנחקרים).

ציון תקן – בכמה סטיות תקן הציון רחוק מהממוצע.

, ממוצע הכיתה 85לדוגמא – במבחן בהיסטוריה אבי קיבל . 5 וסטיית התקן 82היה

וסטיית 70, ממוצע הכיתה היה 80במבחן בתנ"ך אבי קיבל .3התקן היא

ביחס לכיתתו, אבי טוב יותר בתנ"ך או בהיסטוריה?

Page 41: סטטיסטיקה תרגול 1

עבור המבחן בהיסטוריה ציון התקן של אבי :

)85-82/(5= 0.6

עבור המבחן בתנ"ך ציון התקן של אבי הוא:

)80-70/(3 = 3.33