SPSS ا هافتسا اب نویسگ - Guilanstaff.guilan.ac.ir/staff/users/rzarei/fckeditor_repo/file...1 نویسگ یاه هویش – مو ل ف – SPSS ا هافتسا اب نویسگ:

«به نام خدا»

SPSSرگرسیون با استفاده از

تنظیم : یلدا قنوعیترجمه و

4931زمستان

1

شیوه های رگرسیون –فصل دوم – SPSSرگرسیون با استفاده از

نمای کلی فصل :

روش های رگرسیون 0.2

داده های غیر عادی و با نفوذ 0.4

(residuals)آزمون میزان نرمالیته باقیمانده ها 0.0

آزمون خطاهای غیرثابت واریانس 0.9

آزمون چندخطی بودن متغیر های مستقل 0.1

غیر خطی بودن متغیر های مستقلآزمون 0.2

خصوصیات مدل 0.2

مسائل مربوط به استقالل 0.2

خالصه 0.2

2

روش های رگرسیون 0.2

رگرسیون خطی معمولی را انجام دهیم، و در SPSSدر فصل گذشته یادگرفتیم که چگونه با استفاده از

انتها با روش هایی برای آزمون پراکندگی متغیرها آشنا شدیم که با استفاده از آنها بتوان با یک نگاه به

فرض های رگرسیون، غیر نرمال بودن پراکنش متغیر ها را بررسی کرد. بدون بازبینی اینکه داده های شما

وانی داشته باشند یا خیر، نتایج شما ممکن است گمراه کننده باشند. این فصل با فرض های رگرسیون همخ

ا خیر؟ به به بررسی این مورد می پردازد که آیا داده های شما با فروض رگرسیون خطی همخوانی دارند ی

خصوص، فروض زیر را در نظر می گیریم:

جه باید خطی باشد.پیش بینی کننده ها و اینکه متغیر نتیرابطه بین : خطی بودن

:به طور فنی نرمالیته فقط درمورد -خطاها باید به طور نرمال پراکنده شده باشندنرمال بودن

الزامی است تا بتوان این آزمون های را قابل اطمینان دانست، پیش بینی ضرایب فقط tآزمون های

نیازمند آن است که خطاها به طور یکسان و مستقل پراکنده شده باشند.

:واریانس خطا باید ثابت باشدهمگنی واریانس.

:خطاهای مربوط به یک مشاهده با خطاهای هیچ مشاهده دیگری در ارتباط نیستند.استقالل

:مدل به طور کامل باید مشخص شده باشد) شامل همه متغیرهای مربوط ، مشخصات مدل

باستثنای متغیرهای بی ربط(

ر طول این آنالیز ظاهر خواهند شد که، همچنانکه به طور مستقیم نتایج در ادامه، مسائلی وجود دارند که د

رگرسیون نیستند، کم و بیش ، برای تحلیلگران رگرسیون دارای اهمیت زیادی هستند.

:مشاهداتی که نفوذ غیرضروری بر ضرایب اعمال می کنند.نفوذ

:مثال، پیش بینی کننده پیش بینی کننده هایی که بسیار خطی هستند به عنوان خطی بودن

هایی که بصورت خطی ارتباط دارند می توانند باعث مشکالتی در تخمین ضرایب رگرسیون شوند.

بسیاری از روش های نموداری و آزمون های عددی برای تشخیص رگرسیون در طی سال ها توسعه یافته اند

. در این فصل این روش ها را مورد بسیاری از این روش ها را قابل دسترس و استفاده نموده است SPSSو

بررسی قرار می دهیم و نشان می دهیم که چگونه فروض رگرسیون را بررسی کنید و مشکالت احتمالی

را شناسایی خواهیم کرد. SPSSدرباره استفاده از

داده های غیر عادی و با نفوذ 0.4

می تواند باعث تفاوت های بسیار زیادی تک مشاهده ای که به طور اساسی با دیگر مشاهدات متفاوت است

در آنالیز رگرسیون شما شود. اگر یک تک مشاهده )یا یک گروه کوچکی از مشاهدات( به طور اساسی نتایج

راه متفاوت 3شما را تغییر دهند، شما باید به آن توجه کنید و درباره آن تحقیقات بیشتری انجام دهید.

اند غیر عادی باشد:وجود دارند که یک مشاهده می تو

در رگرسیون خطی، یک مشاهده ی دور مشاهده ای با باقیمانده : (outliers) مشاهدات دور .1

مقدار متغیر وابسته اش با توجه به مقادیر متغیر بزرگ می باشد. به بیان دیگر، مشاهده ای است که

3

گی یک نمونه باشد و های پیش بینی کننده، غیرعادی است. یک مشاهده دور می تواند نشانگر ویژ

یا نشان دهنده خطایی در ورود داده ها یا مشکالنی دیگر باشد.

2. (leverage) : مشاهده ای با مقدار بسیار باال بر روی متغیر پیش بینی کننده نقطه ای با قدرت

از میانگین مقیاسی برای تعیین میزان انحراف یک مشاهده Leverageنفوذ باال نامیده می شود.

یر می باشد. این نقاط می توانند اثرات غیرعادی بزرگی بر ارزیابی ضرایب رگرسیون داشته آن متغ

باشند.

به طور یک مشاهده زمانی تاثیر گذار نامیده می شود که حذف آن مشاهده : (influence) نفوذ .3

می تواند به عنوان محصولی )نتیجه ای( از نفوذاساسی در ارزیابی ضرایب تغییر ایجاد کند.

leverage وoutlier .باشد

4

نگاهی "جرم"چگونه می توانیم این سه نوع مشاهده را شناسایی کنیم؟ بیائید به مثالی با عنوان

عبارتند از:متغیر ها. بیاندازیم

(sid)شماره شناسایی .1

(state)نام شناسایی .2

111.111جرم های خشونت آمیز به ازای هر .3

(crime)نفر

(murder)نفر 1.111.111قتل ها به ازای هر .4

درصد جمعیتی که در نواحی شهری زندگی می .5

(pcmetro)کنند

(pcwhite)پوست درصد جمعیت سفید .6

(pcths)جمعیت با سواد باال درصد .7

یتی که زیر خط فقر عدرصد جم .8

(poverty)هستند

درصد جمعیتی که والدین مجرد .9

. (single)هستند

فی این متغیر ها و داده ها جدول توصی روبرو در

شده است. آورده

بپردازیم. crimeبه پیش بینی متغیر singleو pcmetro ،poverty با استفاده از متغیر های بیایید

می توان گفت که ما می خواهیم یه

مدل رگرسیون خطی بین متغیر

متغیر دیگر 3و (crime)واکنش

که مستقل هستند، بسازیم .

در ابتدا و قبل از تحلیل رگرسیون به

در crimeنمودار پراکنش متغیر

متغیرپیش بینی 3برابر هرکدام از

، نگاه می کنیم تا بتوانیم ایده کننده

یی درباره مشکالت احتمالی داشته ها

باشیم. می توانیم نمودار پراکنشی به

صورت روبرو داشته باشیم:

آمار توصیفی

N نمیانگی حداکثر حداقل

Std.

Deviation

CRIME 51 82 2922 612.84 441.111

MURDER 51 1.61 78.51 8.7275 11.71758

PCTMETRO 51 24.11 111.11 67.3912 21.95713

PCTWHITE 51 31.81 98.51 84.1157 13.25839

PCTHS 51 64.31 86.61 76.2235 5.59219

POVERTY 51 8.11 26.41 14.2588 4.58424

SINGLE 51 8.41 22.11 11.3255 2.12149

Valid N

(listwise) 51

5

ما نقطه ای را با متغیر دیگر چند مشکل اساسی را نشان می دهند. در هر نمودار، crimeنمودار های متغیر

ک متغیر ها را با متغیر تر های تک می باشد. بیایید نمودا مشاهده می کنیم که بسیار دورتر از نقاط دیگر

crime .بسازیم تا بتوانیم دید بهتری از این نمودار های پراکنش داشته باشیم

نقطه ایست که باید به آن توجه بیشتری نشان dcتمامی نمودار های پراکنش پیشنهاد می کنند که مشاهده

داد زیرا از تمامی نقاط دیگر بر روی نمودار کامال دور است. باید این نکته در زمان انجام تحلیل رگرسیون در

خاطر داشته باشیم.

6

متغیر دیگر 3در برابر crimeحاال با استفاده از دستور رگرسیون به پیش بینی

قدم پیش خواهیم رفت که تمامی نقاط غیر عادی و تاثیرگذار احتمالی را شناسایی کنیم. می پردازیم. قدم به

متغیر های وارد شده/حذف شده در مدل

Model ه از مدلدای حذف شمتغیر ه متغیر های وارد شده در مدل Method

4 SINGLE, PCTMETRO, POVERTY(a) - Enter

تمامی متغیر های خواسته شده وارد شده اند .4

crimeمتغیر مستقل : .0

regression

/dependent crime

/method=enter pctmetro poverty single.

ANOVA(b)

Model Sum of Squares df Mean Square F Sig.

4

Regression 8171481.211 3 2723493.414 82.161 .111(a)

Residual 1557994.534 47 33148.821

Total 9728474.745 51

SINGLE, PCTMETRO, POVERTY ,(Constant) :پیش بینی کننده ها

CRIME :متغیر وابسته

Model Summary(b))خالصه مدل(

Model R R Square Adjusted R Square Std. Error of the Estimate

4 .342(a) .212 .292 420.222

SINGLE, PCTMETRO, POVERTY ,(Constant) :پیش بینی کننده ها


7

Coefficients(a)

Unstandardized

Coefficients Standardized Coefficients

t Sig.

Model B Std. Error Beta

4

(Constant) -1666.436 147.852

-11.271 .111

PCTMETRO 7.829 1.255 .391 6.241 .111

POVERTY 17.681 6.941 .184 2.547 .114

SINGLE 132.418 15.513 .637 8.541 .111


8

باقی مانده های استیونت شده ی حذف شدهحال بیایید داده هایی همانند داده های قبلی به جز

(studentized deleted residuals) ، را در نظر بگیریم. باقی مانده استیودنت شده حذف شده

باقی مانده ای است که بعد از حذف مشاهده مورد نظر از مدل و دوباره به اجرا در آوردن رگرسیون وجود خواهد

این باقی مانده ها به این علت مهم هستند که برخی از این نقاط آنقدر تاثیرگذار هستند که زمانیکه در داشت.

در حالیکه -حلیل وجود دارند می توانند آن تک مشاهده را طوری نشان دهند که گویی یک داده دور افتاده نیستت

به طوقتی آن مشاهده را حذف می کنیم کامال میزان دورافتادگی اش مشخص می شود. در زیر خروجی مربو

تحلیل باقیمانده ها آورده شده است.

regression

/dependent crime

/method=enter pctmetro poverty single

/residuals=histogram(sdresid).

Residuals Statistics(a)

N Std.deviation

)انحراف استاندارد(Mean

)میانگین(Maximum

)حداکثر(Minimum

)حداقل(

24 121.012 240.21 0223.19 -92.24 Predicted value

)مقدار پیش بینی شده(

24 4.222 .222 1.230 -4.230 Std. predicted value

)مقدار پیشبینی شده استاندارد(

24 42.229 12.224 499.919 02.222 Standard Error of Predicted Value

)خطای استاندارد مقدار پیشبینی شده(

24 923.222 222.22 0290.44 -93.02 Adjusted Predicted value

)؟(

24 422.200 .22 102.44 -209.24 Residual)باقیمانده(

24 .322 .222 0.912 -0.229 Std. Residual)باقیمانده استاندارد شده(

24 4.2220 .242 9.902 -9.431 Stud. Residual)باقیمانده استیودنت شده(

24 009.222 2.42 223.23 -212.22 Deleted Residual)باقیمانده حذف شده(

24 4.499 .242 9.222 -9.224 Stud. Deleted Residual

)باقیمانده استیودنت شده حذف شده(

24 1.241 0.314 02.293 .209 Mahal. Distance)؟(

24 .121 .223 9.029 .222 Cook's Distance)فاصله شاخص کوک(

24 .222 .223 .242 .222 Centered Leverage Value)؟(

9

این نمودار نشان دهنده تعدادی از داده های

می توانیم با دور افتاده احتمالی می باشد.

استفاده از داده های دور افتاده)باقیمانده های

تا ازid(state) 11حذف شده استیودنت شده( و

را برای باقیمانده های حذف ادیربیشترین مق

شده استیودنت شده بر اساس نام ایالتی که

مشاهده مورد نظر در آن صورت گرفته بدست

آوریم. در زیر خروجی ای که با استفاده از گزینه

باال بدست آورده ایم مشخص شده است.

اند. آمده flو msبیشترین مقدار را دارد و به دنبال آن dcمی توانید ببینید که

regression

/dependent crime


/residuals=histogram(sdresid) id(state) outliers(sdresid).

Outlier Statistics(a) Statistic STATE Case Number

9.222 dc 24 4

Stud. Deleted Residual

-9.224 ms 02 0

0.202 fl 3 9

-4.293 la 42 1

-4.222 ri 93 2

4.232 ia 40 2

-4.921 wa 12 2

4.039 id 49 2

4.420 il 41 3

-4.412 oh 92 42

a Dependent Variable: CRIME

Dependent variable : crime (crime)متغیر وابسته :

11

2می توانیم با استفاده از دستور زیر تمامی مشاهداتی که باقیمانده حذف شده استیودنت شده آنها بیشتر از

هستند را بدست آوریم.

regression

/dependent crime


/residuals=histogram(sdresid) id(state) outliers(sdresid)

/casewise=plot(sdresid) outliers(0)

Casewise Diagnostics(a))بررسی موردی(

Case Number STATE Stud. Deleted Residual CRIME Predicted Value Residual

3 fl 2.621 1216 779.89 426.11

02 ms -3.571 434 957.11 -523.11

24 dc 3.766 2922 2519.43 412.57


11

احتمالی باالیی در ارزیابی تا مشاهداتی را که تاثیرات ، leverageحال بیایید نگاهی بیاندازیم به مقادیر

رگرسیون ضرایب دارند شناسایی کنیم. )طبق دستور زیر(

باشد باید به دقت مورد بررسی قرار n/(0k+0)آن بیشتر از leverageدر حالت کلی نقطه ای که مقدار

تعداد مشاهدات می باشد. بنابراین مقداری بیشتر از nتعداد پیش بینی کننده هاست و Kگیرد. در اینجا

مشاهده وجود 4ارزش تحقیقات بیشتر را خواهد داشت. همانطور که می بینید 1568. = 51/(3+2*2)

است. 1568.آنها بیشتر از leverageدارد که مقدار

regression

/dependent crime


/residuals=histogram(sdresid lever) id(state) outliers(sdresid lever)

/casewise=plot(sdresid) outliers(0).

Outlier Statistics(a)

Statistic STATE Case Number

3.766 dc 51 4

Stud. Deleted Residual

-3.571 ms 25 0

2.621 fl 9 9

-1.839 la 18 1

-1.686 ri 39 2

1.591 ia 12 2

-1.314 wa 47 2

1.293 id 13 2

1.152 il 14 3

-1.148 oh 35 42

.517 dc 51 4

Centered Leverage Value

.241 ak 1 0

.171 ms 25 9

.161 wv 49 1

.146 la 18 2

.117 vt 46 2

12


13

14

آن بزرگ می باشد. leverageمشاهده ای است که هم باقیمانده بزرگی دارد و هم DCهمانطورکه دیدیم،

توان نموداری بر حسب باقیمانده و چنین نقاطی به صورت بالقوه بیشترین تاثیر را خواهند داشت. می

leverage تهیه کرد و به دنبال مشاهداتی بود کهleverage الست. می توان این کار را و باقیمانده آنها با

تاثیر باال که با استفاده از دستور زیر انجام داد. این راهیست سریع برای بررسی هم زمان نقاط بالقوه ای

. هردو نوع این نقاط بیشترین اهمیت را برای ما دارند. (outliers)و همچنین نقاط دور افتاده دارند

باقیمانده بسیار منفی ای msباالیی دارد، و leverageال و هم هم باقیمانده با dcهمانطور که می بینیم،

( ندارد. dcباالیی )در مقایسه با leverageدارد ولی

regression

/dependent crime


/residuals=histogram(sdresid lever) id(state) outliers(sdresid, lever)

/casewise=plot(sdresid) outliers(0)

/scatterplot(*lever, *sdresid).

15

، به خصوص نگاهی بیاندازیم به شاخص (influence)حاال بیایید برویم سراغ مقیاس های کلی نفوذ

را با هم ترکیب می کند. کمترین مقداری که leverage، که اطالعات باقیمانده و (cook's D)کوک

است، و هرچه شاخص کوک بزرگتر باشد آن نقطه بیشترین نفوذ را داشته باشد صفر شاخص کوک می تواند

محدوده قراردادی این نقطه خواهد داشت. 𝟒

𝒏است، یا در این مسئله

𝟒

𝟓𝟏می باشد. در زیر با 1.178یا

زیر ورد نظر را در این رابطه بدست آوریم. در جدول هایاز دستور زیر می توانیم خروجی م استفاده

(1.178)مشاهده دورافتاده که در جدول آمده اند، مقدار شاخص کوک از این محدوده 3می بینیم که برای

ایالتی هستند که از این la،4و dc ،ms ،flباالتر رفته است. و در جدول مشاهدات دورافتاده می بینیم که

د.محدوده باالتر رفته اند، و همه نقاط دیگر از این حد کمتران

regression

/dependent crime


/residuals=histogram(sdresid lever) id(state) outliers(sdresid, lever, cook)

/casewise=plot(sdresid) outliers(0) cook dffit

/scatterplot(*lever, *sdresid).

Casewise Diagnostics(a)- بررسی موردی

Dffit ؟

Cook's D

Distance

فاصله شاخص کوک

Crime

جرمStud, Deleted Residuals

باقیمانده حذف شده استیودنت شدهState

ایالتCase Number

شماره مورد

48.517 .174 1216 2.261 fl 9

-123.491 .612 434 -3.571 ms 25

477.319 3.213 2922 3.766 dc 51

dependent Variable: CRIME - جرم : متغیر وابسته

16

Outlier Statistics(a)

Sig. F Statistic STATE Case Number

3.766 dc 51 4

Stud. Deleted

Residual

-3.571 ms 25 0

2.621 fl 9 9

-1.839 la 18 1

-1.686 ri 39 2

1.591 ia 12 2

-1.314 wa 47 2

1.293 id 13 2

1.152 il 14 3

-1.148 oh 35 42

.121 3.213 dc 51 4

Cook's distance

.663 .612 ms 25 0

.951 .174 fl 9 9

.958 .159 la 18 1

.997 .141 ri 39 2

.997 .141 ia 12 2

.997 .137 id 13 2

.999 .121 md 21 2

.999 .118 co 6 3

.999 .116 wv 49 42

.517 dc 51 4

Centered

Leverage Value

.241 ak 1 0

.171 ms 25 9

.161 wv 49 1

.146 la 18 2

.117 vt 46 2

.183 fl 9 2

.181 mt 26 2

.175 nj 31 3

.172 ky 17 42

dependent Variable: CRIME - جرم : متغیر وابسته

17

همچنین می توانید مقیاس های شاخص کوک را می توان به عنوان یک مقیاس عمومی نفوذ در نظر گرفت.

نفوذ خاص دیگری را نیز درنظر بگیرید که چگونگی تغییر هر ضریب با اضافه کردن مشاهده مورد نظر را

ارزیابی می کنند. فرض کنید که رگرسیون ضرایب را برای مدل رگرسیونی خود در زمانیکه یک مشاهده

رگرسیون ضرایب را در مقایسه با وجود آن مشاهده در ، محاسبه کردید، و تغییر در را حذف نموده اید خاص

می تواند برای هر DFBETAنامیده می شود و مقدار یک DFBETAمدل مشاهده نمودید. این مقیاس

متغیر در فایل اطالعاتی ما باقی می مانند، 4مشاهده و هر پیش بینی کننده محاسبه شود. با این کار

sdfb1 و sdfb2 و sdfb3 و sdfb4 مربوط میشوند به به ترتیب ، کهDFBETA عرض از برای

pctmetro ،poverty ،(intercept)مبدا

sdfb. می توانیم به جای کلمه singleو

هرچیز دیگری بگذاریم و متغیر هایی که می

سازیم می توانند با هر پسوندی که خودمان

می گذاریم شروع شوند.

خروجی جدیدی حاصل نخواهد شد ولی می توانیم ببینیم save sdbeta (sdfb)/با اضافه کردن دستور

akمورد اول متغیر هایی ساخته می شود. به عنوان مثال با ورود مورد 11برای listکه با استفاده از دستور

از خطای 1.116-به اندازه pctmetroدر تحلیل رگرسیون )در مقایسه با حذف این مشاهده(، ضریب

از خطای 1.131-به اندازه povertyضریب akش خواهد یافت. همچنین، با ورود مورد تاندارد کاهاس

افزایش می یابد )در از خطای استاندارد 1.145به اندازه singleاستاندارد کاهش می یابد، و ضریب

از آنجائیکه ورود یا خروج یک مشاهده می تواند باعث .در آن حذف شده باشد( akمقایسه با مدلی که

ها می توانند هم مثبت و هم منفی باشند. اگر DFBETAافزایش یا کاهش ضریب رگرسیونی شود،

DFBETA 2باالتر از/sqrt(n) .در این مثال، نگرانی ما بیشتر باشد باید مورد بررسی بیشتری قرار گیرد

خواهد بود. 28یا sqrt(51)/2درباره مقادیری باالتر از list

/variables state sdfb4 sdfb0 sdfb9

/cases from 4 to 42.

regression

/dependent crime


/residuals=histogram(sdresid lever) id(state)

outliers(sdresid, lever, cook)


/scatterplot(*lever, *sdresid)

/save sdbeta(sdfb).

18

باشد، این state idضریب در برابر 3برای هر DFBETAمی توانیم نموداری تهیه کنیم که شامل مقادیر

نمودار به ما کمک می کند که مشاهداتی که به طور بالقوه باعث ایجاد مشکل می شوند را ببینیم. می بینیم

کوچکتر باشند و تا واضح تر در نمودار نشان داده تغییر کرده اند تا sdfb3و sdfb2و sdfb1که مقادیر

است، با توجه به اینکه با وجود 3تقریبا dcبرای singleمتغیر DFBETAشوند. می توانیم ببینیم که

dc در مول رگرسیونی، ضریبsingle 3 واحد خطای استاندارد بیشتر از زمانی است کهdc را از مدل حذف

می باشد. dcکرده باشیم. و این دلیلی دیگر بر مشکل دار بودن مشاهده

VARIABLE LABLES sdfb4 "Sdfbeta pctmetro"

/sdfb0 "Sdfbeta poverty"

/sdfb9 "Sdfbeta single" .

GRAPH

/SCATTERPLOT(OVERLAY)=sid sid sid WITH sdfb4 sdfb0 sdfb9

(PAIR) BY state(name)

/MISSING=LISTWISE .

یاس هایی که در مورد آنها بحث شد استفاده می شود. مقجدول زیر خالصه ای از مقادیری است که برای

kکه با استفاده از آنها می توان مشاهداتی که باید راجع به آنها بررسی بیشتری آنجام داد را شناسایی کرد. )

تعداد مشاهدات می باشد(. nتعداد پیش بینی کننده ها و

Measure Value

leverage >(2k+2)/n

abs(rstu) > 2

Cook's D > 4/n

19

، residuals ، /casewise/در جدول زیر نمونه هایی از متغیر هایی که با استفاده از دستور های

/scatterplot و/save sdbeta( ) بدست می آید آورده شده اند. اگرچه که همه این متغیر ها با یکی از

است دستورها حاصل نمی شوند.)منظور این است که با دادن یکی از این دستورها همه این متغیرها را در

خروجی نمی توان مشاهده کرد(.

abs(DFBETA) > 2/sqrt(n)

21

عالوه بر مقیاس های عددی که در باال نشان داده ایم، نمودار های دیگری هم وجود دارند که می توان از آنها

برای جست و جوی مشاهدات غیرعادی و بانفوذ استفاده کرد. نمودار رگرسیون جزئی برای تشخیص نقاط

ایجاد نمودار رگرسیون جزئی را برای partialplot/بانفوذ بسیار مفید است. برای مثال می توان دستور

برای تمامی پیش بینی کننده ها استفاده کنیم. به عنوان نمونه، در سومین نمودار زیر می توانیم نمودار

بعدا از آنکه هر دو آنها برای تمامی پیش بینی singleبر حسب crimeرگرسیون جزئی را برای دو متغیر

طی که در نمودار کشیده شده است شیبی برابر شیب ضریب های دیگر تنظیم شده اند مشاهده می شود. خ

single .این نمودار نشان می دهد که چگونه مشاهده داردDC .ضریب آن را تحت تاثیر قرار می دهد

می توانید ببینید که خط رگرسیونی چگونه به سمت باال کشیده می شود و می کوشد تا مقادیر بسیار باالی

DC ممکن است مقادیر قابل توجه هم هد. آالسکا و ویرجینیای غربی را تحت پوشش قرار دleverage را

این نقاط از این جهت مفیدند که چگونگی تاثیر یک تک نقطه را نشان دهند. singleبر روی ضریب متغیر

بروری خط رگرسیونی نشان می دهند، در عین حال سایر متغیر ها را نیز در مدل به حساب می آورند.

بار 2داشته باشید که خط رگرسیونی به طور خودکار در نمودار ایجاد نمی شود. باید بر روی نمودار توجه

را بزنید تا خط Fit Line Total را بزنید، و optionرا انتخاب کنید، سپس chartکلیک کرده،

د استفاده کنید.رگرسیونی به هرکدام از نمودارهایتان اضافه شود. همچنین دستور زیر را نیز می توانیregression

/dependent crime


/residuals=histogram(sdresid lever) id(state) outliers(sdresid, lever, cook)


/scatterplot(*lever, *sdresid)

/partialplot.

21

22

و هم به عنوان نقطه ای بانفوذ ظاهر (outlier)هم به عنوان یک داده دور DCدر هر کدام از تحلیل ها

یک ایالت محسوب نمی شود می توان از این دلیل استفاده کرد و آن را از DCشده است. از آنجایی که

تحلیل حذف نمود و گفت که ما فقط به دنبال

لت ها هستیم. ابتدا، اانجام این تحلیل در ای

بصورت زیر DCدوباره تحلیل خود را با وجود

تکرار کنیم.

regression

/dependent crime

/method=enter pctmetro poverty

single.

Coefficients(a)- ضرایب

Unstandardized Coefficients

ضرایب استاندار نشده

Standardized coefficients

.t Sig ضرایب استاندارد شده


4

(Constant)عرض از مبدا

-1666.436 147.852

-11.271 .111

PCTMETRO 7.829 1.255 .391 6.241 .111

POVERTY 17.681 6.941 .184 2.547 .114

SINGLE 132.418 15.513 .637 8.541 .111

a Dependent Variable: CRIME - متغیر وابسته: جرم

23

تحلیل خود را روبرو حاال بیایید با استفاده از دستور

همانطور که انتظار داریم، انجام دهیم. DCبا حذف

باعث تغییر بزرگی در ضریب متغیر DCحذف

single شده است. ضریب متغیرsingle 132.4از

را حذف DCکاهش پیدا کرد. بعد از اینکه 89.4به

کردیم، پروسه ای را که در این قسمت توضیح دادیم

را تکرار خواهیم کرد تا هر مشاهده ای را که دورافتاده و با نفوذ است را پیدا کنیم.

خالصه

در این بخش، روشهایی برای شناسایی داده های دورافتاده و نقاط با نفوذ را مورد بررسی قرار دادیم. در یک

شما احتماال می توانید از بعضی از این روش ها استفاده کنید. به طور کلی، دو روش برای تحلیل معمولی،

leverage، (residuals)ماری ای مانند باقیمانده آدورافتاده وجود دارد: شاخص های تشخیص داده های

که یک دید کلی از یک مشاهده در نتایج رگرسیون را بدست می دهند. و (Cook's D)و شاخص کوک

که یک اثر جزئی از یک مشاهده را بر ضرایب رگرسیونی نشان DFBETAشاخص های آماری ای مانند

نقطه ای ست که باید به شدت مورد توجه قرار گیرد. تحلیل DCدر مثال ما، متوجه شدیم که می دهند.

رگرسیون را با وجود و در صورت عدم وجود این مشاهده انجام دادیم و دیدیم که معادالت رگرسیونی بسیار

جرم در ایالت را اینطور توجیه کرد که هدف از این تحلیل پیش بینی DCمتفاوت بودند. می توان حذف

های آمریکاست نه یک شهر.

compute filtvar = (state NE "dc").

filter by filtvar.

regression

/dependent crime

/method=enter pctmetro poverty

single .

Coefficients(a) - ضرایب

Unstandardized coefficients

ضرایب استاندارد نشده

Standardized Coefficients

شدهضرایب استاندارد t Sig.


4

(Constant)181.487 1197.538- عرض از مبدا

-6.635 .111

PCTMETRO 7.712 1.119 .565 6.953 .111

POVERTY 18.283 6.136 .265 2.981 .115

SINGLE 89.411 17.836 .446 5.112 .111

a Dependent Variable: CRIME متغیر وابسته: جرم-

24

نرمالیته ی باقیمانده هابررسی آزمون هایی برای 0.0

یکی از فرضیات رگرسیون خطی آن است که باقی مانده ها بصورت نرمال پراکنده شده اند. برای اینکه

معتبر باشد بسیار مهم است که فرض گفته شده ثابت شود. tآزمون

.sav2http://statistics.ats.ucla.edu/stat/spss/webbooks/reg/elemapi

لینک باال داده های الزم را برای آنالیز پیش رو در اختیار شما قرار می دهد.

، از (academic performance : api11)ی عملکرد تحصیلی در این آنالیز می خواهیم به پیش بین

، درصد زبان (percent of receiving free meals: meals)درصد دریافت وعده غذایی رایگان

معلمانی با گواهینامه و درصد (percent of English learners : ell)آموزان زبان انگلیسی

. (percent of teachers with emergency credentials: emer)!اضطراری

Model Summary(b) -خالصه ای از مدل

Model R R

Square

Adjusted

R

Square

Std. Error of the

Estimate 4 .914(a) .836 .835 57.821

a Predictors: (Constant), EMER, ELL, MEALS

b Dependent Variable: API11

get file="c:\spssreg\elemapi0.sav".

regression

/dependent api22 /method=enter meals ell emer

/save resid(apires).

Variables Entered/Removed(b)متغیر های وارد شده/حذف شده

Model Variables Entered

متغیر های وارد شده

Variables Removed

متغیر های حذف شدهMethod روش

4 EMER, ELL, MEALS(a) . Enter

ورود

a All requested variables entered.همه متغیر های خواسته شده وارد شده اند

b Dependent Variable: API11 API11 متغیر وابسته:

http://statistics.ats.ucla.edu/stat/spss/webbooks/reg/elemapi2.sav

http://statistics.ats.ucla.edu/stat/spss/webbooks/reg/elemapi2.sav

25

Coefficients(a)

Unstandardized

Coefficients

Standardized

Coefficients t Sig.


4

(Constant) 886.713 6.261

141.651 .111

MEALS -3.159 .151 -.719 -21.198 .111

ELL -.911 .185 -.159 -4.928 .111

EMER -1.573 .293 -.131 -5.368 .111

a Dependent Variable: API11

ANOVA(b)


4

Regression 6749782.747 3 2249927.582 672.995 .111(a)

Residual 1323889.251 396 3343.155

Total 8173671.997 399

a Predictors: (Constant), EMER, ELL, MEALS


Casewise Diagnostics(a)

Case Number Std. Residual API22

39 3.187 614

002 -3.218 386



Minimum Maximum Mean Std. Deviation N

Predicted Value 425.52 884.88 647.62 131.164 411

Residual -185.47 178.48 .11 57.612 411

Std. Predicted Value -1.718 1.824 .111 1.111 411

Std. Residual -3.218 3.187 .111 .996 411


26

می توانیم به میزان نرمالیته این باقیمانده ها نگاهی بیاندازیم. examineحال با استفاده از دستور

تمامی نتایجی که از این دستور حاصل می شوند نشان می دهند که تمام باقیمانده ها پراکنش نرمالی دارند.

چولگی و کشیدگی نزدیک به صفر است، آزمون های نرمالیته معنی دار نیستند، نمودار هیستوگرام نرمال به

نیز نرمال به نظر می رسد. با توجه به این نتایج، باقیمانده های این رگرسیون Q-Qنظر می رسد، و نمودار

به نظر می رسد که با فرض نرمال بودن پراکنش نرمال مطابقت دارند.

examine

variables=apires

/plot boxplot stemleaf histogram npplot.

Case Processing Summary

Cases

Valid Missing Total

N Percent N Percent N Percent

APIRES 411 111.11 1 .11 411 111.11

Descriptives

Statistic Std. Error

APIRES

Mean .1111111 2.88111215

329 Confidence Interval for Mean Lower Bound -5.6621919

Upper Bound 5.6621919

29 Trimmed Mean -.7827765

Median -3.6572916

Variance 3318.118

Std. Deviation 57.61224114

Minimum -185.47331

Maximum 178.48224

Range 363.95555

Interquartile Range 76.5523153

27

Skewness .171 .122

Kurtosis .135 .243

Tests of Normality

Kolmogorov-Smirnov(a) Shapiro-Wilk

Statistic df Sig. Statistic df Sig.

APIRES .133 411 .211(*) .996 411 .511

* This is a lower bound of the true significance.

a Lilliefors Significance Correction

28

29

(Heteroscedasticity) ناهمسانی 0.9

یکی دیگر از فرضیات رگرسیون حداقل مربعات آن است که واریانس باقی مانده ها در سطوح مقادیر

شناخته می شود. اگر مدل Heteroscedasticityپیش بینی شده همگن باشد، که با عنوان ناهمسانی

رابر مقادیر پیش بینی شده رسم می شود، به خوبی ساخته شده باشد، هنگامی که نمودار باقیمانده ها در ب

هیچ الگوی مشخصی نباید وجود داشته باشد. اگر واریانس باقیمانده ها غیر ثابت باشد در این صورت

واریانس باقیمانده ها را ناهمسان می خوانند. در زیر با استفاده از روش های نموداری نشان می دهیم که

کنیم. یک روش نموداری متداول آن است که از باقیمانده در برابر چگونه می توانیم ناهمسانی را پیدا

نمودار پیش بینی شده استفاده کنیم تا باقیمانده ها را در برابر مقادیر پیش بینی شده نشان دهیم. با

بینی شده ترسیم استفاده از دستور زیر می توانیم باقیمانده های استاندارد شده را در برابر مقادیر پیش

. می بینیم که الگوی نقاط داده ها در حال تنگتر شدن به سمت راست می باشد، که این نشانه ای کنیم

برای ناهمسانی خفیف می باشد.

regression

/dependent api22 /method=enter meals ell emer

/scatterplot(*zresid *pred).

31

را به عنوان یک پیش بینی کننده استفاده enrollبیایید مدلی را اجرا کنیم که در آن فقط دستور

می کنیم و باقیمانده را در برابر طرح پیش بینی شده نشان می دهیم. همانطور که می بینید، این طرح

یش بینی شده تقریبا ناهمسانی جدی ای را نشان می دهد. تغییر پذیری باقیمانده ها زمانی که مقدار پ

است. 511یا 611است بسیار بزرگتر از زمانی است که مقدار پیش بینی شده 711

regression

/dependent api22 /method=enter enroll


به طور قابل مالحظه ای به سمت راست چولگی داشت، و enrollهمانطور که در فصل اول دیدیم، متغیر

را تغییر enrollمتوجه شدیم که با گرفتن لگاریتم، متغیر تغییر یافته پراکنش نرمالی پیدا کرد. در زیر

دادیم، رگرسیون را اجرا کردیم، و باقیمانده را در برابر طرح پیش بینی شده نشان دادیم. پراکنش

مطمئنا این یک پراکنش عالی برای باقی مانده ها نمی باشد، اما ت بهبود یافته است. باقیمانده ها به شد

بسیار بهتر از پراکنش متغیر تغییر نیافته می باشد.

compute lenroll = ln(enroll).

regression

/dependent api22 /method=enter lenroll


31

Coefficients(a)

Unstandardized Coefficients Standardized Coefficients

t Sig.


4 (Constant) 1171.429 91.966

12.727 .111

LENROLL -86.111 15.186 -.275 -5.711 .111


Variables Entered/Removed(b)

Model Variables Entered Variables Removed Method

4 LENROLL(a) . Enter

a All requested variables entered.


Model Summary(b)


4 .275(a) .175 .173 136.946

a Predictors: (Constant), LENROLL


ANOVA(b)


4

Regression 619461.418 1 619461.418 32.497 .111(a)

Residual 7464211.589 398 18754.311

Total 8173671.997 399

a Predictors: (Constant), LENROLL




Predicted Value 537.57 751.82 647.62 39.183 411

32

ید ئبیا در انتها،

دوباره به نگاهی

و meals ،ellاز api11ین بخش استفاده کردیم، بیاندازیم، که در آن به پیش بینی مدلی که در ابتدای ا

emer پرداختیم. با استفاده از این مدل، پراکنش باقیمانده ها بسیار خوب به نظر می رسید و حتی از میان

را به این مدل اضافه کنیم؟ آیا این کار enrollمقادیر پیش بینی شده گذر می کرد. چه می شود اگر

نیم و ببینیم چه اتفاقی بصورت خودکار پراکنش باقیمانده ها را خراب خواهد کرد؟ بیایید آن را اضافه ک

خواهد افتاد؟

regression

/dependent api22 /method=enter meals ell emer enroll




4 ENROLL, MEALS, EMER, ELL(a) . Enter



Residual -288.65 295.47 .11 136.775 411


Std. Residual -2.118 2.158 .111 .999 411


Model Summary(b)

33


4 .915(a) .838 .836 57.552

a Predictors: (Constant), ENROLL, MEALS, EMER, ELL


ANOVA(b)


4

Regression 6765344.151 4 1691336.112 511.635 .111(a)

Residual 1318327.948 395 3312.223

Total 8173671.997 399

a Predictors: (Constant), ENROLL, MEALS, EMER, ELL


Coefficients(a)


t Sig.


4

(Constant) 899.147 8.472

116.128 .111

MEALS -3.222 .152 -.723 -21.223 .111

ELL -.768 .195 -.134 -3.934 .111

EMER -1.418 .311 -.117 -4.721 .111

ENROLL -3.126E-12 .114 -.151 -2.168 .131


Casewise Diagnostics(a)

Case Number Std. Residual API22

39 3.114 614

002 -3.311 386


34

مشاهده می همانطور که

را اضافه کردیم. وقتی که enrollکنید،پراکنش باقیمانده ها خوب به نظر می رسد، حتی بعد از اینکه متغیر

بود نیاز به انجام لگاریتم برای تغییر این متغیر و بهبود پراکنش باقیمانده enrollتنها متغیر موجود در مدل

باقیمانده ها خوب به نظر ه دیگر متغیر ها در مدل وجود داشته باشدبه همرا enrollها داشتیم، اما وقتی

این امر روشن می کند که چگونه پراکنش باقیمانده ها، نه به این تغییر نیازی نخواهد بود. می رسند لذا

پیش بینی کننده ها، راهنمایی برای آن است که آیا تغییر در متغیر احتیاج هست یا نیست؟



Predicted Value 431.82 888.18 647.62 131.214 411

Residual -191.56 172.86 .11 57.263 411


Std. Residual -3.311 3.114 .111 .995 411


35

Collinearityهم خطی 0.1

زمانیکه یک رابطه خطی کامل بین پیش بینی کننده ها وجود دارد، تخمین مدل رگرسیونی به تنهایی قابل

متغیر نزدیک به یک ترکیب خطی 2نشان می دهد که (collinearity)محاسبه نیست. کلمه هم خطی

متغیر در مدل وجود دارند این واژه به چندخطی 2کامل از یکدیگر هستند. وقتیکه بیشتر از

(multicollinearity) تغییر پیدا می کند، اگرچه که این دو مفهوم اغلب به جای همدیگر استفاده می

شوند.

یش درجه چندخطی، مدل رگرسیونی ضرایب ناپایدار خواهد شد، و خطای نگرانی اولیه آن است که با افزا

استاندارد برای ضرایب به مقدار بسیار زیادی متورم خواهد شد. در این بخش یک سری از دستور های برنامه

SPSS .را معرفی می کنیم که با استفاده از آنها می توان چندخطی را تشخیص داد

برای هر پیش VIFو toleranceاستفاده کرد تا مقادیر statistics=defaults tol/می توان از دستور

ی از نشانه ای است از درصد Toleranceنشان داده شود. بودن بینی کننده به منظور بررسی چندخطی

واریانس در پیش بینی کننده ها که به پیش بینی کننده های دیگر اختصاص نمیابد، از اینرو، مقادیر بسیار

باید مورد بررسی 1.11کوچک نشان می دهند که یک پیش بینی کننده اضافی است و مقادیری کمتر از

به اندازه ، Variance Inflation Factorمخفف VIFبیشتری قرار گیرند. 1

𝑇𝑜𝑙𝑒𝑟𝑎𝑛𝑐𝑒می باشد، و به

باشند باید مورد بررسی بیشتری قرار گیرد. 11آن باالتر از VIFیک واریانس که مقادیر ،عنوان یک قانون

بیایید ابتدا به رگرسیونی که در بخش قبلی انجام دادیم نگاهی بیاندازیم. مدل رگرسیونی ای که به پیش

می پرداخت و با emerو meals ،ell از api11بینی

در نرم statistics=defaults tol/استفاده از دستور

افزار انجام می شد. همانطور که می بینید مقادیر

Tolerance وVIF .تقریبا قابل قبول می باشند

regression

/statistics=defaults tol

/dependent api22

/method=enter meals ell emer .

Coefficients(a)

Unstandardized

Coefficients

Standardized

Coefficients t Sig.

Collinearity

Statistics

Model B Std. Error Beta Tolerance VIF

4

(Constant) 886.713 6.261

141.651 .111

MEALS -3.159 .151 -.719 -21.198 .111 .367 2.725

ELL -.911 .185 -.159 -4.928 .111 .398 2.511

EMER -1.573 .293 -.131 -5.368 .111 .717 1.415


36

در نگران کننده تر می باشد. VIFو Toleranveید مثال دیگری را در نظر بگیریم که در آن مقادیر حال بیائ

به عنوان پیش بینی کننده some_colو acs_k3 ،avg_ed ،grad_sch ، col_grad رگرسیون زیر، از

و avg_ed ، grad_schبرای toleranceاستفاده کردیم. همانطور که می بینید، مقادیر api11های

col_grad می باشد و 1.11کمتر ازavg_ed از 21ان می دهد که تقریبا فقط شمی باشد و ن 1.12تقریبا

این با توجه به پیش بینی کننده های دیگر در مدل قابل پیش بینی نیست. تمامی avg_edواریانس در

بسیار پایین نشان می دهد که toleranceرا اندازه گیری می کنند و « میزان تحصیالت والدین»متغیر ها

را col_gradو grad_sch می باشند. برای مثال بعد از اینکه شما ، اضافیاین متغیر ها حاوی اطالعات

این مثال، چندخطی به وجود رد. را نیز به خوبی پیش بینی کنید avg_edشناختید احتماال می توانید

چیز را اندازه گیری می کنند)تحصیالت والدین( وارد مدل کرده می آید زیرا متغیر های زیادی را که همه یک

ایم.

خروجی مربوط به هم خطی بدست می آید. مقادیر بسیار پایین از معیار پنجم Collinsتفاده از دستور اسبا

پیش بینی کننده داریم( نشانه ای دیگر از وجود مشکالت مربوط به چند خطی می باشد. 5)از آنجائیکه

برای معیار پنجم به طور مشابه (Condition Index) !همچنین، مقادیر بسیار باال از شاخص موقعیتی

ت چند خطی را برای این پیش بینی کننده ها نشان می دهد.مشکال

regression

/statistics=defaults tol collin

/dependent api22

/method=enter acs_k9 avg_ed grad_sch col_grad some_col.

Coefficients(a)

Unstandardized

Coefficients

Standardized

Coefficients t Sig. Collinearity Statistics

Model B Std.

Error Beta Tolerance VIF

4

(Constant) -82.619 81.846

-1.119 .313

ACS_K9 11.457 3.275 .117 3.498 .111 .972 1.129

AVG_ED 227.264 37.221 1.221 6.116 .111 .123 43.571

GRAD_SCH -2.191 1.352 -.181 -1.546 .123 .167 14.865

COL_GRAD -2.968 1.118 -.339 -2.916 .114 .168 14.779

SOME_COL -.761 .811 -.157 -.938 .349 .246 4.165


37

حذف کنیم. توجه داشته باشید که (avg-ed)حاال بیائید یکی از متغیر های میزان تحصیالت والدین را

ر تحلیل زیر بسیار بهتر شده اند. همچنین توجه داشته باشید که چگونه خطاهای د VIFمقادیر

کاهش یافته اند. این به آن علت (grad-sch , col-grad)استانداردبرای متغیر های تحصیالت والدین

ت که مقادیر باالی همخطی باعث متورم شدن خطاهای استاندارد شده بود. با رفع مشکل چندخطی سا

که قبال مهم نبود حال قابل توجه می باشد. grad-schتغیر ضریب م

regression

/statistics=defaults tol collin

/dependent api22

/method=enter acs_k9 grad_sch col_grad some_col.

Coefficients(a)

Unstandardized

Coefficients

Standardized

Coefficients t Sig.

Collinearity

Statistics

Model B Std. Error Beta Tolerance VIF

4 (Constant) 283.745 71.325

4.135 .111

ACS_K9 11.713 3.665 .113 3.196 .112 .977 1.124

Collinearity Diagnostics(a)

Eigen

value

Condition

Index

Variance Proportions

Mode

l Dimension

(Consta

nt)

ACS_

K9 AVG_E

D

GRAD_S

CH

COL_GR

AD

SOME_

COL

4

4 5.113 1.111 .11 .11 .11 .11 .11 .11

0 .589 2.918 .11 .11 .11 .15 .11 .11

9 .253 4.455 .11 .11 .11 .13 .17 .12

1 .142 5.941 .11 .11 .11 .11 .11 .23

2 .1128 42.136 .22 .86 .14 .11 .15 .19

2 .1115 65.887 .77 .13 .86 .81 .77 .66


38

GRAD_SCH 5.635 .458 .482 12.298 .111 .792 1.262

COL_GRAD 2.481 .341 .288 7.313 .111 .783 1.278

SOME_COL 2.158 .444 .173 4.862 .111 .967 1.134


Collinearity Diagnostics(a)

Eigen

value

Condition

Index

Variance Proportions

Model Dimension (Constant) ACS_K9 GRAD_SCH COL_GRAD SOME_COL

4

4 3.971 1.111 .11 .11 .12 .12 .11

0 .599 2.575 .11 .11 .61 .13 .14

9 .255 3.945 .11 .11 .37 .94 .13

1 .174 4.778 .11 .11 .11 .11 .92

2 .1249 39.925 .99 .99 .11 .11 .11


39

آزمون های غیرخطی 0.2وقتی که رگرسیون خطی انجام می دهیم، اینطور فرض می کنیم که رابطه بین متغیر واکنش و پیش بینی کننده ها

خطی است. اگر این فرض نقض شود، رگرسیون خطی سعی میکند که بر روی خطی مسقیم از داده هایی منطبق

نیستند. بررسی فرض خطی بودن در رگرسیون ساده آسان است زیرا یک پیش بینی کننده داریم. شود که خطی

همه آنچه باید انجام دهیم آن است که نمودار پراکنش بین متغیر واکنش و پیش بینی کننده را رسم کنیم تا ببینیم

موجی شکل بزرگ. برای مثال، از ه غیرخطی بودن وجود دارد یا خیر، مانند یک نوار منحنی شکل یا یک منحنی ک

فایل داده ای که در مورد تعدادی از کشورهای سرتاسر دنیا است استفاده می کنیم. نگاهی می اندازیم به رابطه بین

GNP وcapita(gnpcap) و نرخ تولدbirth در زیر اگر نگاهی بیاندازیم به نمودار پراکنش بین .gnpcap و

birth ابطخ بیم این دو متغیر تقریبا غیر خطی است. با دوبار کلیک کردن بر روی این نمودار می توانیم ببینیم که ر

و می توانید ببینید (double click-chart-option-Fit Line Total)یک خط رگرسیونی به آن اضافه کردیم

چقدر ضعیف با داده ها هماهنگ شده این خط که

است. همچنین، اگر به نمودار باقیمانده های

پیش بینی شده نگاه کنیم می بینیم که باقیمانده

و gnpcapها با توجه به رابطه غیر همخط بین

birth.همسان نیستند ،

regression

/dependent birth

/method=enter gnpcap

/scatterplot(*zresid *pred)

/scat(birth gnpcap) .



4 GNPCAP(a) . Enter


b Dependent Variable: BIRTH

Model Summary(b)


4 .626(a) .392 .387 11.679

a Predictors: (Constant), GNPCAP


ANOVA(b)


4

Regression 7873.995 1 7873.995 69.147 .111(a)

Residual 12212.152 117 114.139

Total 21176.147 118

a Predictors: (Constant), GNPCAP


41

بگذارید( default)پارامتر ها را بر روی طریق زیر اصالح نمودیم:ما این نمودار را از

𝒄𝒉𝒂𝒓𝒕 → 𝒐𝒑𝒕𝒊𝒐𝒏𝒔 → 𝑭𝒊𝒕 𝒐𝒑𝒕𝒊𝒐𝒏𝒔 → 𝑳𝒐𝒘𝒆𝒔𝒔

ایجاد می شود که به طور چشمگیری بهتر از رگرسیون خطی ای همانطور که می بینید از این طریق منحنی

خطی نیست. birthو gnpcapداده ها را در بر می گیرد و در ادامه بیان می کند که رابطه بین

Coefficients(a)


t Sig.


4 (Constant) 38.924 1.261

31.856 .111

GNPCAP -1.921E-13 .111 -.626 -8.319 .111

a Dependent Variable: BIRTH



Predicted Value 1.91 38.71 32.79 8.539 119

Residual -23.18 28.11 .11 11.629 119

Std. Predicted Value -3.618 .694 .111 1.111 119

Std. Residual -2.171 2.632 .111 .995 119


41

آن نزدیک به صفر، و مقادیر و بیشتر مقادیرتقریبا چولگی پیدا کرده اند، capgnpمی بینیم که مقادیر

به باال هستند. این امر این را نشان می دهد که برخی تغییرات بر روی متغیر 11.111انگشت شماری از

از تغییرات متداولی که مورد استفاده قرار می گیرد لگاریتم می باشد. پس بیایید آن ضروری می باشد. یکی

بسیار بهتر به نظر می رسد birthو capgnpرا امتحان کنیم. همانطور که می بینید، نمودار پراکنش بین

و خط رگرسیونی از وسط داده ها

می کند. همچنین نمودار عبور

های پیش بینی شده باقیمانده

بسیار منطقی تر به نظر می رسد.

compute lgnpcap = ln(gnpcap).

regression

/dependent birth

/method=enter lgnpcap

/scatterplot(*zresid *pred) /scat(birth lgnpcap)

/save resid(bres0).



4 LGNPCAP(a) . Enter



Model Summary(b)


4 .756(a) .571 .567 8.969

a Predictors: (Constant), LGNPCAP


42

ANOVA(b)


4

Regression 11469.248 1 11469.248 142.584 .111(a)

Residual 8616.899 117 81.438

Total 21176.147 118

a Predictors: (Constant), LGNPCAP


Coefficients(a)


t Sig.


4 (Constant) 84.277 4.397

19.168 .111

LGNPCAP -7.238 .616 -.756 -11.941 .111




Predicted Value 12.86 51.25 32.79 11.315 119

Residual -24.75 24.98 .11 8.927 119


Std. Residual -2.761 2.786 .111 .995 119


43

این بخش به شما نشان داد که چگونه می توانید از نمودار های پراکنش برای تشخیص مشکالت غیر هم

خطی استفاده کنید. هم با استفاده از نمودار پراکنش پیش بینی کننده ها و متغیر نتیجه، و هم با بررسی

باقیمانده های پیش بینی شده می توان به این بررسی پرداخت. تمرکز این مثالها بر روی رگرسیون ساده

ن استفاده نمود. بود، اگرچه که در مورد رگرسیون چندگانه نیز از تکنیک های مشابه می توا

به جای نمودارهای پراکنش ساده بین پیش به هر حال در رگرسیون چندگانه بسیار مفید خواهد بود که

بپردازید. نمودارهای رگرسیونی بخشی)جزئی( بینی کننده و متغیر به بررسی

44

خصوصیات مدل 0.2

ند وابسته از مدل حذف شده باشخطای خصوصیات مدل زمانی بروز می کند که یک یا بیشتر از یک متغیر

غیر غیروابسته در مدل وارد شده باشند. اگر متغیر های وابسته از مدل حذف تیا اینکه یک یا بیشتر از یک م

شده باشند، واریانس متداولی که با متغیر های موجود در مدل به اشتراک می گذارند ممکن است به استباه

ی مربوط به آن بیشتر نمایان شود. از طرف دیگر، اگر متغیر های به این متغیرها نسبت داده شود، و خطا

اشتراک گذاشته می شود ممکن هاریانس متداولی که بین متغیرها بغیروابسته در مدل وارد شده باشند، و

است به طور نادرستی به این متغیر ها نسبت داده شود. خطای مربوط به خصوصیات مدل ممکن است به

را تحت تاثیر قرار دهد. بابی رگرسیون ضرایور چشمگیری ارزیط

عملکرد تحصیلی نیز مدل زیر را در نظر بگیرید. این رگرسیون پیشنهاد می دهد که با افزایش اندازه کالس

. قبل از آنکه بگوییم (p=1.153)افزایش می یابد،

بزرگی اندازه کالس با باالرفتن عملکرد تحصیلی در

ارتباط است بیائید به بررسی خصوصیات این مدل

بپردازیم.

Coefficients(a)


t Sig.


4

(Constant) 32.213 84.175

.383 .712

ACS_K9 8.356 4.313 .181 1.942 .153

FULL 5.391 .396 .564 13.598 .111


Spss به خصوصیات مدل را نشان دهد، ندارد. اگرچه می توانید خطاهای مربوطابزاری که به طور مستقیم

با استفاده از روش زیر به بررسی متغیرهای حذف شده بپردازید. همانطور که در باال دیدید، وقتی که

اگر از مقدار پیش بینی ذخیره کردیم. apipredرگرسیون را انجام دادیم مقدار پیش بینی شده را با عنوان

باید Apipred رسید!!!! 2یم و این مقدار مانند پیش بینی کننده های متغیرمان به توان شده استفاده کرد

نباید یک پیش بینی کننده 2به توان apipredباشد زیرا یک مقدار پیش بینی شده است، ولی معنی دار

2به توان باشد، چون، اگر مدلمان را به درستی تعریف کرده باشیم، پیش بینی کننده هایی که معنی دار

رسیده اند نباید قدرت توضیحی زیادی، باال و ورای مقدار پیش بینی داشته باشند. به همین دلیل اگر

یک پیش بینی کننده 2به توان apipredمدلمان را به درستی تعریف کرده باشیم، انتظار نداریم که

ر نظر می گیریم و سپس هر دوی آنها د apipredرا به عنوان توان دوی apipred2معنی دار باشد. در زیر

/dependent api22

/method=enter acs_k9 full

/save pred(apipred).

45

معنی دار apipred2را به عنوان پیش بینی کننده در مدل رگرسیونی وارد می کنیم به این امید که

نمی باشد.

compute apipred0 = apipred**0.

regression

/dependent api22

/method=enter apipred apipred0.

معنی دار می باشد، و اشاره می کند که ممکن است متغیر های apipred2نتیجه باال نشان می دهند که

مهمی را از مدل حذف کرده باشیم. به همین دلیل باید این را نیز در نظر بگیریم که آیا متغیر دیگری را به

مدل وارد کنیم بیا خیر؟ بایید این امر را با اضافه کردن

ه به مدل باال امتحان کنیم. می بینیم ک mealsمتغیر

meals یک پیش بینی کننده معنی دار می باشد، و

ذخیره predaمقدار پیش بینی شده را با عنوان

می کنیم تا در تحلیل بعدی از آن استفاده کرده و

ببینیم که آیا متغیر مهم دیگری را حذف کرده ایم یا

خیر؟

Coefficients(a)


t Sig.


4

(Constant) 858.873 283.461

3.131 .113

APIPRED -1.869 .937 -1.188 -1.994 .147

APIPRED0 2.344E-13 .111 1.674 3.171 .112


regression

/dependent api22

/method=enter acs_k9 full

meals

/save pred(preda).

Coefficients(a)

Unstandardized Coefficients Standardized Coefficients t Sig.


4

(Constant) 771.658 48.861

15.793 .111

ACS_K9 -.717 2.239 -.117 -.321 .749

FULL 1.327 .239 .139 5.556 .111

46

و هر دوی آنها را در مدلمان به عنوان پیش بینی می باشد را می سازیم predaکه توان دوی preda2حاال

کننده وارد می کنیم.

compute preda0 = preda**0.

regression

/dependent api22

/method=enter preda preda0.

معنی دار نیست. بنابراین این آزمون نشان نمی دهد که متغیر مهم دیگری که preda2حاال می بینیم که

، ضریب متغیر اندازه کالسfullو mealsحذف شده باشد وجود دارد. توجه کنید که بعد از وارد کردن

رابطه مثبتی با scs-k3در مدل وارد شده است، fullدیگر معنی دار نیست. درحالیکه وقتی فقط متغیر

api11 دارد، ولی زمانیکهmeals ،را وارد مدل می کنیمacs-k3 ه ای با طبه طور معنی داری رابapi11

دیگر مثبت نیست. api11ندارد و رابطه اش با

MEALS -3.686 .112 -.828 -32.978 .111


Coefficients(a)


t Sig.


4

(Constant) -136.511 95.159

-1.436 .152

PREDA 1.424 .293 1.293 4.869 .111

PREDA0 -3.172E-14 .111 -.386 -1.455 .146


47

مسائل مربوط به همبستگی 0.2

این فرض این مسئله را بیان می کند که خطاهای مربوط به یک مشاهده با خطاهای هیچکدام از مشاهدات

ات عآوری اطالر در ارتباط نیست. نقض این فرض در موقعیت های متفاوتی می تواند پدیدار شود. جمع دیگ

مدرسه مختلف را در نظر بگیرید. این احتمال وجود دارد که دانش آموزان یک 8از دانش آموزان ابتدایی

به آنها ط اهای مربون دلیل خطمدرسه بیشتر به هم شبیه باشند تا دانش آموزان مدارس مختلف. به همی

مستقل نیست. راه دیگری که فرض استقالل می تواند نقض شود، آن است که داده ها با متغیر های همسان

12مدرسه را در یک سال تحصیلی در مدت ز اطالعات مربوط به گریز ادر طول زمان جمع آوری شوند. مثال

دارد که خطاهای هر مشاهده بین ترم های سال جمع آوری کرده باشیم. در این حالت این احتمال وجود

با عنوان این امر نزدیک به هم، بیشتر با هم ارتباط دارند تا مشاهداتی که از نظر زمانی از هم دورترند.) که

خودهمبستگی شناخته می شود(. وقتی که داده هایی داریم که بصورت سری زمانی هستند می توانیم از

همبسته استفاده کنیم.زیابی باقیمانده های آماره دوربین واتسون برای ار

استفاده می کنیم و فرض می کنیم elempi2در اینجا ما اطالعات سری زمانی نداریم پس از مجموعه داده

که snumنشان دهنده زمانی است که داده ها جمع آوری شده اند. داده های خود را بر اساس snumکه

متغیر زمانی فرضی ما می باشد دسته بندی می کنیم و سپس تحلیل رگرسیونی خود را با استفاده از گزینه

durbin برای انجام آزمونDurbin-watson انجام

4تا 1اتسون بین می دهیم. بازه مقداری آماره دوربین و

می باشد. مقدار مشاهده شده 2است، که نقطه میانی آن

می باشد، که چون داده های ما 2در مثال ما کمتر از

واقعا سری زمانی نیستند زیاد تعجب برانگیز نیست.Model Summary

Model R R Square Adjusted R Square Std. Error of the Estimate Durbin-Watson

4 .942 .424 .233 492.202 4.924

a Predictors: (Constant), ENROLL


sort cases by snum .

regression

/dependent api22 /method=enter enroll

/residuals = durbin .

48

خالصه 0.2

این فصل موضوعات مختلفی را در ارزیابی فرضیات رگرسیون و همچنین نتایج نقض این فرضیات با استفاده

پوشش داده است. همانطور که دیدیم، اجرای یک مدل رگرسیونی به صورت ساده کافی نیست، ولی spssاز

بسیار مهم است که فرضیات رگرسیون به خوبی اجرا شده باشند. اگر ارزیابی فروض رگرسیون را انجام

مکن است و داده های شما با فروض مربوط به رگرسیون خطی مطابقت نداشته باشند، نتایج شما م ندهید

گمراه کننده شوند و تحلیل نتایجتان با حدس و گمان همراه خواهد بود. بدون اینکه داده های خود را به

طور کامل از لحاظ مشکالت گفته شده ارزیابی کنید، ممکن است محقق دیگری داده های شما را ارزیابی

. که این زیر سوال ببرد ک آنالیز پیشرفته تربا استفاده از ی را کرده و این مشکالت را آشکار سازد و نتایج شما

امر ممکن است نتایج شما را تکذیب کرده و تحلیل شما را تضعیف نماید.

Documents

SPSS ا هافتسا اب نویسگ - Guilanstaff.guilan.ac.ir/staff/users/rzarei/fckeditor_repo/file...1 نویسگ یاه هویش – مو ل ف – SPSS ا هافتسا اب نویسگ: