36
Phần 4_13 Phân tích mối quan hệ giữa các biến Phân tích tương quan hồi quy Th.S Hoàng Sĩ Thính Chuyên gia tư vấn sử dụng SPSS phân tích số liệu kinh tế xã hội, quản trị kinh doanh Địa chỉ: Học viện Nông nghiệp Việt Nam Email: [email protected] ; [email protected] Facebook: [email protected]

Phân tích tương quan hồi quy

Embed Size (px)

Citation preview

Page 1: Phân tích tương quan hồi quy

Phần 4_13Phân tích mối quan hệ giữa các biến

Phân tích tương quan hồi quy

Th.S Hoàng Sĩ ThínhChuyên gia tư vấn sử dụng SPSS phân tích số liệu kinh tế xã hội, quản trị kinh doanhĐịa chỉ: Học viện Nông nghiệp Việt NamEmail: [email protected]; [email protected]: [email protected]Điện thoại: 0942293689

Page 2: Phân tích tương quan hồi quy

1. Khái quát• Phần này sẽ mô tả việc sử dụng SPSS để chạy hồi quy bội (multiple

regression) trên nền window hoặc Mac• Tuy nhiên, hãy đọc thêm về multiple regression trước khi sử dụng bất kỳ

phần mềm nào (SPSS cũng vậy). Hãy tham khảo Tabachnick and Fidell (2007) để có thêm hiểu biết về multiple regression

• Multiple regression thực ra là một tập hợp các kỹ thuật giúp bạn khám phá mối quan hệ giữa một biến phụ thuộc (dạng liên tục) với một nhóm các biến độc lập (hoặc biến giải thích – thường là dạng liên tục)

• Multiple regression dựa trên nền tảng phân tích tương quan, tuy nhiên nó giúp khám phá các mối quan hệ phức tạp trong một tập hợp các biến.

• Chú ý: bạn không thể cứ đẩy một số biến bất kỳ vào mô hình hồi quy rồi chạy ra kết quả một cách vô thức. Hãy cố gắng dựa trên một nền tảng lý luận vững vàng, hoặc bảo vệ chắc chắn cho cách làm của mình, đặc biệt là thứ tự đưa các biến vào trong mô hình.

2

Page 3: Phân tích tương quan hồi quy

1. Khái quát (tiếp)

Multiple regression có thể giúp bạn trả lời nhiều câu hỏi nghiên cứu khác nhau, như là:

•Khả năng giải thích kết quả (biến phụ thuộc) của tập hợp các biến độc lập như thế nào? Vd: các thành phần của biến intelligent có thể giải thích như thế nào về kết quả thực hiện một công việc cụ thể?

•Khi đó, multiple regression sẽ cung cấp cho bạn thông tin về tổng thể cả mô hình và cả thông tin về sự đóng góp của từng thành phần độc lập riêng biệt đến mô hình

•Multiple regression còn có khả năng giúp bạn kiểm chứng xem việc đưa thêm một biến vào mô hình có làm cho mô hình ấy tốt hơn hay không.

•Thêm vào đó, multiple regression còn có khả năng loại trừ ảnh hưởng của một (hoặc nhiều) biến đến độ chính xác (hoặc khả năng) của mô hình.

3

Page 4: Phân tích tương quan hồi quy

Ví dụ về các dạng câu hỏi nghiên cứu được trả lời bởi việc sử dụng multiple regression:•Khả năng giải thích kết quả nào đó (biến phụ thuộc) của một tập biến như thế nào?•Biến nào trong tập biến độc lập giải thích tốt nhất kết quả của biến phụ thuộc?•Liệu một biến giải thích còn có tác dụng không nếu ảnh hưởng của một biến khác bị loại trừ (hoặc được kiểm soát)

1. Khái quát (tiếp)

4

Page 5: Phân tích tương quan hồi quy

2. Các dạng hồi quy Multiple Regression

Có 3 dạng tương quan hồi quy bội:

•Hồi quy bội đồng thời hoặc hồi quy chuẩn

(standard or simultaneous multiple regression)

•Hồi quy bội từng phần (hoặc thứ tự - hierarchical

or sequential)

•Và, hồi quy theo bước (stepwise)

5

Page 6: Phân tích tương quan hồi quy

• Đố bạn biết, tại sao lại gọi là hồi quy đồng thời???

• Đây là dạng thông dụng nhất của hồi quy bội

• Mỗi biến độc lập được đánh giá dựa trên khả năng dự báo của nó

tới kết quả của biến phụ thuộc (trong bối cảnh các biến khác cũng

đang có khả năng dự báo riêng của mình tới kết quả của biến phụ

thuộc).

• Kỹ thuật này cho phép bạn khám phá khả năng giải thích của một

tập hợp các biến độc lập đến biến động của một biến phụ thuộc.

• Thêm vào đó, nó cũng cho phép khám phá khả năng giải thích của

mỗi biến độc lập đến mức biến động cá biệt của một biến phụ

thuộc.

2. Các dạng hồi quy Multiple RegressionHồi quy đồng thời (chuẩn)

6

Page 7: Phân tích tương quan hồi quy

• Trong hồi quy thứ bậc, các biến độc lập được đưa vào mô hình hồi quy theo một thứ tự nào đó.

• Làm sao để xác định được thứ tự này???• Các biến hoặc tập hợp các biến được lần lượt đưa vào mô hình

nhằm mục đích đánh giá khả năng dự báo (hoặc giải thích) của từng biến độc lập lên biến phụ thuộc sau khi các biến độc lập trước đó (được đưa vào mô hình trước) đã được kiểm soát.

• Ví dụ: Bạn muốn xem xét ảnh hưởng của mức độ lạc quan (optimism) đến mức độ hài lòng về cuộc sống (life satisfaction) sau khi ảnh hưởng của biến tuổi (age) đã được kiểm soát. Khi đó bạn sẽ đưa biến age vào Block1 và biến optimism vào Block2. Khi tất cả các biến đã được đưa vào, mô hình sẽ được đánh giá dựa trên khả năng dự đoán (của mô hình) đối với giá trị biến phụ thuộc. Ảnh hưởng của các từng biến cũng sẽ được xem xét dựa vào kết quả chạy mô hình này.

2. Các dạng hồi quy Multiple RegressionHồi quy thứ bậc (hierarchical or sequential regression)

7

Page 8: Phân tích tương quan hồi quy

• Trong hồi quy bước, người nghiên cứu có một list các biến độc lập. Việc đưa các biến độc lập này vào mô hình hồi quy sẽ được SPSS lựa chọn dựa trên các đặc điểm thống kê (statistical criteria).

• Có ba tiếp cận về step wise regression, bao gồm forwards selection, backward deletion, và stepwise regression. Những tiếp cận này cần được làm rõ hơn (trong tiếng việt)

2. Các dạng hồi quy Multiple RegressionHồi quy theo bước (Step wise regression)

8

Page 9: Phân tích tương quan hồi quy

3. Các giả định (điều kiện) của hồi quy tương quan bội

• Dung lượng mẫu (sample size): có nhiều tiếp cận khác nhau, nhưng phổ biến là đề xuất của Tabachnick and Fidell (2007, p 123) về dung lượng mẫu cần thiết như sau:

N > 50 + 8m

Trong đó, m là số lượng biến độc lập trong mô hình hồi quy.Nếu phân phối của biến phụ thuộc càng bị Skewed, ta sẽ cần càng nhiều cases (mẫu) hơn

9

Page 10: Phân tích tương quan hồi quy

• Đa cộng tuyến (Multicollinearity and singularity): không được có đa cộng tuyến– Multicollinearity: hiện tượng các biến độc lập có tương quan mạnh

với nhau (r>=0.9)– Sigularity: Một biến là tổng hợp của một số biến khác. Ví dụ: trong mô

hình đưa cả thành phần biến (items) và cả biến vào

• Outliers: cần được check cho tất cả các biến đưa vào mô hình, cả độc lập và phụ thuộc. Outliers có thể được xác định qua việc sử dụng kỹ thuật standardized residual plot.– Tabachnick and Fidell (2007, p. 128) đề xuất rằng outliers sẽ xuất hiện

nếu giá trị standardised residual lớn hơn 3.3 hoặc nhỏ hơn -3.3

3. Các giả định (điều kiện) của hồi quy tương quan bội

10

Page 11: Phân tích tương quan hồi quy

• Các điều kiện này cần được đảm bảo, và có thể được kiểm tra dựa trên biểu đồ residual scatterplot trong khi chạy multiple regression. Chú ý: Residuals (phần dư hoặc sai số) là sự khác biệt giữa giá trị thực của mẫu (obtained independent variable) và giá trị trung bình dự đoán bởi mô hình (predicted dependent variable – DV).

• Residual Scatterplot cho phép kiểm tra các nội dung sau:– Normality: residuals should be normally distributed– Linearity: các giá trị residuals nên có quan hệ tuyến tính (linear) với

các giá trị predicted DV– Homoscedasticity: variance of residuals so với giá trị predicted DV nên

bằng nhau cho tất cả các predicted DV

3. Các giả định (điều kiện) của hồi quy tương quan bộiCác điều kiện về normality, linearity, homoscedasticity,

và independence of residual

11

Page 12: Phân tích tương quan hồi quy

4. Ví dụ cụ thểHãy mở file survey3ED.save ra

• Mục tiêu của việc thu thập các thông tin tạo nên file survey3ED là xác định các yếu tố ảnh hưởng đến sự thỏa mãn (wellbeing) và khả năng tự điều chỉnh về mặt tâm lý (psychological adjustment) của người trả lời

• Chúng ta sử dụng Multiple Regression để khám phá ảnh hưởng của nhận thức về kiểm soát ở mỗi cá nhân (respondent’s perceptions of control) đến cảm nhận về mức độ căng thẳng của họ (level of perceived stress).

• Chú ý: Lý thuyết cho rằng nếu con người cảm thấy họ có thể tự kiểm soát được cuộc sống của mình, thì họ sẽ ít bị căng thẳng hơn. Do đó, mục tiêu của ví dụ (nghiên cứu) này là nhằm kiểm chứng nguyên lý và chỉ ra mức độ thể hiện của nguyên lý trong trường hợp cụ thể.

12

Page 13: Phân tích tương quan hồi quy

4. Ví dụ cụ thểHãy mở file survey3ED.save ra

Các biến (chỉ tiêu) trong file Survey3ED.sav•Tổng mức độ nhận thức về áp lực cuộc sống (tptress): tổng điểm nhận thức về áp lực cuộc sống. Điểm càng cao tương ứng với nhận thức rằng áp lực cuộc sống cao hơn.•Tổng mức độ về khả năng tự kiểm soát bản thân (tpcoiss). Mức độ càng cao tương ứng với khả năng tự kiểm soát bản thân càng tốt•Tổng mức kiểm soát sự kiện (tmast). Mức độ càng cao tương ứng với nhận định rằng khả năng tự kiểm soát các sự kiện và tình huống tốt hơn.•Tổng mức độ về thiên hướng muốn trả lời điều tốt đẹp (total social desirability – tmarlow). Là điểm số dựa trên thang đo Marlow-Crowne Social Desirability . Điểm số càng cao tương ứng với việc người trả lời càng có xu hướng nói tốt hơn về mình.•Tuổi (age): số năm tuổi.

13

Page 14: Phân tích tương quan hồi quy

Câu hỏi nghiên cứu:1.Hai chỉ tiêu (biến) khả năng kiểm soát (mastery, PCOISS) dự báo như thế nào sự biến động của nhận thức về áp lực cuộc sống? Bao nhiêu phần trăm biến động của nhận thức áp lực cuộc sống có thể được giải thích bởi mức độ của hai biến về khả năng kiểm soát?2.Biến nào dự báo tốt nhất nhận thức về áp lực cuộc sống: khả năng kiểm soát các sự kiện (tmast), hay khả năng tự kiểm soát bên trong (pcoiss)?3.Nếu chúng ta kiểm soát ảnh hưởng của biến age và biến tmarlow, thì liệu các biến tmast và pcoiss còn có khả năng dự báo một cách có ý nghĩa sự biến động của biến nhận thức về áp lực cuộc sống (tpstress) không?

14

Page 15: Phân tích tương quan hồi quy

Bạn cần gì để trả lời các câu hỏi nghiên cứu trên?•Một biến phụ thuộc dạng liên tục (trong trường hợp này là biến tpstress)•Hai hoặc nhiều hơn 2 biến độc lập dạng liên tục (biến tmast, pcoiss, age, và tmarlow). Chú ý, bạn cũng có thể đưa thêm một số biến độc lập dạng nominal (phân nhóm), ví dụ: males =1, female = 2.

Hồi quy tuyến tính đa biến giúp gì?•Giúp bạn trả lời câu hỏi rằng “bao nhiêu phần trăm sự biến động của biến phụ thuộc được giải thích bởi các biến độc lập?” Nó còn cho bạn thấy sự đóng góp của từng biến độc lập vào khả năng giải thích của cả mô mình.•Các kiểm định cho bạn biết về ý nghĩa thống kê (có hay không, mức độ nào) của các kết quả liên quan đến tổng thể cả mô hình, và các biến độc lập.

Tóm tắt về hồi quy tuyến tính đa biến với file survey3ED.sav

15

Page 16: Phân tích tương quan hồi quy

Hồi quy tuyến tính đồng thời với file survey3ED.sav

Câu hỏi nghiên cứu:

Hồi quy tuyến tính đồng thời chỉ giúp trả lời được câu hỏi 1 và 2:

1. Hai chỉ tiêu (biến) khả năng kiểm soát (mastery, PCOISS) dự báo như thế nào sự biến động của nhận thức về áp lực cuộc sống? Bao nhiêu phần trăm biến động của nhận thức áp lực cuộc sống có thể được giải thích bởi mức độ của hai biến về khả năng kiểm soát?

2.Biến nào dự báo tốt nhất nhận thức về áp lực cuộc sống: khả năng kiểm soát các sự kiện (tmast), hay khả năng tự kiểm soát bên trong (pcoiss)?

Các bước thực hiện hồi quy tuyến tính đồng thời được mô tả ở slide tiếp theo:

16

Page 17: Phân tích tương quan hồi quy

Các bước chạy hồi quy tuyến tính đồng thời

1. Trong cửa sổ file số liệu được mở ra, chọn Analyse/Regression/Linear2. Chọn biến phụ thuộc (tpstress) đưa vào hộp Dependence.3. Chọn các biến độc lập (tmast, tpcoiss) đưa vào hộp Independence.4. Trong hộp Method, hãy chọn Enter5. Chọn Statistics:

1. chọn Estimates, Confidence, Intevals, Model fit, Descriptives, Part and Partial Correalation, và Collinearity diagnostics.

2. Chọn Residual/Casewise diagnostics và Outliers outside 3 standard deviations. Chọn continue.

6. Chọn Options. Trong mục Missing Values, chọn Exclude case pairwise. Chọn continue

7. Chọn Plots1. Chọn ZRESID cho hộp Y2. Chọn ZPRED cho hộp X3. Chọn Standardized, Residual Plots/Normal Probability plot. Continue

8. Chọn Save1. Chọn Distance/ Mahalanobis và Cook’s2. Chọn Continue và Ok (hoặc họn Paste để ghi lại Syntax)

17

Page 18: Phân tích tương quan hồi quy

Kết quả chạy mô hình

Correlations

Total perceived stress

Total Mastery Total PCOISS

Pearson Correlation

Total perceived stress 1 -0.612 -0.581Total Mastery -0.612 1 0.521

Total PCOISS -0.581 0.521 1

Sig. (1-tailed)Total perceived stress . 0.000 0.000Total Mastery 0.000 . 0.000Total PCOISS 0.000 0.000 .

NTotal perceived stress 433 433 426Total Mastery 433 436 429

Total PCOISS 426 429 43018

Page 19: Phân tích tương quan hồi quy

Model Summaryb

Model R R Square Adjusted R Square

Std. Error of the Estimate

1 .684a 0.468 0.466 4.274

a Predictors: (Constant), Total PCOISS, Total Mastery

b Dependent Variable: Total perceived stress

Kết quả chạy mô hình (tiếp)

19

Page 20: Phân tích tương quan hồi quy

Kết quả chạy mô hình (tiếp)

Coefficientsa

Model

Unstandardized Coefficients

Standardized Coefficients

t Sig.

95.0% Confidence Interval for B Correlations Collinearity

Statistics

B Std. Error Beta Lower Bound

Upper Bound

Zero-order Partial Part Tolera

nce VIF

1

(Constant) 50.971 1.273 40.035 0.000 48.469 53.474

Total Mastery -0.625 0.061 -0.424 -10.222 0.000 -0.745 -0.505 -0.612 -0.445 -0.362 0.729 1.372

Total PCOISS -0.175 0.02 -0.36 -8.66 0.000 -0.215 -0.136 -0.581 -0.388 -0.307 0.729 1.372

a Dependent Variable: Total perceived stress

20

Page 21: Phân tích tương quan hồi quy

Kết quả chạy mô hình (tiếp)

Residuals Statisticsa

Minimum Maximum MeanStd.

Deviation N

Predicted Value 18.03 41.31 26.74 4.001 429

Std. Predicted Value -2.174 3.644 0.002 1 429

Standard Error of Predicted Value 0.207 0.8 0.341 0.111 429

Adjusted Predicted Value 18.04 41.39 26.75 4.009 426

Residual -14.849 12.612 -0.002 4.268 426

Std. Residual -3.475 2.951 0 0.999 426

Stud. Residual -3.514 2.969 0 1.003 426

Deleted Residual -15.19 12.765 -0.001 4.306 426

Stud. Deleted Residual -3.562 2.997 -0.001 1.006 426

Mahal. Distance 0.004 13.897 1.993 2.234 429

Cook's Distance 0 0.094 0.003 0.008 426

Centered Leverage Value 0 0.033 0.005 0.005 429

a Dependent Variable: Total perceived stress21

Page 22: Phân tích tương quan hồi quy

Kết quả chạy mô hình (tiếp)

22

Page 23: Phân tích tương quan hồi quy

Đọc kết quả chạy mô hình hồi quy tuyến tính đồng thời như thế nào?

• Bước 1: Kiểm tra các giả định• Đa cộng tuyến: Hãy nhìn vào bảng tương quan (Correlations)

– Hãy kiểm tra xem các biến độc lập có mức độ tương quan cần thiết với biến phụ thuộc hay không? (Hệ số tương quan cần có giá trị tuyệt đối lớn hơn hoặc bằng 0.3). Ở ví dụ này các hệ số tương quan giữa các biến độc lập (Total Mastery, và Total pcoiss) và biến phụ thuộc (total perceived stress) lần lượt là -.61 và -.58

– Hãy kiểm tra xem liệu tương quan giữa các biến độc lập có quá cao hay không. Nếu hệ số tương quan giữa chúng có trị tuyệt đối lớn hơn 0.7 thì số liệu đang vi phạm giả định về đa cộng tuyến.

– Đa cộng tuyến cũng có thể được phát hiện dựa vào hệ số Tolerance hoặc hệ số VIF trong bảng Coefficients. Đa cộng tuyến xuất hiện khi hệ số Tolerance < 0.10, hoặc hệ số VIF > 10.

23

Page 24: Phân tích tương quan hồi quy

Bước 1 – Kiểm tra các giả định (tiếp)Outlier, phân phối chuẩn (normality), tuyến tính (linearity), phương sai đồng nhất (homoscedasticity), và phần dư độc lập (independence of residuals)

• Các giả định trên lần lượt có thể được kiểm tra ở các phần thông tin Normal Probability Plot (P-P), và Scatterplot;

• Giả định về normality sẽ không bị vi phạm nếu đường Normal PP Plot là tương đối thẳng

• Giả định về linearity có thể được kiểm tra bằng việc xem xét biểu đồ ScatterPlot of standardized residuals (tôi không đưa vào slide). Giả định này sẽ không bị vi phạm nếu phần lớn các điểm tạo nên một hình chữ nhật, với mật độ lớn các điểm tập trung ở trung tâm hình chữ nhật.

• Kiểm tra outliers có thể được thực hiện bằng việc sử dụng giá trị biến Mahalanobis distances (được tự tạo ra ở cuối file số liệu khi chạy Regression – Biến này sẽ có tên là Mah_1). Phần này sẽ hơi rắc rối một chút, nếu có duyên chúng ta sẽ gặp nhau và thảo luận rõ hơn.

24

Page 25: Phân tích tương quan hồi quy

Đọc kết quả chạy mô hình - Bước 2: Đánh giá mô hình

• Hãy nhìn vào bảng có tên Model Summary và kiểm tra giá trị R square (tức là R bình phương). Giá trị này sẽ cho biết bao nhiêu phần trăm biến động của biến phụ thuộc (trong ví dụ này là biến perceived stress) được giải thích bởi mô hình (bao gồm hai biến độc lập là Total Mastery và Total PCOISS). Ở đây giá trị R square là 0.468 cho thấy rằng hai biến độc lập giải thích được 46.8% sự biến động của biến phụ thuộc.

• Các học giả khuyên bạn nên dùng hệ số R bình phương hiệu chỉnh (Adjusted R square) thay cho hệ số R square, đặc biệt là khi số liệu của bạn được hình thành từ một mẫu có dung lượng nhỏ;

• Để kiểm tra xem mô hình có ý nghĩa hay không (tức là R square có khác 0 hay không) thì ta xem bảng ANOVA (tôi không đưa bảng này vào slide). Ta cần giá trị Sig. nhỏ hơn 0.1, hoặc 0.05, hoặc 0.001 để khẳng định rằng mô hình là có ý nghĩa thống kê (lần lượt với độ tin cậy 90%, 95%, hoặc 99%)

25

Page 26: Phân tích tương quan hồi quy

• Để đánh giá xem biến độc lập nào đã giải thích sự biến động của biến phụ thuộc ta cần tìm hiểu bảng Coefficients

• Nhìn vào cột Beta ở dưới dòng Standardized Coefficients. Giá trị này có tác dụng để so sánh mức độ quan trọng của từng biến độc lập trong việc giải thích biến động của biến phụ thuộc. Tuy nhiên, nếu bạn muốn có các con số để viết nên mô hình giải thích cho biến phụ thuộc thì bạn hãy dùng giá trị B (chứ không nên dùng Beta).

• Để xem biến nào có đóng góp lớn nhất đến sự biến động của biến phụ thuộc, bạn hãy nhìn vào các giá trị beta (hãy lấy giá trị tuyệt đối của chúng). Ở ví dụ này, giá trị beta lớn nhất thuộc về biến Total Mastery, với giá trị là -0.42, trong khi đó biến Total PCOISS chỉ có giá trị beta là -0.36. Do đó có thể nói biến Total Mastery đóng góp nhiều hơn vào việc giải thích sự biến động của biến perceived stress.

Đọc kết quả chạy mô hình - Bước 3: Đánh giá từng biến độc lập

26

Page 27: Phân tích tương quan hồi quy

Đọc kết quả chạy mô hình - Bước 3: Đánh giá từng biến độc lập (tiếp)

• Để xem các biến độc lập có thực sự giải thích được sự biến động của biến phụ thuộc hay không (tức là có ý nghĩa thống kê hay không), ta cần xem giá trị Sig. Nếu giá trị này nhỏ hơn 0.1, hoặc 0.05, hoặc 0.001 thì các biến độc lập được cho là có ý nghĩa thống kê (lần lượt ở các mức ý nghĩa 10%, 5%, và 1%);

• Một thông tin khác khá thú vị và ít được các học giả ở Việt Nam biết đến là giá trị hệ số Part trong bảng Coefficients. Hệ số này có thể tạm được dịch là hệ số tương quan bán từng phần (semipartial correlation coefficients). Tương ứng với từng biến độc lập sẽ có một hệ số Part, khi ta lấy bình phương hệ số này ta sẽ được giá trị thể hiện mức đóng góp của duy nhất biến độc lập ấy đến sự biến động của biến phụ thuộc. Chẳng hạn hệ số Part của biên Total Mastery là -0.36, bình phương lên là 0.13 nói lên rằng biến Total Masery một mình nó sẽ giải thích được 13% sự biến động của biến perceived stress. Tương tự như vậy bình phương hệ số Part của biến Total PCOISS sẽ là 0.09, cho thấy một mình biến này sẽ chỉ giải thích được 9% sự biến động của biến Percerved stress.

• Đố bạn biến tại sao hai biến riêng rẽ chỉ giải thích được 22% (tức là 13%+9%) sự biến động của biến phụ thuộc, trong khi hệ số R bình phương hiệu chỉnh lại lên tới 47%??? Nếu có duyên tôi sẽ giúp bạn trả lời câu hỏi này.

27

Page 28: Phân tích tương quan hồi quy

HỒI QUY TUYẾN TÍNH ĐA BIẾN THEO THỨ BẬC (HIERACHICAL MULTIPLE REGRESSION)

• Nếu bạn chưa một lần nghe đến tên của dạng hồi quy này

thì bạn sẽ thấy nó cực kỳ ấn tượng;

• Hãy trở lại slide 13 trong bài này và đọc kỹ câu hỏi nghiên

cứu thứ 3. Nếu bạn không dùng hồi quy tuyến tính đa biến

theo thứ bậc thì bạn sẽ không thể trả lời được câu hỏi

nghiên cứu ấy; Vậy bạn làm thế nào? Hãy mở file

survey3ED ra và làm theo chỉ dẫn dưới đây:

28

Page 29: Phân tích tương quan hồi quy

1. Trên menu ở đỉnh màn hình file số liệu, hãy click vào Analyse/Regression/Linear

2. Chọn biến phụ thuộc (biến total perceived stress) và đưa vào hộp Dependent;

3. Chọn các biến bạn muốn kiểm soát ảnh hưởng của chúng (biến age, total social desirability) và đưa vào hộp Independent. Đây là sẽ là block biến đầu tiên bạn đưa vào phân tích;

4. Click vào nút có chữ Next, sẽ xuất hiện một hộp biến độc lập thứ hai để bạn nhập block biến độc lập thứ hai cho phân tích của mình;

5. Chọn các biến độc lập bạn muốn phân tích (total mastery và total PCOISS) và đưa vào hộp Independent ở block thứ hai.

6. Ở phần Methods, hãy chọn Enter7. Click vào Statistics/Estimates, Model fit, R square changes, Descriptives,

Part and partial correlations, và collinearity diagnostics. Click Continue;8. Click vào Options, chọn Missing values, chọn Exclude cases pairwise,

chọn Continue;9. Chọn Save, chọn Mahalonobis, Cook’s, sau đó chọn Continue, chọn Ok

29

Page 30: Phân tích tương quan hồi quy

Kết quả chạy mô hình như sau

30

Model Summaryc

Model R R Square Adjusted R Square

Std. Error of the Estimate

Change Statistics

R Square Change F Change df1 df2

Sig. F Chang

e

1 .238a 0.057 0.052 5.693 0.057 12.711 2 423 0.000

2 .688b 0.474 0.469 4.262 0.417 166.873 2 421 0.000

a Predictors: (Constant), Total social desirability, age

b Predictors: (Constant), Total social desirability, age, Total Mastery, Total PCOISS

c Dependent Variable: Total perceived stress

Page 31: Phân tích tương quan hồi quy

31

ANOVAa

Model Sum of Squares df Mean Square F Sig.

1Regression 823.865 2 411.932 12.711 .000b

Residual 13708.62 423 32.408

Total 14532.484 425

2Regression 6885.76 4 1721.44 94.776 .000c

Residual 7646.724 421 18.163

Total 14532.484 425

a Dependent Variable: Total perceived stress

b Predictors: (Constant), Total social desirability, age

c Predictors: (Constant), Total social desirability, age, Total Mastery, Total PCOISS

Page 32: Phân tích tương quan hồi quy

32

Coefficientsa

Model

Unstandardized Coefficients

Standardized Coefficients

t Sig.

95.0% Confidence Interval for B Correlations Collinearity Statistics

B Std. Error BetaLower Bound

Upper Bound

Zero-order Partial Part Tolerance VIF

1 (Constant) 31.076 0.983 31.605 0.000 29.143 33.009

age -0.031 0.022 -0.07 -1.438 0.151 -0.074 0.011 -0.127 -0.07 -0.068 0.928 1.077

Total social desirability -0.599 0.14 -0.209 -4.271 0.000 -0.875 -0.324 -0.228 -0.203 -0.202 0.928 1.077

2 (Constant) 51.922 1.366 38.008 0.000 49.237 54.607

age -0.021 0.017 -0.047 -1.239 0.216 -0.054 0.012 -0.127 -0.06 -0.044 0.86 1.163

Total social desirability -0.149 0.108 -0.052 -1.373 0.171 -0.362 0.064 -0.228 -0.067 -0.049 0.871 1.148

Total Mastery -0.641 0.062 -0.435-

10.286 0.000 -0.763 -0.518 -0.612 -0.448 -0.364 0.699 1.432

Total PCOISS -0.16 0.022 -0.327 -7.373 0.000 -0.202 -0.117 -0.581 -0.338 -0.261 0.635 1.574

a Dependent Variable: Total perceived stress

Page 33: Phân tích tương quan hồi quy

Đọc kết quả chạy hồi quy theo thứ bậc như thế nào?

Bước 1: Đánh giá mô hình•Ở bảng Model summary hãy kiểm tra hệ số R square. Sau khi các biến độc lập được đưa vào ở Block 1 thì mô hình giải thích được 5.7% sự biến động của biến phụ thuộc (R square nhận giá trị 0.057). Sau khi block biến độc lập thứ hai (bao gồm total mastery và total PCOISS) được đưa vào phân tích, thì mô hình giải thích được 47.4% sự biến động của biến phụ thuộc (R square nhận giá trị 0.474);•Để biết hai biến độc lập mà ta đang nghiên cứu (total mastery và total PCOISS) giải thích được bao nhiêu % sự biến động của biến phụ thuộc sau khi ảnh hưởng của biến age và biến total social desirability đã được loại bỏ, ta cần xem giá trị R square changes. Vẫn ở bảng Model summary, hãy nhìn vào dòng Model 2 sẽ thấy giá trị R square change bằng 0.42. Điều này có nghĩa là các biến total mastery và total PCOISS đã cùng nhau giải thích được 42% sự biến động của biến phụ thuộc, sau khi ảnh hưởng của các biến age và biến total social desirability đã bị kiểm soát.•Hãy nhìn vào bảng ANOVA. Vì giá trị Sig. nhỏ hơn 0.001 nên mô hình là có ý nghĩa ở mức thống kê p<0.001

33

Page 34: Phân tích tương quan hồi quy

Bước 2: Đánh giá ảnh hưởng của từng biến độc lập đến biến phụ thuộc

•Hãy nhìn vào bảng Coefficients ở dòng Model 2. Hãy nhìn vào cột Sig.

Các biến độc lập nào có giá trị Sig. nhỏ hơn 0.1, hoặc 0.05, hoặc 0.001

là các biến có ý nghĩa thống kê ở mức p<0.1, hoặc 0.05, hoặc 0.001.

•Ở ví dụ này chỉ có hai biến total mastery (beta =-0.44) và total PCOISS

(beta = -0.33) là có ý nghĩa thống kê. Ý nghĩa của các hệ số beta này

được giải thích như trong phần hồi quy chuẩn

34

Đọc kết quả chạy hồi quy theo thứ bậc như thế nào? (tiếp)

Page 35: Phân tích tương quan hồi quy

Dưới đây chỉ là một khuyến nghị về cách trình bày kết quả chạy hồi quy đa biến theo thứ bậc

Hồi quy tuyến tính đa biến theo thứ bậc đã được sử dụng để đánh giá khả năng giải thích của hai biến độc lập (gồm total mastery, và total PCOISS) đối với sự biến động của biến độc lập (total perceived stress), sau khi kiểm soát ảnh hưởng của các biến age và total social desirability. Các phân tích căn bản đã được thực hiện nhằm đảm bảo không vi phạm các giả định về phân phối chuẩn, tuyến tính, đa cộng tuyến, phương sai đồng nhất, outliers, và phần dư độc lập. Biến age và total social desirability được đưa vào mô hình ở bước 1 chỉ giải thích được khoảng 6% sự biến động của biến phụ thuộc. Sau khi các biến total mastery và total PCOISS được đưa vào mô hình ở bước 2 thì khoảng 47.4% sự biến động của biến phụ thuộc đã được giải thích bởi mô hình, với mức ý nghĩa p<0.001. Sau khi kiểm soát ảnh hưởng của hai biến age và total social desirability thì các biến total mastery và total PCOISS đã giải thích được 42% sự biến động của biến phụ thuộc với mức ý nghĩa thống kê p<0.001. Cả hai biến độc lập được nghiên cứu đều có ý nghĩa thống kê ở mức p<0.001

35

Page 36: Phân tích tương quan hồi quy

Tất cả những kiến thức trong bài được khai thác từ nguồn: www.openup.co.uk/spssXin chân thành cảm ơn!

36