22
1 Chương 12 Mô hình hóa dữ liệu số đếm: Các mô hình hồi quy Poisson và nhị thức âm Domadar N. Gujarati (Econometrics by example, 2011). Người dịch và diễn giải: Phùng Thanh Bình, MB (31/12/2017) Trong nhiều trường hợp, biến phụ thuộc có dạng dữ liệu số đếm (count type), chẳng hạn như số lần tham quan sở thú trong một năm nhất định, số bằng sang chế công ty nhận được trong một năm, số lần đến nha sỹ một năm, số lần bị phạt vì lái xe quá tốc độ trong một năm, số xe qua một trạm thu phí trong vòng năm phút, … Biến cơ bản trong mỗi trường hợp là biến rời rạc, chỉ nhận một số giá trị không âm xác định. Đôi khi dữ liệu số đếm cũng bao gồm những các sự kiện hiếm xảy ra, chẳng hạn như bị sét đánh trong một tuần, trúng Mega Lotto trong hai tuần liên tiếp, bị một hoặc nhiều hơn vụ tai nạn giao thông trong một ngày, và số sắc lệnh mà một tổng thống ban xuống cho tòa án tối cao trong một năm. Dĩ nhiên, chúng ta có thể trích dẫn nhiều ví dụ hơn nữa về dữ liệu số đếm. Một tính chất duy nhất của tất cả các ví dụ này là chúng nhận một số xác định các giá trị là số nguyên không âm, hoặc đếm được. Không chỉ có thế, trong nhiều trường hợp số đếm là 0 cho nhiều quan sát. Cũng lưu ý rằng mỗi ví dụ số đếm được đo trong một quãng thời gian xác định. Để mô hình hóa các hiện tượng như thế, chúng ta cần một phân phối xác suất có tính đến các tính chất duy nhất của dữ liệu số đếm. Một phân phối như thế là phân phối xác suất

Chương 12 Mô hình hóa dữ liệu số đếm: Các mô hình … · đếm được đo trong một quãng thời gian xác định. ... 11 Các dữ liệu này lấy từ

Embed Size (px)

Citation preview

Page 1: Chương 12 Mô hình hóa dữ liệu số đếm: Các mô hình … · đếm được đo trong một quãng thời gian xác định. ... 11 Các dữ liệu này lấy từ

1

Chương 12

Mô hình hóa dữ liệu số đếm: Các mô hình hồi quy

Poisson và nhị thức âm

Domadar N. Gujarati

(Econometrics by example, 2011).

Người dịch và diễn giải: Phùng Thanh Bình, MB (31/12/2017)

Trong nhiều trường hợp, biến phụ thuộc có dạng dữ liệu số đếm (count type),

chẳng hạn như số lần tham quan sở thú trong một năm nhất định, số bằng sang

chế công ty nhận được trong một năm, số lần đến nha sỹ một năm, số lần bị

phạt vì lái xe quá tốc độ trong một năm, số xe qua một trạm thu phí trong vòng

năm phút, … Biến cơ bản trong mỗi trường hợp là biến rời rạc, chỉ nhận một số

giá trị không âm xác định.

Đôi khi dữ liệu số đếm cũng bao gồm những các sự kiện hiếm xảy ra, chẳng

hạn như bị sét đánh trong một tuần, trúng Mega Lotto trong hai tuần liên tiếp,

bị một hoặc nhiều hơn vụ tai nạn giao thông trong một ngày, và số sắc lệnh mà

một tổng thống ban xuống cho tòa án tối cao trong một năm. Dĩ nhiên, chúng

ta có thể trích dẫn nhiều ví dụ hơn nữa về dữ liệu số đếm.

Một tính chất duy nhất của tất cả các ví dụ này là chúng nhận một số xác định

các giá trị là số nguyên không âm, hoặc đếm được. Không chỉ có thế, trong

nhiều trường hợp số đếm là 0 cho nhiều quan sát. Cũng lưu ý rằng mỗi ví dụ số

đếm được đo trong một quãng thời gian xác định. Để mô hình hóa các hiện

tượng như thế, chúng ta cần một phân phối xác suất có tính đến các tính chất

duy nhất của dữ liệu số đếm. Một phân phối như thế là phân phối xác suất

Page 2: Chương 12 Mô hình hóa dữ liệu số đếm: Các mô hình … · đếm được đo trong một quãng thời gian xác định. ... 11 Các dữ liệu này lấy từ

2

Poisson. Các mô hình hồi quy dựa trên phân phối xác suất này gọi là các mô

hình hồi quy Poisson (PRM). Một loại khác với PRM là mô hình hồi quy nhị thức

âm (NBRM – negative binomial regression model), loại mô hình này dựa trên

phân phối xác suất nhị thức âm, và được sử dụng để khắc phụ một số nhược

điểm của PRM. Tiếp theo chúng ta sẽ thảo luận PRM trước rồi xem xét NBRM.

12.1 Ví dụ minh họa

Trước khi chúng ta thảo luận các cơ chế của PRM, chúng ta hãy xem xét một

ví dụ cụ thể.

Số bằng phát minh và chi tiêu cho nghiên cứu và phát triển

Một chủ đề rất được quan tâm bởi nhiều sinh viên khi học môn tổ chức ngành

(industrial organization) là bản chất của mối quan hệ giữa số bằng phát minh

(patents) được nhận và chi tiêu cho nghiên cứu và phát triển (R&D) bởi các

công ty sản xuất. Để khám phá mối quan hệ này, Table 12.1 (có sẵn trên trang

web đồng hành cùng cuốn sách) đưa ra dữ liệu về số bằng phát minh được

nhận bởi một mẫu gồm 181 công ty sản xuất quốc tế và lượng tiền chi tiêu cho

R&D của các công ty này trong năm 19901. Bảng dữ liệu cũng có các biến giả

đại diện cho năm ngành công nghiệp chủ yếu: không gian, hóa chất, máy tính,

cơ khí và thiết bị, và xe mô tô; lương thực, dầu, kim loại và các ngành khác là

phân loại tham chiếu. Bảng này cũng có các biến giả quốc gia của hai cường

quốc là Nhật và Mỹ, nhóm so sánh là các nước Châu âu. Biến R&D được thể

hiện dạng log, vì các đồ thị của các ngành riêng lẻ dao động rất đáng kể.

Nếu bạn phân tích số liệu bằng phát minh thì bạn sẽ thấy chúng thay đổi đáng

kể, từ một mức thấp bằng 0 đến cao bằng 900. Nhưng hầu hết là ở phần thấp.

11 Các dữ liệu này lấy từ trang web của Marno Verbeek, A Guide to Modern Econometrics, 3rd edn, John Wiley & Sons, UK, 2008, nhưng nguồn dữ liệu gốc là: M. Cincera, Patents, R&D, and technological spillovers at the firm level: some evidence from econometric count models for panel data, Journal of Applied Econometrics, vol. 12, pp. 265 – 80. Dữ liệu có thể được tải về từ hệ thống lưu trữ của tạp chí Journal of Applied Econometrics.

Page 3: Chương 12 Mô hình hóa dữ liệu số đếm: Các mô hình … · đếm được đo trong một quãng thời gian xác định. ... 11 Các dữ liệu này lấy từ

3

Mục tiêu của chúng ta là xác định sự ảnh hưởng của R&D, phân loại ngành

công nghiệp và hai quốc gia lên số bằng phát minh trung bình được nhận bởi

181 công ty2. Như một khởi điểm, và cho các mục đích so sánh, giả sử chúng

ta chạy một mô hình hồi quy tuyến tính (LRM), tức hồi quy số bằng theo log của

R&D (LR90), năm biến giả ngành và hai biến giả quốc gia. Các kết quả hồi quy

OLS được trình bày trong Bảng 12.2.

[Bảng 12.2: Các ước lượng OLS của dữ liệu phát minh.

Như được kỳ vọng, có một mối quan hệ dương giữa số bằng phát minh và chi

tiêu cho nghiên cứu và phát triển, mối quan hệ này có ý nghĩa thống kê cao. Vì

biến R&D ở dạng log và biến bằng phát minh ở dạng tuyến tính, nên hệ số của

22 Nhớ lại rằng trong hầu hết các phân tích hồi quy, chúng ta cố gắng giải thích giá trị trung bình của biến phụ thuộc trong mối quan hệ với các biến giải thích.

Page 4: Chương 12 Mô hình hóa dữ liệu số đếm: Các mô hình … · đếm được đo trong một quãng thời gian xác định. ... 11 Các dữ liệu này lấy từ

4

R&D là 73.17 cho biết rằng nếu bạn tăng chi tiêu cho R&D thêm 1%, thì số bằng

phát minh trung bình sẽ tăng khoảng 0.73, khi các yếu tố khác được giữ nguyên

không đổi3.

Về các biến giả ngành, chỉ có các biến giả của ngành hóa chất và ngành sản

xuất xe là có ý nghĩa thống kê: So với phân loại tham chiếu, thì mức phát minh

trung bình mà ngành hóa chất nhận được cao hơn khoảng 42 bằng phát minh

và mức phát minh trung bình mà ngành sán xuất xe nhận được thấp hơn khoảng

192 bằng phát minh. Về các biến giả quốc gia, biến giả của Mỹ có ý nghĩa thống

kê, nhưng giá trị của nó là -77 cho biết rằng trung bình các công ty của Mỹ nhận

ít hơn 77 bằng phát minh so với nhóm cơ sở.

Tuy nhiên, hồi quy OLS có thể không phù hợp trong trường hợp này bởi vì số

bằng phát minh nhận được trên một công ty trong một năm thường nhỏ, mặc

dù một số công ty có được một số lượng lớn bằng phát minh. Điều này có thể

được thấy rõ ràng nếu chúng ta lập bảng dữ liệu thô (Bảng 12.3).

Bảng 12.3: Dữ liệu thông về bằng phát minh.

3 Nhớ lại thảo luận của chúng ta về các mô hình bán log ở chương 2.

Page 5: Chương 12 Mô hình hóa dữ liệu số đếm: Các mô hình … · đếm được đo trong một quãng thời gian xác định. ... 11 Các dữ liệu này lấy từ

5

Rõ ràng từ bảng này chúng ta thấy rằng số công ty nhận ít hơn 200 bằng phát

minh nổi trội hơn; thực sự còn ít hơn con số này. Điều này cũng có thể được

thấy trong đồ thị tần suất sau đây trong Hình 12.1.

Hình 12.1: Đồ thị tần suất của dữ liệu thô.

Đồ thị tần suất này cho thấy phân phối bị nghiên rất cao của dữ liệu thô, điều

này có thể được xác nhận bằng hệ số độ nghiêng, khoảng 3.3, và hệ số độ

nhọn, khoảng 14. Nhớ lại rằng đối với một biến có phân phối chuẩn thì hệ số độ

nghiêng bằng 0 và hệ số độ nhọn bằng 3. Thống kê Jarque-Bera (JB) rõ ràng

bác bỏ giả thuyết cho rằng số bằng phát minh có phân phối chuẩn. Nhớ lại rằng

trong các mẫu lớn thì thống kê JB theo phân phối Chi bình phương với bậc tự

do là 2. Trong trường hợp hiện tại, giá trị JB ước lượng bằng 1.308 là quá lớn

đến nổi xác suất để có được một giá trị bằng hoặc lớn hơn giá trị như thế thực

tế bằng 0.

Rõ ràng là chúng ta không thể sử dụng phân phối xác suất chuẩn để mô hình

hóa dữ liệu số đếm. Phân phối xác suất Poisson (PPD) thường được sử dụng

Page 6: Chương 12 Mô hình hóa dữ liệu số đếm: Các mô hình … · đếm được đo trong một quãng thời gian xác định. ... 11 Các dữ liệu này lấy từ

6

để mô hình hóa dữ liệu số đếm, đặc biệt là để mô hình hóa dữ liệu số đếm hiếm

thấy. Điều này được thực hiện như thế nào được giải thích dưới đây.

12.2 Mô hình hồi quy Poisson (PRM)

Nếu một biến ngẫu nhiên Y theo phân phối Poisson, thì hàm mật độ xác suất

(PDF) của nó được cho bởi:

Trong đó, f(Y|yi) biểu hiện xác suất mà biến ngẫu nhiên rời rạc Y nhận giá trị

nguyên không âm yi, và yi! (đọc là yi giai thừa) thể hiện y! = y.(y - 1).(y - 2). …

.2.1, với 0! = 1, và là tham số của phân phối Poisson. Lưu ý rằng phân phối

Poisson có một tham số duy nhất, , không giống phân phối chuẩn có hai tham

số, trung bình và phương sai.

Chúng ta có thể chứng minh rằng:

Một tính chất duy nhất của phân phối Poisson là trung bình và phương sai của

một biến theo phân phối Poisson là giống nhau. Tính chất này, được gọi là phân

tán bằng nhau (equidispersion), là một tính chất hạn chế của phân phối

Poisson, vì trong thực tế phương sai của các biến số đếm thường lớn hơn trung

bình của nó. Tính chất sau được gọi là quá phân tán (overdispersion).

Mô hình hồi quy Poisson có thể được viết như sau:

[

Page 7: Chương 12 Mô hình hóa dữ liệu số đếm: Các mô hình … · đếm được đo trong một quãng thời gian xác định. ... 11 Các dữ liệu này lấy từ

7

Trong đó, các y được phân phối độc lập như các biến ngẫu nhiên Poisson với

trung bình i cho mỗi cá nhân, được thể hiện như sau:

[[

Trong đó, exp(BX) có nghĩa là e lũy thừa biểu thức XB, với XB là dạng viết tắt

cho hồi quy bội như thấy trong dấu móc.

Các biến X là các biến giải thích mà chúng có thể xác định giá trị trung bình của

biến phụ thuộc. Vì thế, bởi tự bản thân nó, nó cũng xác định giá trị phương sai

nếu mô hình Poisson là phù hợp. Ví dụ, nếu biến số đếm của chúng ta là số lần

đến thăm sở thú Bronx ở New York trong một năm nhất định, thì con số này sẽ

phụ thuộc vào các biến như thu nhập của du khách, giá vé vào cửa, khoảng

cách từ bảo tàng, và phí đậu xe.

Lấp exp(XB) sẽ đảm bảo rằng giá trị trung bình của biến số đếm, , sẽ là số

dương.

Đối với các mục đích ước lượng, mô hình của chúng ta có thể được viết như

sau:

[[

Mô hình này là phi tuyến ở các tham số, nên cần thiết phải ước lượng hồi quy

phi tuyến. Điều này có thể đạt được bằng phương pháp hợp lý tối đa (ML).

Chúng ta sẽ không thảo luận chi tiết về ước lượng ML trong ngữ cảnh mô hình

hồi quy Poisson, vì các chi tiết thì hơi kỹ thuật và có thể được tìm thấy trong các

Page 8: Chương 12 Mô hình hóa dữ liệu số đếm: Các mô hình … · đếm được đo trong một quãng thời gian xác định. ... 11 Các dữ liệu này lấy từ

8

tài liệu tham khảo4. Tuy nhiên, một thảo luận suy nghiệm (heuristic discussion)

về ML được cho trong phụ lục cuối chương 1.

Trước hết chúng ta trình bày các giá trị ước lượng của dữ liệu về bằng phát minh

và sau đó thảo luận các kết quả và một số hạn chế của mô hình; xem Bảng

12.4.

Giá trị trung bình ước lượng của công ty thứ i vì thế là:

Chuyển hóa sang dạng log phương trình (12.7) chúng ta có:

Giải thích kết quả

Trước hết, lưu ý rằng các mô hình phi tuyến như PRM thì R2 không đặc biệt có

ý nghĩa. Thống kê LR (tỷ số hợp lý) mới là quan trọng. Giá trị này trong trường

hợp hiện tại là 21.482, có ý nghĩa cao bởi vì giá trị xác suất p của nó (hoặc mức

ý nghĩa chính xác) thực tế bằng 0. Điều này cho biết rằng các biến giải thích kết

hợp lại là quan trọng trong việc giải thích trung bình có điều kiện của số bằng

phát min, tức là i.

4 Một tài liệu tham khảo có thể tiếp cận được là: J. Scott Long, Regression Models for Categorical and Limited Dependent Variables, Sage Publications, Thousand Oaks, California, 1997.

Page 9: Chương 12 Mô hình hóa dữ liệu số đếm: Các mô hình … · đếm được đo trong một quãng thời gian xác định. ... 11 Các dữ liệu này lấy từ

9

Một cách khác để khẳng định điều này là so sánh hàm log-likelihood bị ràng

buộc với hàm log-likelihood không bị ràng buộc. Hàm log-likelihood bị ràng buộc

được ước lượng dưới giả thuyết rằng không có biến giải thích nào trong mô hình

ngoại trừ hệ số cắt, trong khi đó hàm log-likelihood không bị ràng buộc bao gồm

các biến giải thích. Vì LR bị ràng buộc là -15.822 và LR không bị ràng buộc là -

5.081, về mặc con số thì -5.081 lớn hơn (tức là ít âm hơn) -15.8225. Vì mục tiêu

của ML là tối đa hóa hàm khả năng, nên chúng ta nên chọn mô hình không bị

ràng buộc, nghĩa là mô hình bao gồm các biến giải thích như trong Bảng 12.4.

[Bảng 12.4: Mô hình Poisson của dữ liệu bằng phát minh (ước lượng ML).

5 Như thấy trong phụ lục ở chương 1, thống kê LR được tính bằng 2(ULLF - RLLF), trong đó ULLF và RLLF là các hàm log-likelihood không bị ràng buộc và bị ràng buộc. Thống kê LR theo phân phối Chi bình phương với số bậc

tự do bằng số ràng buộc đặt trong giả thuyết Ho: 7 trong ví dụ hiện tại. Đối với ví dụ của chúng ta, = 2[-5.081 – (-15.822)] = 21.482, đây là giá trị trong Bảng 12.4.

Page 10: Chương 12 Mô hình hóa dữ liệu số đếm: Các mô hình … · đếm được đo trong một quãng thời gian xác định. ... 11 Các dữ liệu này lấy từ

10

Bây giờ chúng ta hãy giải thích các hệ số ước lượng được cho trong phương

trình (12.8). Hệ số của LR90 là 0.86 cho biết rằng nếu chi tiêu cho nghiên cứu

và phát triển tăng 1%, thì số bằng phát minh trung bình mà một công ty nhận

được sẽ tang khoảng 0.86%, khi các yếu tố khác được giữ nguyên. (Lưu ý là

chi tiêu cho R&D được thể hiện ở dạng log). Nói cách khác, hệ số co giãn của

bằng phát minh nhận được theo chi tiêu cho nghiên cứu và phát triển là khoảng

0.86% [xem phương trình (12.8)].

Giải thích hệ số của biến giả machinces bằng 0.6464 như thế nào? Từ chương

2 chúng ta biết cách giải thích hệ số của biến giả trong một mô hình bán log

như thế nào. Số bằng phát minh trung bình trong ngành chế tạo máy cao hơn

khoảng 100[e0.6464 – 1] = 100[1.9086 – 1] = 90.86% so với phân loại so sánh.

Theo cách tương tự, hệ số của biến giả US là -0.4189 có nghĩa là số bằng phát

minh trung bình ở Mỹ thấp hơn khoảng 100[e-0.4189 – 1] = 100[0.6577 – 1] = -

34.23% so với nhóm cơ sở.

Nếu bạn phân tích các kết quả được cho trong Bảng 12.4, thì bạn sẽ thấy rằng,

ngoại trừ biến giả của Nhật, các biến khác đều có ý nghĩa thống kê cao.

Tác động biên của một biến giải thích

Một cách khác để giải thích các kết quả này là tìm tác động biên của một biến

giải thích lên giá trị trung bình của biến số đếm, tức số bằng phát minh trong ví

dụ của chúng ta.

Chúng ta có thể thấy rằng tác động biên của một biến giải thích liên tục, ví dụ

Xk, lên giá trị trung bình này là6:

6 Sử dụng quy tắc dây chuyền (hàm của hàm). Chúng ta có E(Y | X)/Xk = (eXB/XB).(XB/Xk) = eXBBk. Nhớ rằng đạo hàm của một hàm mũ cũng chính là hàm mũ đó.

Page 11: Chương 12 Mô hình hóa dữ liệu số đếm: Các mô hình … · đếm được đo trong một quãng thời gian xác định. ... 11 Các dữ liệu này lấy từ

11

Như phương trình (12.9) cho thấy tác động biên của một biến giải thích Xk phụ

thuộc không chỉ vào hệ số của nó (Bk) mà còn giá trị của Y (= P90), và giá trị Y

này phụ thuộc vào các giá trị của tất cả các biến giải thích trong mô hình. Vì

chúng ta có 181 quan sát, nên chúng ta sẽ phải thực hiện tính toán này cho mỗi

quan sát. Dĩ nhiên đây là một việc mất thì giờ. Trong thực tế, tác động biên được

tính tại các giá trị trung bình của các biến giải thích. Stata và các phần mềm

thống kê khác có sẵn các lệnh để tính toán tác động biên của các biến liên tục.

Còn việc tính tác động biên của một biến giả thì sao?

Vì một biến giả nhận các giá trị 1 và 0, nên chúng ta không thể lấy vi phân i

theo biến giả. Tuy nhiên, chúng ta có thể tính thay đổi phần tram trong số bằng

phát minh trung bình bằng cách xem xét mô hình khi biến giả nhận giá trị 1 và

khi nó nhận giá trị 07.

[

Tính các xác suất

Chúng ta tính xác suất để có được, ví dụ, m bằng phát minh khi cho trước các

giá trị của các biến giải thích như thế nào? Xác suất này có thể có được từ

phương trình (12.6) như sau:

Về nguyên tắc, chúng ta có thể tính các xác suất như thế cho mỗi quan sát cho

mỗi giá trị m hoặc cho một m cụ thể. Dĩ nhiên, đây làm một việc tính toán chán

ngắt. Phần mềm như Stata có thể tính các xác suất này tương đối dễ dàng.

7 Để biết chi tiết, xem Long op cit.

Page 12: Chương 12 Mô hình hóa dữ liệu số đếm: Các mô hình … · đếm được đo trong một quãng thời gian xác định. ... 11 Các dữ liệu này lấy từ

12

12.3 Hạn chế của mô hình Poisson

Các kết quả hồi quy Poisson về bằng phát minh và chi tiêu cho nghiên cứu và

phát triển được cho trong Bảng 12.4 không nên được chấp nhận ở giá trị bên

ngoài (face value). Các sai số chuẩn của các hệ số ước lượng được cho trong

bảng đó là hợp lý chỉ nếu giả định phân phối Poisson làm nền tảng cho mô hình

ước lượng là đúng. Vì PPD giả định rằng trung bình có điều kiện và phương sai

có điều kiện của phân phối, khi cho trước các giá trị của các biến giải thích X,

là giống nhau, nên điều quan trọng là chúng ta phải kiểm tra giả định này: giả

định phân tán bằng nhau (equidispersion).

Nếu có quá phân tán, thì các giá trị ước lượng PRM, mặc dù nhất quán, là không

hiệu quả với các sai số chuẩn bị chệch thấp xuống (downward biased). Nếu

đúng là như thế, thì các giá trị Z ước lượng bị phóng đại, vì thế ước lượng quá

mức ý nghĩa thống kê của các hệ số ước lượng.

Sử dụng một thủ tục được đề xuất bởi Cameron và Trevidi, được tích hợp trong

Eviews, thì giả định phân tán bằng nhau có thể được kiểm định như sau:

1. Ước lượng mô hình hồi quy Poisson, như trong Bảng 12.4, và thu giá trị

ước lượng của biến phụ thuộc, 𝑃90̂𝑖.

2. Lấy giá trị thực P90 trừ giá trị ước lượng 𝑃90̂𝑖, để thu được phần dư ei =

P90i - 𝑃90̂𝑖.

3. Bình phương phần dư, và lấy phần dư bình phương này trừ cho P90, tức

là 𝑒𝑖2 – P90i.

4. Hồi quy kết quả từ bước 3 theo 𝑃90̂𝑖2.

5. Nếu hệ số hồi quy trong phương trình này có ý nghĩa thống kê, chúng ta

bác bỏ giả thuyết phân tán bằng nhau. Trong trường hợp đó chúng ta bác

bỏ mô hình Poisson.

6. Nếu hệ số hồi quy trong bước 4 là dương và có ý nghĩa thống kê, thì đó

là trường hợp quá phân tán. Nếu nó là âm, thì đó là dưới phân tán (under-

Page 13: Chương 12 Mô hình hóa dữ liệu số đếm: Các mô hình … · đếm được đo trong một quãng thời gian xác định. ... 11 Các dữ liệu này lấy từ

13

dispersion). Trong bất kỳ trường hợp nào, chúng ta đều bác bỏ mô hình

Poisson. Tuy nhiên, nếu hệ số này không có ý nghĩa thống kê thì chúng

ta không cần bác bỏ mô hình hồi quy Poisson.

Bảng 12.6: Kiểm định phân tán bằng nhau của mô hình Poisson.

Sử dụng thủ tục này, chúng ta có được kết quả trong Bảng 12.6. Vì hệ số dốc

trong hồi quy này là dương và có ý nghĩa thống kê, nên chúng ta có thể bác bỏ

giả định Poisson về phân tán bằng nhau. Thực sự, các kết quả cho thấy có hiện

tượng quá phân tán8. Vì thế, các sai số chuẩn được báo cáo trong Bảng 12.4 là

không thể tin cậy, thực sự chúng ước lượng thấp các sai số chuẩn thực.

Có hai cách để hiệu chỉnh các sai số chuẩn trong Bảng 12.4: một là sử dụng

phương pháp ước lượng tựa như hợp lý tối đa (QMLE – quasi-maximum

likelihood estimation) và hai là phương pháp mô hình tuyến tính tổng quát (GLM

– generalized linear model). Công thức toán đằng sau các phương pháp này thì

phức tạp, nên chúng ta sẽ không theo đuổi ở đây. Nhưng chúng ta sẽ báo cáo

các sai số chuẩn được tính bằng hai phương pháp này cùng với các sai số

chuẩn trong Bảng 12.4, vì thế bạn đọc có thể thấy những khác biệt trong các

8 Kiểm định này cũng phù hợp cho trường hợp dưới phân tán, trong đó hệ số dốc sẽ là âm. Nghĩa là, phương sai có điều kiện nhỏ hơn trung bình có điều kiện, điều này cũng vi phạm giả định của Poisson.

Page 14: Chương 12 Mô hình hóa dữ liệu số đếm: Các mô hình … · đếm được đo trong một quãng thời gian xác định. ... 11 Các dữ liệu này lấy từ

14

sai số chuẩn được ước lượng. Trong tất cả các trường hợp thì các giá trị ước

lượng của các hệ số hồi quy là giống nhau, như trong Bảng 12.4.

Bảng 12.6: So sánh các sai số chuẩn theo MLE, QMLE, và GLM của vì dụ về

bằng phát minh.

Nhưng trước khi chúng ta làm điều đó, có lẽ cần lưu ý rằng mặc dù QMLE có

cải thiện (robust) sai dạng mô hình tổng thể của phân phối có điều kiện của

biến phụ thuộc, tức P90 trong ví dụ hiện tại, nhưng nó không sở hữu các tính

chất về hiệu quả, trong khi đó GLM hiệu chỉnh một cách trực tiếp hiện tượng

quá phân tán và vì thế có thể tin cậy được.

Page 15: Chương 12 Mô hình hóa dữ liệu số đếm: Các mô hình … · đếm được đo trong một quãng thời gian xác định. ... 11 Các dữ liệu này lấy từ

15

Như bạn có thể thấy từ Bảng 12.6, các sai số chuẩn được trình bày trong Bảng

12.4, có được theo phương pháp hợp lý tối đa, ước lượng thấp đáng kể các sai

số chuẩn, và vì thế phóng đại các giá trị Z rất nhiều. Hai phương pháp khác cho

thấy rằng trong nhiều trường hợp các biến giải thích không có ý nghĩa thống kê,

vì thế cho thấy mức độ mà MLE ước lượng thấp các sai số chuẩn.

Điểm chính cần lưu ý là nếu chúng ta sử dụng mô hình hồi quy Poisson thì nên

kiểm định giả định phân tán bằng nhau, nhưng trong Bảng 12.5. Nếu kiểm định

cho thấy có hiện tượng quá phân tán, thì chúng ta nến ít nhất là điều chỉnh các

sai số chuẩn bằng phương pháp QMLE và GLM.

Nếu giả định phân tán bằng nhau làm nền tảng cho mô hình hồi quy Poisson

không thỏa mãn, và thậm chí nếu chúng ta điều chỉnh các sai số chuẩn thu

được từ phương pháp ML, nhưng trong Bảng 12.6, thì có lẽ tốt hơn là tìm kiếm

các mô hình thay thế cho mô hình hồi quy Poisson. Một mô hình thay thế như

vậy là mô hình hồi quy nhị thức âm (NBRM – negative binomial regression

model), dựa trên phân phối xác suất nhị thức âm (NBPD – negative binomial

probability distribution)9.

12.4 Mô hình hồi quy nhị thức âm (NBRM)

Giả định bằng nhau giữa trung bình và phương sai của một biến ngẫu nhiên

theo phân phối Poisson là một hạn chế chính của mô hình hồi quy Poisson. Đối

với NBPD, chúng ta có thể thấy rằng:

9 Tham khảo bất cứ giáo trình chuẩn nào về xác suất để học thêm về phân phối xác suất nhị thức âm. Đủ để nói ở đây là trong phân phối xác suất nhị thức chúng ta tìm số lần thành công, r, trong n phép thử, ở đó xác suất thành công là p. Trong phân phân phối xác suất nhị thức âm chúng ta tìm số lần thất bại trước thành công thứ r trong n phép thử, ở đó xác suất thành công là p.

Page 16: Chương 12 Mô hình hóa dữ liệu số đếm: Các mô hình … · đếm được đo trong một quãng thời gian xác định. ... 11 Các dữ liệu này lấy từ

16

Trong đó, 2 là phương sai, là trung bình và r là tham số của mô hình10.

Phương trình (12.11) cho thấy rằng đối với NBPD thì phương sai luôn lớn hơn

trung bình, trái với PDF Poisson trong đó trung bình bằng phương sai. Đáng nói

thêm rằng khi r thì p 1 thì NBPD tiếp cận đến PDF Poisson, giả sử rằng

trung bình là cố định. Lưu ý: p là xác suất thành công. [Lưu ý: 1/r còn gọi là

alpha trong kết quả hồi quy với Stata].

Bởi vì tính chất (12.11), mà NBPD thích hợp đối với dữ liệu số đếm hơn là phân

phối xác suất Poisson.

Bảng 12.7: Ước lượng NBRM cho dữ liệu bằng phát minh.

10 Đối với NBPD các tham số là p (xác suất thành công) và r (số lần thành công), các tham số giống như trong PDF nhị thức.

Page 17: Chương 12 Mô hình hóa dữ liệu số đếm: Các mô hình … · đếm được đo trong một quãng thời gian xác định. ... 11 Các dữ liệu này lấy từ

17

Sử dụng Eviews 6, chúng ta có được Bảng 12.7. Nếu bạn so sánh các kết quả

này của hồi quy nhị thức âm được cho trong bảng 12.7 với các kết quả hồi quy

Poisson trong Bảng 12.4, thì bạn sẽ lại thấy những khác biệt trong các sai số

chuẩn ước lượng.

Nhân tiện, tham số hình dáng (shape parameter, tức lnalpha trong kết quả hồi

quy Stata) được cho trong bảng đưa ra một giá trị ước lượng của mức độ mà

phương sai có điều kiện lớn hơn trung bình có điều kiện. Tham số hình dáng

bằng log của phương sai, log(i), nghĩa là, log(0.2519). Lấy anti-log con số này,

chúng ta được 1.2864, điều này cho biết rằng phương sai có điều kiện lớn hơn

trung bình có điều kiện khoảng 0.28. [Xem lnalpha và alpha trong bảng kết quả

hồi quy mô hình NBRM trên Stata].

[[

12.5 Tóm tắt và kết luận

Trong chương này chúng ta đã thảo luận mô hình hồi quy Poisson, mô hình

thường được sử dụng để mô hình hóa dữ liệu số đếm. Mô hình hồi quy Poisson

dựa trên phân phối xác suất Poisson. Một tính chất duy nhất của phân phối

Pisson là trung bình và phương sai của một biến theo phân phối Poisson là

bằng nhau. Điều này cũng là một tính chất hạn chế của phân phối xác suất

Poisson.

Chúng ta đã sử dụng dữ liệu về bằng phát minh của 181 công ty sản xuất năm

1990 về số bằng phát minh mà mỗi công ty nhận được cùng với các thông tin

về chi tiêu cho nghiên cứu và phát triển của các công ty này, ngành mà ở đó

các công ty này hoạt động (đại diện bằng các biến giả) và các biến giả về hai

cường quốc công nghiệp là Nhật và Mỹ.

Là một mô hình phi tuyến, chúng ta ước lượng mô hình hồi quy Poisson theo

phương pháp hợp lý tối đa. Ngoại trừ biến giả Nhật Bản, tất cả các biến khác

đều có ý nghĩa thống kê.

Page 18: Chương 12 Mô hình hóa dữ liệu số đếm: Các mô hình … · đếm được đo trong một quãng thời gian xác định. ... 11 Các dữ liệu này lấy từ

18

Nhưng các kết quả này có thể không tin cậy bởi vì giả định hạn chế của phân

phối xác suất Poisson là trung bình và phương sai của nó bằng nhau. Trong

hầu hết các ứng dụng thực tế của mô hình hồi quy Poisson thì phương sai có

xu hướng lớn hơn trung bình. Đây là trường hợp mà chúng ta gọi là hiện tượng

quá phân tán.

Chúng ta sử dụng một kiểm định được đề xuất bởi Cameron và Trevidi để kiểm

định hiện tượng quá phân tán và phát hiện thấy rằng dữ liệu về bằng phát minh

thực sự có hiện tượng quá phân tán.

Để điều chỉnh hiện tượng quá phân tán, chúng ta sử dụng các phương pháp

ước lượng tựa như hợp lý tối đa (QMLE) và mô hình tuyến tính tổng quát (GLM).

Cả hai phương pháp này điều chỉnh các sai số chuẩn của mô hình hồi quy

Poisson, được ước lượng bằng phương pháp hợp lý tối đa (ML). Bởi vì các điều

chỉnh này, chúng ta phát hiện ra rằng nhiều sai số chuẩn trong mô hình hồi quy

Poisson được ước lượng thấp đáng kể, dẫn đến phóng đại ý nghĩa thống kê của

các hệ số hồi quy. Trong vài trường hợp, các biến giải thích được phát hiện là

không có ý nghĩa thống kê, trái với các giá trị ước lượng của mô hình hồi quy

Poisson gốc.

Vì các kết quả của chúng ta cho thấy có hiện tượng quá phân tán, nên chúng

ta sử dụng một mô hình thay thế, đó là mô hình hồi quy nhị thức âm (NBRM).

Một lợi thế của mô hình NBRM là nó cho phép hiện tượng quá phân tán và cũng

cung cấp một ước lượng trực tiếp mức độ quá phân tán của phương sai (tức là

phương sai lớn hơn trung bình bao nhiêu). Các kết quả của mô hình hồi quy nhị

thức âm cho thấy rằng các sai số chuẩn của mô hình hồi quy Poisson gốc bị

ước lượng thấp trong nhiều trường hợp./.

Page 19: Chương 12 Mô hình hóa dữ liệu số đếm: Các mô hình … · đếm được đo trong một quãng thời gian xác định. ... 11 Các dữ liệu này lấy từ

19

Hướng dẫn Stata (😊)

[

IRR nghĩa là eBk. Ví dụ, hệ số của machines ~ 1.9086, ta có 100*[1.9086 – 1] =

90.86%, nghĩa là ngành chế tạo máy có số bằng phát minh trung bình cao hơn

nhóm cơ sở là 90.86%.

Page 20: Chương 12 Mô hình hóa dữ liệu số đếm: Các mô hình … · đếm được đo trong một quãng thời gian xác định. ... 11 Các dữ liệu này lấy từ

20

[

Bảng 12.5

quietly poisson p90 lr90 aerosp chemist computer machines vehicles japan us

predict p90_hat

gen p90_hat2 = p90_hat^2

gen e = p90 - p90_hat

gen e2 = e^2

gen diff = e2 - p90

reg diff p90_hat2, nocons

Page 21: Chương 12 Mô hình hóa dữ liệu số đếm: Các mô hình … · đếm được đo trong một quãng thời gian xác định. ... 11 Các dữ liệu này lấy từ

21

Page 22: Chương 12 Mô hình hóa dữ liệu số đếm: Các mô hình … · đếm được đo trong một quãng thời gian xác định. ... 11 Các dữ liệu này lấy từ

22

Kiểm định quá phân tán (Long & Freese, Chapter 9, p. 511)

quietly nbreg p90 lr90 aerosp chemist computer machines vehicles japan us, nolog

estimates store nbreg

quietly poisson p90 lr90 aerosp chemist computer machines vehicles japan us, nolog

estimates store poisson

lrtest nbreg poisson, force

Likelihood-ratio test LR chi2(1) = 8491.76

(Assumption: poisson nested in nbreg) Prob > chi2 = 0.0000

Lưu ý: LR chi2(1) chính là chibar2(01) trong kết quả hồi quy của mô hình hồi

quy nhị thức âm (nbreg) ở hai bảng trên. Giá trị xác suất p thực tế bằng 0, nên

mô hình nbreg tốt hơn mô hình poisson.