Upload
phungcong
View
222
Download
1
Embed Size (px)
Citation preview
1
Chương 12
Mô hình hóa dữ liệu số đếm: Các mô hình hồi quy
Poisson và nhị thức âm
Domadar N. Gujarati
(Econometrics by example, 2011).
Người dịch và diễn giải: Phùng Thanh Bình, MB (31/12/2017)
Trong nhiều trường hợp, biến phụ thuộc có dạng dữ liệu số đếm (count type),
chẳng hạn như số lần tham quan sở thú trong một năm nhất định, số bằng sang
chế công ty nhận được trong một năm, số lần đến nha sỹ một năm, số lần bị
phạt vì lái xe quá tốc độ trong một năm, số xe qua một trạm thu phí trong vòng
năm phút, … Biến cơ bản trong mỗi trường hợp là biến rời rạc, chỉ nhận một số
giá trị không âm xác định.
Đôi khi dữ liệu số đếm cũng bao gồm những các sự kiện hiếm xảy ra, chẳng
hạn như bị sét đánh trong một tuần, trúng Mega Lotto trong hai tuần liên tiếp,
bị một hoặc nhiều hơn vụ tai nạn giao thông trong một ngày, và số sắc lệnh mà
một tổng thống ban xuống cho tòa án tối cao trong một năm. Dĩ nhiên, chúng
ta có thể trích dẫn nhiều ví dụ hơn nữa về dữ liệu số đếm.
Một tính chất duy nhất của tất cả các ví dụ này là chúng nhận một số xác định
các giá trị là số nguyên không âm, hoặc đếm được. Không chỉ có thế, trong
nhiều trường hợp số đếm là 0 cho nhiều quan sát. Cũng lưu ý rằng mỗi ví dụ số
đếm được đo trong một quãng thời gian xác định. Để mô hình hóa các hiện
tượng như thế, chúng ta cần một phân phối xác suất có tính đến các tính chất
duy nhất của dữ liệu số đếm. Một phân phối như thế là phân phối xác suất
2
Poisson. Các mô hình hồi quy dựa trên phân phối xác suất này gọi là các mô
hình hồi quy Poisson (PRM). Một loại khác với PRM là mô hình hồi quy nhị thức
âm (NBRM – negative binomial regression model), loại mô hình này dựa trên
phân phối xác suất nhị thức âm, và được sử dụng để khắc phụ một số nhược
điểm của PRM. Tiếp theo chúng ta sẽ thảo luận PRM trước rồi xem xét NBRM.
12.1 Ví dụ minh họa
Trước khi chúng ta thảo luận các cơ chế của PRM, chúng ta hãy xem xét một
ví dụ cụ thể.
Số bằng phát minh và chi tiêu cho nghiên cứu và phát triển
Một chủ đề rất được quan tâm bởi nhiều sinh viên khi học môn tổ chức ngành
(industrial organization) là bản chất của mối quan hệ giữa số bằng phát minh
(patents) được nhận và chi tiêu cho nghiên cứu và phát triển (R&D) bởi các
công ty sản xuất. Để khám phá mối quan hệ này, Table 12.1 (có sẵn trên trang
web đồng hành cùng cuốn sách) đưa ra dữ liệu về số bằng phát minh được
nhận bởi một mẫu gồm 181 công ty sản xuất quốc tế và lượng tiền chi tiêu cho
R&D của các công ty này trong năm 19901. Bảng dữ liệu cũng có các biến giả
đại diện cho năm ngành công nghiệp chủ yếu: không gian, hóa chất, máy tính,
cơ khí và thiết bị, và xe mô tô; lương thực, dầu, kim loại và các ngành khác là
phân loại tham chiếu. Bảng này cũng có các biến giả quốc gia của hai cường
quốc là Nhật và Mỹ, nhóm so sánh là các nước Châu âu. Biến R&D được thể
hiện dạng log, vì các đồ thị của các ngành riêng lẻ dao động rất đáng kể.
Nếu bạn phân tích số liệu bằng phát minh thì bạn sẽ thấy chúng thay đổi đáng
kể, từ một mức thấp bằng 0 đến cao bằng 900. Nhưng hầu hết là ở phần thấp.
11 Các dữ liệu này lấy từ trang web của Marno Verbeek, A Guide to Modern Econometrics, 3rd edn, John Wiley & Sons, UK, 2008, nhưng nguồn dữ liệu gốc là: M. Cincera, Patents, R&D, and technological spillovers at the firm level: some evidence from econometric count models for panel data, Journal of Applied Econometrics, vol. 12, pp. 265 – 80. Dữ liệu có thể được tải về từ hệ thống lưu trữ của tạp chí Journal of Applied Econometrics.
3
Mục tiêu của chúng ta là xác định sự ảnh hưởng của R&D, phân loại ngành
công nghiệp và hai quốc gia lên số bằng phát minh trung bình được nhận bởi
181 công ty2. Như một khởi điểm, và cho các mục đích so sánh, giả sử chúng
ta chạy một mô hình hồi quy tuyến tính (LRM), tức hồi quy số bằng theo log của
R&D (LR90), năm biến giả ngành và hai biến giả quốc gia. Các kết quả hồi quy
OLS được trình bày trong Bảng 12.2.
[Bảng 12.2: Các ước lượng OLS của dữ liệu phát minh.
Như được kỳ vọng, có một mối quan hệ dương giữa số bằng phát minh và chi
tiêu cho nghiên cứu và phát triển, mối quan hệ này có ý nghĩa thống kê cao. Vì
biến R&D ở dạng log và biến bằng phát minh ở dạng tuyến tính, nên hệ số của
22 Nhớ lại rằng trong hầu hết các phân tích hồi quy, chúng ta cố gắng giải thích giá trị trung bình của biến phụ thuộc trong mối quan hệ với các biến giải thích.
4
R&D là 73.17 cho biết rằng nếu bạn tăng chi tiêu cho R&D thêm 1%, thì số bằng
phát minh trung bình sẽ tăng khoảng 0.73, khi các yếu tố khác được giữ nguyên
không đổi3.
Về các biến giả ngành, chỉ có các biến giả của ngành hóa chất và ngành sản
xuất xe là có ý nghĩa thống kê: So với phân loại tham chiếu, thì mức phát minh
trung bình mà ngành hóa chất nhận được cao hơn khoảng 42 bằng phát minh
và mức phát minh trung bình mà ngành sán xuất xe nhận được thấp hơn khoảng
192 bằng phát minh. Về các biến giả quốc gia, biến giả của Mỹ có ý nghĩa thống
kê, nhưng giá trị của nó là -77 cho biết rằng trung bình các công ty của Mỹ nhận
ít hơn 77 bằng phát minh so với nhóm cơ sở.
Tuy nhiên, hồi quy OLS có thể không phù hợp trong trường hợp này bởi vì số
bằng phát minh nhận được trên một công ty trong một năm thường nhỏ, mặc
dù một số công ty có được một số lượng lớn bằng phát minh. Điều này có thể
được thấy rõ ràng nếu chúng ta lập bảng dữ liệu thô (Bảng 12.3).
Bảng 12.3: Dữ liệu thông về bằng phát minh.
3 Nhớ lại thảo luận của chúng ta về các mô hình bán log ở chương 2.
5
Rõ ràng từ bảng này chúng ta thấy rằng số công ty nhận ít hơn 200 bằng phát
minh nổi trội hơn; thực sự còn ít hơn con số này. Điều này cũng có thể được
thấy trong đồ thị tần suất sau đây trong Hình 12.1.
Hình 12.1: Đồ thị tần suất của dữ liệu thô.
Đồ thị tần suất này cho thấy phân phối bị nghiên rất cao của dữ liệu thô, điều
này có thể được xác nhận bằng hệ số độ nghiêng, khoảng 3.3, và hệ số độ
nhọn, khoảng 14. Nhớ lại rằng đối với một biến có phân phối chuẩn thì hệ số độ
nghiêng bằng 0 và hệ số độ nhọn bằng 3. Thống kê Jarque-Bera (JB) rõ ràng
bác bỏ giả thuyết cho rằng số bằng phát minh có phân phối chuẩn. Nhớ lại rằng
trong các mẫu lớn thì thống kê JB theo phân phối Chi bình phương với bậc tự
do là 2. Trong trường hợp hiện tại, giá trị JB ước lượng bằng 1.308 là quá lớn
đến nổi xác suất để có được một giá trị bằng hoặc lớn hơn giá trị như thế thực
tế bằng 0.
Rõ ràng là chúng ta không thể sử dụng phân phối xác suất chuẩn để mô hình
hóa dữ liệu số đếm. Phân phối xác suất Poisson (PPD) thường được sử dụng
6
để mô hình hóa dữ liệu số đếm, đặc biệt là để mô hình hóa dữ liệu số đếm hiếm
thấy. Điều này được thực hiện như thế nào được giải thích dưới đây.
12.2 Mô hình hồi quy Poisson (PRM)
Nếu một biến ngẫu nhiên Y theo phân phối Poisson, thì hàm mật độ xác suất
(PDF) của nó được cho bởi:
Trong đó, f(Y|yi) biểu hiện xác suất mà biến ngẫu nhiên rời rạc Y nhận giá trị
nguyên không âm yi, và yi! (đọc là yi giai thừa) thể hiện y! = y.(y - 1).(y - 2). …
.2.1, với 0! = 1, và là tham số của phân phối Poisson. Lưu ý rằng phân phối
Poisson có một tham số duy nhất, , không giống phân phối chuẩn có hai tham
số, trung bình và phương sai.
Chúng ta có thể chứng minh rằng:
Một tính chất duy nhất của phân phối Poisson là trung bình và phương sai của
một biến theo phân phối Poisson là giống nhau. Tính chất này, được gọi là phân
tán bằng nhau (equidispersion), là một tính chất hạn chế của phân phối
Poisson, vì trong thực tế phương sai của các biến số đếm thường lớn hơn trung
bình của nó. Tính chất sau được gọi là quá phân tán (overdispersion).
Mô hình hồi quy Poisson có thể được viết như sau:
[
7
Trong đó, các y được phân phối độc lập như các biến ngẫu nhiên Poisson với
trung bình i cho mỗi cá nhân, được thể hiện như sau:
[[
Trong đó, exp(BX) có nghĩa là e lũy thừa biểu thức XB, với XB là dạng viết tắt
cho hồi quy bội như thấy trong dấu móc.
Các biến X là các biến giải thích mà chúng có thể xác định giá trị trung bình của
biến phụ thuộc. Vì thế, bởi tự bản thân nó, nó cũng xác định giá trị phương sai
nếu mô hình Poisson là phù hợp. Ví dụ, nếu biến số đếm của chúng ta là số lần
đến thăm sở thú Bronx ở New York trong một năm nhất định, thì con số này sẽ
phụ thuộc vào các biến như thu nhập của du khách, giá vé vào cửa, khoảng
cách từ bảo tàng, và phí đậu xe.
Lấp exp(XB) sẽ đảm bảo rằng giá trị trung bình của biến số đếm, , sẽ là số
dương.
Đối với các mục đích ước lượng, mô hình của chúng ta có thể được viết như
sau:
[[
Mô hình này là phi tuyến ở các tham số, nên cần thiết phải ước lượng hồi quy
phi tuyến. Điều này có thể đạt được bằng phương pháp hợp lý tối đa (ML).
Chúng ta sẽ không thảo luận chi tiết về ước lượng ML trong ngữ cảnh mô hình
hồi quy Poisson, vì các chi tiết thì hơi kỹ thuật và có thể được tìm thấy trong các
8
tài liệu tham khảo4. Tuy nhiên, một thảo luận suy nghiệm (heuristic discussion)
về ML được cho trong phụ lục cuối chương 1.
Trước hết chúng ta trình bày các giá trị ước lượng của dữ liệu về bằng phát minh
và sau đó thảo luận các kết quả và một số hạn chế của mô hình; xem Bảng
12.4.
Giá trị trung bình ước lượng của công ty thứ i vì thế là:
Chuyển hóa sang dạng log phương trình (12.7) chúng ta có:
Giải thích kết quả
Trước hết, lưu ý rằng các mô hình phi tuyến như PRM thì R2 không đặc biệt có
ý nghĩa. Thống kê LR (tỷ số hợp lý) mới là quan trọng. Giá trị này trong trường
hợp hiện tại là 21.482, có ý nghĩa cao bởi vì giá trị xác suất p của nó (hoặc mức
ý nghĩa chính xác) thực tế bằng 0. Điều này cho biết rằng các biến giải thích kết
hợp lại là quan trọng trong việc giải thích trung bình có điều kiện của số bằng
phát min, tức là i.
4 Một tài liệu tham khảo có thể tiếp cận được là: J. Scott Long, Regression Models for Categorical and Limited Dependent Variables, Sage Publications, Thousand Oaks, California, 1997.
9
Một cách khác để khẳng định điều này là so sánh hàm log-likelihood bị ràng
buộc với hàm log-likelihood không bị ràng buộc. Hàm log-likelihood bị ràng buộc
được ước lượng dưới giả thuyết rằng không có biến giải thích nào trong mô hình
ngoại trừ hệ số cắt, trong khi đó hàm log-likelihood không bị ràng buộc bao gồm
các biến giải thích. Vì LR bị ràng buộc là -15.822 và LR không bị ràng buộc là -
5.081, về mặc con số thì -5.081 lớn hơn (tức là ít âm hơn) -15.8225. Vì mục tiêu
của ML là tối đa hóa hàm khả năng, nên chúng ta nên chọn mô hình không bị
ràng buộc, nghĩa là mô hình bao gồm các biến giải thích như trong Bảng 12.4.
[Bảng 12.4: Mô hình Poisson của dữ liệu bằng phát minh (ước lượng ML).
5 Như thấy trong phụ lục ở chương 1, thống kê LR được tính bằng 2(ULLF - RLLF), trong đó ULLF và RLLF là các hàm log-likelihood không bị ràng buộc và bị ràng buộc. Thống kê LR theo phân phối Chi bình phương với số bậc
tự do bằng số ràng buộc đặt trong giả thuyết Ho: 7 trong ví dụ hiện tại. Đối với ví dụ của chúng ta, = 2[-5.081 – (-15.822)] = 21.482, đây là giá trị trong Bảng 12.4.
10
Bây giờ chúng ta hãy giải thích các hệ số ước lượng được cho trong phương
trình (12.8). Hệ số của LR90 là 0.86 cho biết rằng nếu chi tiêu cho nghiên cứu
và phát triển tăng 1%, thì số bằng phát minh trung bình mà một công ty nhận
được sẽ tang khoảng 0.86%, khi các yếu tố khác được giữ nguyên. (Lưu ý là
chi tiêu cho R&D được thể hiện ở dạng log). Nói cách khác, hệ số co giãn của
bằng phát minh nhận được theo chi tiêu cho nghiên cứu và phát triển là khoảng
0.86% [xem phương trình (12.8)].
Giải thích hệ số của biến giả machinces bằng 0.6464 như thế nào? Từ chương
2 chúng ta biết cách giải thích hệ số của biến giả trong một mô hình bán log
như thế nào. Số bằng phát minh trung bình trong ngành chế tạo máy cao hơn
khoảng 100[e0.6464 – 1] = 100[1.9086 – 1] = 90.86% so với phân loại so sánh.
Theo cách tương tự, hệ số của biến giả US là -0.4189 có nghĩa là số bằng phát
minh trung bình ở Mỹ thấp hơn khoảng 100[e-0.4189 – 1] = 100[0.6577 – 1] = -
34.23% so với nhóm cơ sở.
Nếu bạn phân tích các kết quả được cho trong Bảng 12.4, thì bạn sẽ thấy rằng,
ngoại trừ biến giả của Nhật, các biến khác đều có ý nghĩa thống kê cao.
Tác động biên của một biến giải thích
Một cách khác để giải thích các kết quả này là tìm tác động biên của một biến
giải thích lên giá trị trung bình của biến số đếm, tức số bằng phát minh trong ví
dụ của chúng ta.
Chúng ta có thể thấy rằng tác động biên của một biến giải thích liên tục, ví dụ
Xk, lên giá trị trung bình này là6:
6 Sử dụng quy tắc dây chuyền (hàm của hàm). Chúng ta có E(Y | X)/Xk = (eXB/XB).(XB/Xk) = eXBBk. Nhớ rằng đạo hàm của một hàm mũ cũng chính là hàm mũ đó.
11
Như phương trình (12.9) cho thấy tác động biên của một biến giải thích Xk phụ
thuộc không chỉ vào hệ số của nó (Bk) mà còn giá trị của Y (= P90), và giá trị Y
này phụ thuộc vào các giá trị của tất cả các biến giải thích trong mô hình. Vì
chúng ta có 181 quan sát, nên chúng ta sẽ phải thực hiện tính toán này cho mỗi
quan sát. Dĩ nhiên đây là một việc mất thì giờ. Trong thực tế, tác động biên được
tính tại các giá trị trung bình của các biến giải thích. Stata và các phần mềm
thống kê khác có sẵn các lệnh để tính toán tác động biên của các biến liên tục.
Còn việc tính tác động biên của một biến giả thì sao?
Vì một biến giả nhận các giá trị 1 và 0, nên chúng ta không thể lấy vi phân i
theo biến giả. Tuy nhiên, chúng ta có thể tính thay đổi phần tram trong số bằng
phát minh trung bình bằng cách xem xét mô hình khi biến giả nhận giá trị 1 và
khi nó nhận giá trị 07.
[
Tính các xác suất
Chúng ta tính xác suất để có được, ví dụ, m bằng phát minh khi cho trước các
giá trị của các biến giải thích như thế nào? Xác suất này có thể có được từ
phương trình (12.6) như sau:
Về nguyên tắc, chúng ta có thể tính các xác suất như thế cho mỗi quan sát cho
mỗi giá trị m hoặc cho một m cụ thể. Dĩ nhiên, đây làm một việc tính toán chán
ngắt. Phần mềm như Stata có thể tính các xác suất này tương đối dễ dàng.
7 Để biết chi tiết, xem Long op cit.
12
12.3 Hạn chế của mô hình Poisson
Các kết quả hồi quy Poisson về bằng phát minh và chi tiêu cho nghiên cứu và
phát triển được cho trong Bảng 12.4 không nên được chấp nhận ở giá trị bên
ngoài (face value). Các sai số chuẩn của các hệ số ước lượng được cho trong
bảng đó là hợp lý chỉ nếu giả định phân phối Poisson làm nền tảng cho mô hình
ước lượng là đúng. Vì PPD giả định rằng trung bình có điều kiện và phương sai
có điều kiện của phân phối, khi cho trước các giá trị của các biến giải thích X,
là giống nhau, nên điều quan trọng là chúng ta phải kiểm tra giả định này: giả
định phân tán bằng nhau (equidispersion).
Nếu có quá phân tán, thì các giá trị ước lượng PRM, mặc dù nhất quán, là không
hiệu quả với các sai số chuẩn bị chệch thấp xuống (downward biased). Nếu
đúng là như thế, thì các giá trị Z ước lượng bị phóng đại, vì thế ước lượng quá
mức ý nghĩa thống kê của các hệ số ước lượng.
Sử dụng một thủ tục được đề xuất bởi Cameron và Trevidi, được tích hợp trong
Eviews, thì giả định phân tán bằng nhau có thể được kiểm định như sau:
1. Ước lượng mô hình hồi quy Poisson, như trong Bảng 12.4, và thu giá trị
ước lượng của biến phụ thuộc, 𝑃90̂𝑖.
2. Lấy giá trị thực P90 trừ giá trị ước lượng 𝑃90̂𝑖, để thu được phần dư ei =
P90i - 𝑃90̂𝑖.
3. Bình phương phần dư, và lấy phần dư bình phương này trừ cho P90, tức
là 𝑒𝑖2 – P90i.
4. Hồi quy kết quả từ bước 3 theo 𝑃90̂𝑖2.
5. Nếu hệ số hồi quy trong phương trình này có ý nghĩa thống kê, chúng ta
bác bỏ giả thuyết phân tán bằng nhau. Trong trường hợp đó chúng ta bác
bỏ mô hình Poisson.
6. Nếu hệ số hồi quy trong bước 4 là dương và có ý nghĩa thống kê, thì đó
là trường hợp quá phân tán. Nếu nó là âm, thì đó là dưới phân tán (under-
13
dispersion). Trong bất kỳ trường hợp nào, chúng ta đều bác bỏ mô hình
Poisson. Tuy nhiên, nếu hệ số này không có ý nghĩa thống kê thì chúng
ta không cần bác bỏ mô hình hồi quy Poisson.
Bảng 12.6: Kiểm định phân tán bằng nhau của mô hình Poisson.
Sử dụng thủ tục này, chúng ta có được kết quả trong Bảng 12.6. Vì hệ số dốc
trong hồi quy này là dương và có ý nghĩa thống kê, nên chúng ta có thể bác bỏ
giả định Poisson về phân tán bằng nhau. Thực sự, các kết quả cho thấy có hiện
tượng quá phân tán8. Vì thế, các sai số chuẩn được báo cáo trong Bảng 12.4 là
không thể tin cậy, thực sự chúng ước lượng thấp các sai số chuẩn thực.
Có hai cách để hiệu chỉnh các sai số chuẩn trong Bảng 12.4: một là sử dụng
phương pháp ước lượng tựa như hợp lý tối đa (QMLE – quasi-maximum
likelihood estimation) và hai là phương pháp mô hình tuyến tính tổng quát (GLM
– generalized linear model). Công thức toán đằng sau các phương pháp này thì
phức tạp, nên chúng ta sẽ không theo đuổi ở đây. Nhưng chúng ta sẽ báo cáo
các sai số chuẩn được tính bằng hai phương pháp này cùng với các sai số
chuẩn trong Bảng 12.4, vì thế bạn đọc có thể thấy những khác biệt trong các
8 Kiểm định này cũng phù hợp cho trường hợp dưới phân tán, trong đó hệ số dốc sẽ là âm. Nghĩa là, phương sai có điều kiện nhỏ hơn trung bình có điều kiện, điều này cũng vi phạm giả định của Poisson.
14
sai số chuẩn được ước lượng. Trong tất cả các trường hợp thì các giá trị ước
lượng của các hệ số hồi quy là giống nhau, như trong Bảng 12.4.
Bảng 12.6: So sánh các sai số chuẩn theo MLE, QMLE, và GLM của vì dụ về
bằng phát minh.
Nhưng trước khi chúng ta làm điều đó, có lẽ cần lưu ý rằng mặc dù QMLE có
cải thiện (robust) sai dạng mô hình tổng thể của phân phối có điều kiện của
biến phụ thuộc, tức P90 trong ví dụ hiện tại, nhưng nó không sở hữu các tính
chất về hiệu quả, trong khi đó GLM hiệu chỉnh một cách trực tiếp hiện tượng
quá phân tán và vì thế có thể tin cậy được.
15
Như bạn có thể thấy từ Bảng 12.6, các sai số chuẩn được trình bày trong Bảng
12.4, có được theo phương pháp hợp lý tối đa, ước lượng thấp đáng kể các sai
số chuẩn, và vì thế phóng đại các giá trị Z rất nhiều. Hai phương pháp khác cho
thấy rằng trong nhiều trường hợp các biến giải thích không có ý nghĩa thống kê,
vì thế cho thấy mức độ mà MLE ước lượng thấp các sai số chuẩn.
Điểm chính cần lưu ý là nếu chúng ta sử dụng mô hình hồi quy Poisson thì nên
kiểm định giả định phân tán bằng nhau, nhưng trong Bảng 12.5. Nếu kiểm định
cho thấy có hiện tượng quá phân tán, thì chúng ta nến ít nhất là điều chỉnh các
sai số chuẩn bằng phương pháp QMLE và GLM.
Nếu giả định phân tán bằng nhau làm nền tảng cho mô hình hồi quy Poisson
không thỏa mãn, và thậm chí nếu chúng ta điều chỉnh các sai số chuẩn thu
được từ phương pháp ML, nhưng trong Bảng 12.6, thì có lẽ tốt hơn là tìm kiếm
các mô hình thay thế cho mô hình hồi quy Poisson. Một mô hình thay thế như
vậy là mô hình hồi quy nhị thức âm (NBRM – negative binomial regression
model), dựa trên phân phối xác suất nhị thức âm (NBPD – negative binomial
probability distribution)9.
12.4 Mô hình hồi quy nhị thức âm (NBRM)
Giả định bằng nhau giữa trung bình và phương sai của một biến ngẫu nhiên
theo phân phối Poisson là một hạn chế chính của mô hình hồi quy Poisson. Đối
với NBPD, chúng ta có thể thấy rằng:
9 Tham khảo bất cứ giáo trình chuẩn nào về xác suất để học thêm về phân phối xác suất nhị thức âm. Đủ để nói ở đây là trong phân phối xác suất nhị thức chúng ta tìm số lần thành công, r, trong n phép thử, ở đó xác suất thành công là p. Trong phân phân phối xác suất nhị thức âm chúng ta tìm số lần thất bại trước thành công thứ r trong n phép thử, ở đó xác suất thành công là p.
16
Trong đó, 2 là phương sai, là trung bình và r là tham số của mô hình10.
Phương trình (12.11) cho thấy rằng đối với NBPD thì phương sai luôn lớn hơn
trung bình, trái với PDF Poisson trong đó trung bình bằng phương sai. Đáng nói
thêm rằng khi r thì p 1 thì NBPD tiếp cận đến PDF Poisson, giả sử rằng
trung bình là cố định. Lưu ý: p là xác suất thành công. [Lưu ý: 1/r còn gọi là
alpha trong kết quả hồi quy với Stata].
Bởi vì tính chất (12.11), mà NBPD thích hợp đối với dữ liệu số đếm hơn là phân
phối xác suất Poisson.
Bảng 12.7: Ước lượng NBRM cho dữ liệu bằng phát minh.
10 Đối với NBPD các tham số là p (xác suất thành công) và r (số lần thành công), các tham số giống như trong PDF nhị thức.
17
Sử dụng Eviews 6, chúng ta có được Bảng 12.7. Nếu bạn so sánh các kết quả
này của hồi quy nhị thức âm được cho trong bảng 12.7 với các kết quả hồi quy
Poisson trong Bảng 12.4, thì bạn sẽ lại thấy những khác biệt trong các sai số
chuẩn ước lượng.
Nhân tiện, tham số hình dáng (shape parameter, tức lnalpha trong kết quả hồi
quy Stata) được cho trong bảng đưa ra một giá trị ước lượng của mức độ mà
phương sai có điều kiện lớn hơn trung bình có điều kiện. Tham số hình dáng
bằng log của phương sai, log(i), nghĩa là, log(0.2519). Lấy anti-log con số này,
chúng ta được 1.2864, điều này cho biết rằng phương sai có điều kiện lớn hơn
trung bình có điều kiện khoảng 0.28. [Xem lnalpha và alpha trong bảng kết quả
hồi quy mô hình NBRM trên Stata].
[[
12.5 Tóm tắt và kết luận
Trong chương này chúng ta đã thảo luận mô hình hồi quy Poisson, mô hình
thường được sử dụng để mô hình hóa dữ liệu số đếm. Mô hình hồi quy Poisson
dựa trên phân phối xác suất Poisson. Một tính chất duy nhất của phân phối
Pisson là trung bình và phương sai của một biến theo phân phối Poisson là
bằng nhau. Điều này cũng là một tính chất hạn chế của phân phối xác suất
Poisson.
Chúng ta đã sử dụng dữ liệu về bằng phát minh của 181 công ty sản xuất năm
1990 về số bằng phát minh mà mỗi công ty nhận được cùng với các thông tin
về chi tiêu cho nghiên cứu và phát triển của các công ty này, ngành mà ở đó
các công ty này hoạt động (đại diện bằng các biến giả) và các biến giả về hai
cường quốc công nghiệp là Nhật và Mỹ.
Là một mô hình phi tuyến, chúng ta ước lượng mô hình hồi quy Poisson theo
phương pháp hợp lý tối đa. Ngoại trừ biến giả Nhật Bản, tất cả các biến khác
đều có ý nghĩa thống kê.
18
Nhưng các kết quả này có thể không tin cậy bởi vì giả định hạn chế của phân
phối xác suất Poisson là trung bình và phương sai của nó bằng nhau. Trong
hầu hết các ứng dụng thực tế của mô hình hồi quy Poisson thì phương sai có
xu hướng lớn hơn trung bình. Đây là trường hợp mà chúng ta gọi là hiện tượng
quá phân tán.
Chúng ta sử dụng một kiểm định được đề xuất bởi Cameron và Trevidi để kiểm
định hiện tượng quá phân tán và phát hiện thấy rằng dữ liệu về bằng phát minh
thực sự có hiện tượng quá phân tán.
Để điều chỉnh hiện tượng quá phân tán, chúng ta sử dụng các phương pháp
ước lượng tựa như hợp lý tối đa (QMLE) và mô hình tuyến tính tổng quát (GLM).
Cả hai phương pháp này điều chỉnh các sai số chuẩn của mô hình hồi quy
Poisson, được ước lượng bằng phương pháp hợp lý tối đa (ML). Bởi vì các điều
chỉnh này, chúng ta phát hiện ra rằng nhiều sai số chuẩn trong mô hình hồi quy
Poisson được ước lượng thấp đáng kể, dẫn đến phóng đại ý nghĩa thống kê của
các hệ số hồi quy. Trong vài trường hợp, các biến giải thích được phát hiện là
không có ý nghĩa thống kê, trái với các giá trị ước lượng của mô hình hồi quy
Poisson gốc.
Vì các kết quả của chúng ta cho thấy có hiện tượng quá phân tán, nên chúng
ta sử dụng một mô hình thay thế, đó là mô hình hồi quy nhị thức âm (NBRM).
Một lợi thế của mô hình NBRM là nó cho phép hiện tượng quá phân tán và cũng
cung cấp một ước lượng trực tiếp mức độ quá phân tán của phương sai (tức là
phương sai lớn hơn trung bình bao nhiêu). Các kết quả của mô hình hồi quy nhị
thức âm cho thấy rằng các sai số chuẩn của mô hình hồi quy Poisson gốc bị
ước lượng thấp trong nhiều trường hợp./.
19
Hướng dẫn Stata (😊)
[
IRR nghĩa là eBk. Ví dụ, hệ số của machines ~ 1.9086, ta có 100*[1.9086 – 1] =
90.86%, nghĩa là ngành chế tạo máy có số bằng phát minh trung bình cao hơn
nhóm cơ sở là 90.86%.
20
[
Bảng 12.5
quietly poisson p90 lr90 aerosp chemist computer machines vehicles japan us
predict p90_hat
gen p90_hat2 = p90_hat^2
gen e = p90 - p90_hat
gen e2 = e^2
gen diff = e2 - p90
reg diff p90_hat2, nocons
21
22
Kiểm định quá phân tán (Long & Freese, Chapter 9, p. 511)
quietly nbreg p90 lr90 aerosp chemist computer machines vehicles japan us, nolog
estimates store nbreg
quietly poisson p90 lr90 aerosp chemist computer machines vehicles japan us, nolog
estimates store poisson
lrtest nbreg poisson, force
Likelihood-ratio test LR chi2(1) = 8491.76
(Assumption: poisson nested in nbreg) Prob > chi2 = 0.0000
Lưu ý: LR chi2(1) chính là chibar2(01) trong kết quả hồi quy của mô hình hồi
quy nhị thức âm (nbreg) ở hai bảng trên. Giá trị xác suất p thực tế bằng 0, nên
mô hình nbreg tốt hơn mô hình poisson.