63
STATA 学学学学 第6第 第第

STATA 学习系列 第 6 讲 贾明

  • Upload
    maris

  • View
    310

  • Download
    49

Embed Size (px)

DESCRIPTION

STATA 学习系列 第 6 讲 贾明. STATA 学习系列. Regress 部分 ( 续 )- 回归诊断分析 1.Census 数据实际操作处理 ( 分析模型 ) 2.Auto 数据回归诊断分析 ( 图象分析方法 ) 3.Exdata 数据分析实际应用. 基本的数据转换 :excel stata. 1. 将 excel 数据导入 stata 第一步 : 将 excel 文件另存为用 制表符隔开 的 txt 文件 ; 第二步 : 用命令 : insheet using d:\stata/name.txt; - PowerPoint PPT Presentation

Citation preview

Page 1: STATA 学习系列  第 6 讲 贾明

STATA 学习系列

第 6 讲

贾明

Page 2: STATA 学习系列  第 6 讲 贾明

STATA 学习系列

Regress 部分 ( 续 )- 回归诊断分析

1.Census 数据实际操作处理 ( 分析模型 )

2.Auto 数据回归诊断分析 ( 图象分析方法 )

3.Exdata 数据分析实际应用

Page 3: STATA 学习系列  第 6 讲 贾明

基本的数据转换 :excel stata

1. 将 excel 数据导入 stata 第一步 : 将 excel 文件另存为用制表符隔开的 txt 文件 ; 第二步 : 用命令 : insheet using d:\stata/name.txt;2. 将 stata 数据导出用 excel 打开 第一步 :outsheet using d:/stata\name .out( 生成文

件位置 ) 第二步 : 用 excel 打开 .out 文件即可 .

Page 4: STATA 学习系列  第 6 讲 贾明

1.Census 数据实际操作处理Use d:/stata/census1. 数据说明 :

. describe Contains data from d:\stata/census.dta obs: 50 1980 Census data by state vars: 12 6 Jul 2000 17:06 size: 3,000 (99.4% of memory free) ------------------------------------------------------------------------------- storage display value variable name type format label variable label ------------------------------------------------------------------------------- state str14 %-14s State region int %-8.0g cenreg Census region pop long %12.0gc Population poplt5 long %12.0gc Pop, < 5 year pop5_17 long %12.0gc Pop, 5 to 17 years pop18p long %12.0gc Pop, 18 and older pop65p long %12.0gc Pop, 65 and older popurban long %12.0gc Urban population medage float %9.2f Median age death long %12.0gc Number of deaths marriage long %12.0gc Number of marriages divorce long %12.0gc Number of divorces -------------------------------------------------------------------------------

Page 5: STATA 学习系列  第 6 讲 贾明

1.Census 数据 , 对模型分析

数据分析目的 :

研究—— 死亡率 (drate) 与 medage,medagesq,pcturban( 城

市人口率 ) 之间的线性关系

Page 6: STATA 学习系列  第 6 讲 贾明

1.Census 数据 , 对模型分析 基本数据处理 , 生成模型中需要的变量 :

. gen pcturban= popurban/ pop

. gen drate= death/ pop

. gen medagesq= medage* medage

Page 7: STATA 学习系列  第 6 讲 贾明

1.Census 数据 , 对模型分析 . regress drate medage medagesq pcturban

Source | SS df MS Number of obs = 50 -------------+------------------------------ F( 3, 46) = 31.47 Model | .00005593 3 .000018643 Prob > F = 0.0000 Residual | .000027249 46 5.9236e-07 R-squared = 0.6724 -------------+------------------------------ Adj R-squared = 0.6510 Total | .000083179 49 1.6975e-06 Root MSE = .00077

------------------------------------------------------------------------------ drate | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- medage | .0004851 .001207 0.40 0.690 -.0019446 .0029147 medagesq | 2.37e-06 .0000206 0.12 0.909 -.000039 .0000437 pcturban | -.0035348 .0008293 -4.26 0.000 -.0052042 -.0018655 _cons | -.005598 .0178979 -0.31 0.756 -.0416246 .0304286 ------------------------------------------------------------------------------

Page 8: STATA 学习系列  第 6 讲 贾明

1.Census 数据 , 对模型分析 注意 medage 和 med

agesq 的系数 . test medage medagesq

( 1) medage = 0.0 ( 2) medagesq =

0.0

F( 2, 46) = 44.03 Prob > F = 0.0000

. test medage=2*medagesq

( 1) medage - 2.0 medagesq = 0.0

F( 1, 46) = 0.15 Prob > F = 0.7021

. test medage=200*medagesq

( 1) medage - 200.0 medagesq = 0.0

F( 1, 46) = 0.00 Prob > F = 0.9982

Page 9: STATA 学习系列  第 6 讲 贾明

1.Census 数据 , 对模型分析 . vce

| medage medagesq pcturban _cons -------------+------------------------------------ medage | 1.5e-06 medagesq | -2.5e-08 4.2e-10 pcturban | 3.2e-07 -5.7e-09 6.9e-07 _cons | -.000022 3.7e-07 -5.0e-06 .00032

. vce,rho

| medage medagesq pcturban _cons -------------+------------------------------------ medage | 1.0000 medagesq | -0.9985 1.0000 pcturban | 0.3235 -0.3352 1.0000 _cons | -0.9984 0.9942 -0.3385 1.0000

Page 10: STATA 学习系列  第 6 讲 贾明

1.Census 数据 , 对模型分析

. regress drate medage pcturban

Source | SS df MS Number of obs = 50 -------------+------------------------------ F( 2, 47) = 48.22 Model | .000055922 2 .000027961 Prob > F = 0.0000 Residual | .000027256 47 5.7993e-07 R-squared = 0.6723 -------------+------------------------------ Adj R-squared = 0.6584 Total | .000083179 49 1.6975e-06 Root MSE = .00076

------------------------------------------------------------------------------ drate | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- medage | .0006238 .0000658 9.48 0.000 .0004915 .0007562 pcturban | -.0035028 .0007731 -4.53 0.000 -.0050581 -.0019476 _cons | -.0076466 .0019034 -4.02 0.000 -.0114756 -.0038175 ------------------------------------------------------------------------------

Page 11: STATA 学习系列  第 6 讲 贾明

1.Census 数据 , 对模型分析 对回归模型进行估计 :. predict dhat (option xb assumed; fitted values)

. summarize drate dhat

Variable | Obs Mean Std. Dev. Min Max -------------+----------------------------------------------------- drate | 50 .008436 .0013029 .0039915 .0106902 dhat | 50 .008436 .0010683 .0044936 .0110485

Page 12: STATA 学习系列  第 6 讲 贾明

1.Census 数据 , 对模型分析 影响因素分析 : . predict influs,cooksd ( cook’sd 用来衡量每个收集到的数值对回归系数的影响强度。) . summarize influs,detail

Cook's D ------------------------------------------------------------- Percentiles Smallest 1% 1.35e-08 1.35e-08 5% 6.25e-06 4.54e-06 10% .0000502 6.25e-06 Obs 50 25% .0010358 .0000109 Sum of Wgt. 50

50% .0043872 Mean .0639731 Largest Std. Dev. .2560158 75% .0200719 .1914291 90% .0610564 .3090287 Variance .0655441 95% .3090287 .5059252 Skewness 5.857965 99% 1.735909 1.735909 Kurtosis 38.08436

Page 13: STATA 学习系列  第 6 讲 贾明

1.Census 数据 , 对模型分析

list state if influ >4/50(>4/n) state 2. Alaska 9. Florida 11. Hawaii 44. Utah . lvr2plot,s([state]) trim (12) border ( 图象 )

Page 14: STATA 学习系列  第 6 讲 贾明

Lev

erag

e

Normalized residual squared1.7e-08 .212856

.025145

.618882

Alabama

Alaska

ArizonaArkansas

California

ColoradoConnecticut

Delaware

Florida

Georgia

Hawaii

Idaho Illinois

IndianaIowaKansasKentucky

LouisianaMaineMaryland

Massachusett

MichiganMinnesota

Mississippi

MissouriMontanaNebraska

NevadaNew Hampshir

New Jersey

New MexicoNew York

N. CarolinaN. Dakota

OhioOklahomaOregon

PennsylvaniaRhode Island

S. CarolinaS. Dakota

Tennessee

Texas

Utah

Vermont

VirginiaWashington

W. Virginia

Wisconsin

Wyoming

Page 15: STATA 学习系列  第 6 讲 贾明

1.Census 数据 , 对模型分析 . regress drate medage medagesq pcturban if influs<1

Source | SS df MS Number of obs = 49 -------------+------------------------------ F( 3, 45) = 30.43 Model | .000050006 3 .000016669 Prob > F = 0.0000 Residual | .000024651 45 5.4780e-07 R-squared = 0.6698 -------------+------------------------------ Adj R-squared = 0.6478 Total | .000074657 48 1.5553e-06 Root MSE = .00074

------------------------------------------------------------------------------ drate | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- medage | .0028685 .0015954 1.80 0.079 -.0003448 .0060817 medagesq | -.0000364 .0000266 -1.37 0.178 -.0000899 .0000172 pcturban | -.0037377 .0008029 -4.66 0.000 -.0053549 -.0021205 _cons | -.0420036 .023994 -1.75 0.087 -.0903301 .0063229 ------------------------------------------------------------------------------

Page 16: STATA 学习系列  第 6 讲 贾明

2.Auto 数据回归诊断分析 ( 图象分析 )

Three key issues in identifying model sensitivity to dindividual observations.

1.Residual

2.Leverage:small residual,but if u delete the point,the estimates would change markedly,such a point is said to have high leverage.

3.influential:we might ask which points in our data have a large effect on our estimated a or b etc.

Page 17: STATA 学习系列  第 6 讲 贾明

2.Auto 数据回归诊断分析 ( 图象分析 )

. use d:/stata\auto . describe Contains data from d:/stata\auto.dta obs: 74 1978 Automobile Data vars: 12 7 Jul 2000 13:51 size: 3,478 (99.4% of memory free) ------------------------------------------------------------------------------- storage display value variable name type format label variable label ------------------------------------------------------------------------------- make str18 %-18s Make and Model price int %8.0gc Price mpg int %8.0g Mileage (mpg) rep78 int %8.0g Repair Record 1978 headroom float %6.1f Headroom (in.) trunk int %8.0g Trunk space (cu. ft.) weight int %8.0gc Weight (lbs.) length int %8.0g Length (in.) turn int %8.0g Turn Circle (ft.) displacement int %8.0g Displacement (cu. in.) gear_ratio float %6.2f Gear Ratio foreign byte %8.0g origin Car type ------------------------------------------------------------------------------- Sorted by: foreign

Page 18: STATA 学习系列  第 6 讲 贾明

2.Auto 数据回归诊断分析 ( 图象分析 )

分析目的 : 汽车价格 price 与汽车里程 mpg, 重量 weight,

产地 foreign 以及产地和里程相互关系 forxmpg 之间的关系

Page 19: STATA 学习系列  第 6 讲 贾明

2.Auto 数据回归诊断分析 ( 图象分析 )

. gen forxmpg= foreign* mpg . regress price weight mpg forxmpg foreign Source | SS df MS Number of obs = 74 -------------+------------------------------ F( 4, 69) = 21.22 Model | 350319665 4 87579916.3 Prob > F = 0.0000 Residual | 284745731 69 4126749.72 R-squared = 0.5516 -------------+------------------------------ Adj R-squared = 0.5256 Total | 635065396 73 8699525.97 Root MSE = 2031.4

------------------------------------------------------------------------------ price | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- weight | 4.613589 .7254961 6.36 0.000 3.166264 6.060914 mpg | 263.1875 110.7961 2.38 0.020 42.15527 484.2197 forxmpg | -307.2166 108.5307 -2.83 0.006 -523.7294 -90.70369 foreign | 11240.33 751.681 4.08 0.000 5750.878 16729.78 _cons | -14449.58 4425.72 -3.26 0.002 -23278.65 -5620.51 ------------------------------------------------------------------------------

Page 20: STATA 学习系列  第 6 讲 贾明

2.Auto 数据回归诊断分析 ( 图象分析 )

. vce,rho

_cons | weight mpg forxmpg foreign -------------+--------------------------------------------- weight | 1.0000 mpg | 0.8408 1.0000 forxmpg | -0.5594 -0.7695 1.0000 foreign | 0.6431 0.7747 -0.9715 1.0000 _cons | -0.9611 -0.9536 0.6861 -0.7407 1.0000

Page 21: STATA 学习系列  第 6 讲 贾明

2.Auto 数据回归诊断分析 ( 图象分析 )

Rvfplot: graphs a residual-versus-fitted plot, a graph of the residuals versus the fitted values.

Page 22: STATA 学习系列  第 6 讲 贾明

rvfplot,border yline(0)R

esid

ual

s

Fitted values1224.13 11952.8

-3312.97

7271.96

Page 23: STATA 学习系列  第 6 讲 贾明

2.Auto 数据回归诊断分析 ( 图象分析 )

图象分析 : 1.price 和自变量之间存在线性关系 2.residuals 表现出一定的增加或者减少的特

征 ------ 异方差 (heteroskedasticity):the increasing or decreasing variation in the residuals with fitted values( 拟合值 ).

Page 24: STATA 学习系列  第 6 讲 贾明

对图象检验分析 ovtest: 检查是否忽略掉了变量 ovtest

Ramsey RESET test using powers of the fitted values of price

Ho: model has no omitted variables F(3, 66) = 7.77 Prob > F = 0.0002 说明存在忽略变量

Page 25: STATA 学习系列  第 6 讲 贾明

2.Auto 数据回归诊断分析 ( 图象分析 )

. hettest

Cook-Weisberg test for heteroskedasticity using fitted values of price

Ho: Constant variance chi2(1) = 6.50 Prob > chi2 = 0.0108

说明存在异方差

Page 26: STATA 学习系列  第 6 讲 贾明

2.Auto 数据回归诊断分析 ( 图象分析 )

lvr2plot :graphs a leverage-versus-squared residual plot,a graph of leverage against the (normalized) redisuals squared.

Page 27: STATA 学习系列  第 6 讲 贾明

. lvr2plot,border

Lev

erag

e

Normalized residual squared1.4e-06 .185714

.019285

.358152

Page 28: STATA 学习系列  第 6 讲 贾明

. lvr2plot,s([make]) trim (12) border

Page 29: STATA 学习系列  第 6 讲 贾明

2.Auto 数据回归诊断分析 ( 图象分析 )

分析 :

VW Diesel 是数据中唯一的柴油发动机 , 而 Plym. Arrow 的数据输入错误 .( 用这个方法检验数据 ).

Page 30: STATA 学习系列  第 6 讲 贾明

2.Auto 数据回归诊断分析 ( 图象分析 )

avplot graphs an added-variable plot (a.k.a. partial-regression leverage plot, a.k.a. partial regression plot, a.k.a. adjusted partial residual plot) after regression.

Page 31: STATA 学习系列  第 6 讲 贾明

2.Auto 数据回归诊断分析 ( 图象分析 )

Added-variable plot 图象的三个属性 :1. 图象中是针对每个 Xi 与 Y 做出的 , 数据还是

原始数据 ;2. 图象中的直线的斜率和回归模型中 Xi 的系数

相同 , 同时标准误也和原回归模型一样 ;3. 在原回归模型中影响斜率的每个变量的 outli

erness( 观察值不在拟合直线上的点 ) 保留下来 .

Page 32: STATA 学习系列  第 6 讲 贾明

. avplot mpg,bordercoef = 263.18749, se = 110.79612, t = 2.38

e( p

rice

| X

)

e( mpg | X )-3.00303 7.85861

-3044.28

6754.88

Page 33: STATA 学习系列  第 6 讲 贾明

. avplot mpg,border s([make])coef = 263.18749, se = 110.79612, t = 2.38

e( p

rice

| X

)

e( mpg | X )-3.00303 7.85861

-3044.28

6754.88

Linc. Ve

AMC Pace

Cad. Eld

Merc. MaMerc. Ze

Ford Mus

Renault Dodge Ma

Honda Ci

VW Rabbi

Fiat Str

Merc. Bo

Audi Fox

Chev. Im

Plym. Vo

VW Sciro

Merc. Co

AMC Spir

Merc. Mo

Pont. Le

Pont. Gr

Merc. XR

VW Dashe

Toyota CPont. Fi

Plym. Ho

Olds Cut

Olds Cut

Buick Ri

Buick ElMazda GL

Olds Ome

Dodge StDatsun 5

Buick Sk

Honda Ac

Dodge Di

Pont. Ph

Cad. Dev

Chev. No

Buick Ce

Ford Fie

Datsun 2

Linc. Ma

Buick ReAMC Conc

Olds Tor

Buick Le

Buick Op

Olds Del

Pont. Ca

Toyota C

Linc. Co

Pont. SuDatsun 2

Toyota C

Audi 500

Olds Sta

Chev. MoSubaru

Chev. Ma

Datsun 8

Chev. Mo

Plym. Sa

BMW 320i

VW Diese

Chev. Ch

Volvo 26Peugeot Dodge Co

Olds 98

Plym. Ch

Cad. Sev

Plym. Ar

Page 34: STATA 学习系列  第 6 讲 贾明

2.Auto 数据回归诊断分析 ( 图象分析 )

说明 :Cadillac Eldorado ,Lincoln ver,Cadillac Seville 这三个数据很突出 . 而这三种车占据了 100% 的奢侈型车的市场 . 从而说明原来的模型是不恰当的 (misspecified). 而右下脚的 Plymouth Arrow 前面说过了 , 数据输入错误 .

Page 35: STATA 学习系列  第 6 讲 贾明

2.Auto 数据回归诊断分析 ( 图象分析 )

avplots graphs all the added-variable plots in a single image.

通过这个命令来在一张表格里面看 y 与每个 xi 的关系 , 进一步的分析回归模型 , 并对原始数据进行检查 .

Page 36: STATA 学习系列  第 6 讲 贾明

coef = 4.6135886, se = .7254961, t = 6.36e(

pri

ce |

X)

e( weight | X )-516.478 1123.52

-3033.25

10219.8

coef = 263.18749, se = 110.79612, t = 2.38

e( p

rice

| X

)

e( mpg | X )-3.00303 7.85861

-3044.28

6754.88

coef = -307.21656, se = 108.53072, t = -2.83

e( p

rice

| X

)

e( forxmpg | X )-6.43913 4.51175

-3139.96

6535.39

coef = 11240.331, se = 2751.6808, t = 4.08

e( p

rice

| X

)

e( foreign | X )-.13765 .288758

-3332.07

7184.12

Page 37: STATA 学习系列  第 6 讲 贾明

2.Auto 数据回归诊断分析 ( 图象分析 )

Avplot(s) 对于分析 outliers 很适用 , 但是不能用于分析变量间的函数关系 .

Cprplot(component-plus-residual plot) 不能分析 outliers, 但是可以用来检查估计模型的函数形式 ( 直线 ? 曲线 ?).

相同点 : 两个图象中的直线斜率都是模型中的系数 .

Page 38: STATA 学习系列  第 6 讲 贾明

2.Auto 数据回归诊断分析 ( 图象分析 )

重新构建模型 : . regress price mpg weight

Source | SS df MS Number of obs = 74 -------------+------------------------------ F( 2, 71) = 14.74 Model | 186321280 2 93160639.9 Prob > F = 0.0000 Residual | 448744116 71 6320339.67 R-squared = 0.2934 -------------+------------------------------ Adj R-squared = 0.2735 Total | 635065396 73 8699525.97 Root MSE = 2514.0

------------------------------------------------------------------------------ price | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- mpg | -49.51222 86.15604 -0.57 0.567 -221.3025 122.278 weight | 1.746559 .6413538 2.72 0.008 .467736 3.025382 _cons | 1946.069 3597.05 0.54 0.590 -5226.244 9118.382 ------------------------------------------------------------------------------

Page 39: STATA 学习系列  第 6 讲 贾明

. cprplot mpg,border c(s) bands(13)

e( p

rice

| X

,mp

g )

+ b

*m

pg

Mileage (mpg)

Residuals Linear prediction

12 41

-4223.68

6467.19

Page 40: STATA 学习系列  第 6 讲 贾明

2.Auto 数据回归诊断分析 ( 图象分析 )

Acprplot(augmented component –plus-redisual plot) 对检查非线性更加敏感 .

Page 41: STATA 学习系列  第 6 讲 贾明

. acprplot mpg,border c(s) bands (13)

Au

gm

ente

d c

om

pon

ent

plu

s re

sid

ual

Mileage (mpg)

Residuals Linear prediction

12 41

-15384.9

-3780.32

Page 42: STATA 学习系列  第 6 讲 贾明

2.Auto 数据回归诊断分析 ( 图象分析 )

现在分析 mpg 对 price 的影像是不是线性的 .如果给模型新加入一个变量 :

mpgsq=mpg*mpg, 构建回归模型 , 得到的结果是 :

Page 43: STATA 学习系列  第 6 讲 贾明

2.Auto 数据回归诊断分析 ( 图象分析 )

. gen mpgsq= mpg* mpg

. regress price mpg mpgsq weight

Source | SS df MS Number of obs = 74 -------------+------------------------------ F( 3, 70) = 12.70 Model | 223815416 3 74605138.6 Prob > F = 0.0000 Residual | 411249980 70 5874999.72 R-squared = 0.3524 -------------+------------------------------ Adj R-squared = 0.3247 Total | 635065396 73 8699525.97 Root MSE = 2423.8

------------------------------------------------------------------------------ price | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- mpg | -981.0308 377.9748 -2.60 0.011 -1734.878 -227.1838 mpgsq | 17.32961 6.859794 2.53 0.014 3.648184 31.01104 weight | .8344929 .7160289 1.17 0.248 -.5935816 2.262567 _cons | 16106.35 6591.341 2.44 0.017 2960.333 29252.36 ------------------------------------------------------------------------------

Page 44: STATA 学习系列  第 6 讲 贾明

2.Auto 数据回归诊断分析 ( 图象分析 )

比较前后两张表 : 1.mpgsq 的 t 检验值是 2.53,mpg 的 t 检验值

变为 -2.60. 2.weight 在第二个模型中所发挥的效用只有

第一个模型的 1/3 左右 , 并且系数是不显著的 . 这说明 :mpg 对 price 的影响不是线性的 .

Page 45: STATA 学习系列  第 6 讲 贾明

2.Auto 数据回归诊断分析 ( 图象分析 )

Rvpplot:residual versus predictor plots, 如果模型是正确有效的 , 那么图象中的点就应该是均匀分布而不表现出任何的增加或者减少的趋势 .

Page 46: STATA 学习系列  第 6 讲 贾明

. rvpplot mpg,border yline(0)

e( p

rice

| X

,mp

g )

Mileage (mpg)12 41

-3332.46

7506.95

Page 47: STATA 学习系列  第 6 讲 贾明

2.Auto 数据回归诊断分析 ( 图象分析 )

分析 : 图象中残差随着 mpg 增大而减小 . 这说明模型是有问题的 .

Page 48: STATA 学习系列  第 6 讲 贾明

3.Exdata 数据分析实际应用1. 将 excel 数据导入 stata 第一步 : 将 excel 文件另存为用制表符隔开的 txt 文件 ; 第二步 : 用命令 : insheet using d:\stata/name.txt;2. 将 stata 数据导出用 excel 打开 第一步 :outsheet using d:/stata\name .out( 生成文

件位置 ) 第二步 : 用 excel 打开 .out 文件即可 .

Page 49: STATA 学习系列  第 6 讲 贾明

3.Exdata 数据分析实际应用 假设 1 :分类的 R&D 投入效果存在明显差异; 假设 2 :低技术类的 R&D 投入效果一直呈增

加 趋势; 假设 3 :高技术类的 R&D 投入效果并不存在单

一的增减趋势,在实验的前期呈现减少趋势 而后期将表现为增加趋势。

Page 50: STATA 学习系列  第 6 讲 贾明

3.Exdata 数据分析实际应用 假设 1 :分类的 R&D 投入效果存在明显差异; 使用数据 :insheet using d:/stata\hvsl.txt . insheet using d:/stata\hvsl.txt (4 vars, 40 obs)

. describe

Contains data obs: 40 vars: 4 size: 680 (99.7% of memory free) ------------------------------------------------------------------------------- storage display value variable name type format label variable label ------------------------------------------------------------------------------- experimentid str10 %10s ExperimentID period byte %8.0g Period rdoutcomel byte %8.0g R&d outcomel rdoutcomeh byte %8.0g R&d outcomeh ------------------------------------------------------------------------------- Sorted by: Note: dataset has changed since last saved

Page 51: STATA 学习系列  第 6 讲 贾明

3.Exdata 数据分析实际应用 . ttest rdoutcomeh =rdoutcomel

Paired t test

------------------------------------------------------------------------------ Variable | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+-------------------------------------------------------------------- rdoutc~h | 40 3.5 .2454718 1.5525 3.003486 3.996514 rdoutc~l | 40 12.6 .7602294 4.808113 11.06229 14.13771 ---------+-------------------------------------------------------------------- diff | 40 -9.1 .7661091 4.845299 -10.6496 -7.550398 ------------------------------------------------------------------------------

Ho: mean(rdoutcomeh - rdoutcomel) = mean(diff) = 0

Ha: mean(diff) < 0 Ha: mean(diff) ~= 0 Ha: mean(diff) > 0 t = -11.8782 t = -11.8782 t = -11.8782 P < t = 0.0000 P > |t| = 0.0000 P > t = 1.0000

Page 52: STATA 学习系列  第 6 讲 贾明

3.Exdata 数据分析实际应用 假设 2 :低技术类的 R&D 投入效果一直呈增加趋势; insheet using d:/stata\team2elow.txt (8 vars, 60 obs)

describe

Contains data obs: 60 vars: 8 size: 1,800 (99.4% of memory free) ------------------------------------------------------------------------------- storage display value variable name type format label variable label ------------------------------------------------------------------------------- experimentid str10 %10s ExperimentID participantid byte %8.0g ParticipantID period byte %8.0g Period quantity byte %8.0g Quantity rdoutcome byte %8.0g R&d outcome price float %9.0g Price cost float %9.0g Cost profit float %9.0g Profit ------------------------------------------------------------------------------- Sorted by: Note: dataset has changed since last saved

Page 53: STATA 学习系列  第 6 讲 贾明

3.Exdata 数据分析实际应用. regress rdoutcome quantity period

Source | SS df MS Number of obs = 60 -------------+------------------------------ F( 2, 57) = 12.42 Model | 96.9864714 2 48.4932357 Prob > F = 0.0000 Residual | 222.613529 57 3.9055005 R-squared = 0.3035 -------------+------------------------------ Adj R-squared = 0.2790 Total | 319.60 59 5.41694915 Root MSE = 1.9762

------------------------------------------------------------------------------ rdoutcome | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- quantity | .261062 .0566845 4.61 0.000 .1475533 .3745708 period | .2021792 .0511249 3.95 0.000 .0998034 .3045549 _cons | -3.575317 1.710724 -2.09 0.041 -7.000983 -.1496508 ------------------------------------------------------------------------------

Page 54: STATA 学习系列  第 6 讲 贾明

. avplots,bordercoef = .26106203, se = .05668451, t = 4.61

e( r

dout

com

e | X

)

e( quantity | X )-11.4353 11.7571

-4.67368

4

coef = .20217916, se = .05112486, t = 3.95

e( r

dout

com

e | X

)

e( period | X )-11.8053 9.08328

-4.21243

4.34131

Page 55: STATA 学习系列  第 6 讲 贾明

3.Exdata 数据分析实际应用

. ovtest

Ramsey RESET test using powers of the fitted values of rdoutcome Ho: model has no omitted variables F(3, 54) = 0.47 Prob > F = 0.7058 模型没有缺失变量 . hettest

Cook-Weisberg test for heteroskedasticity using fitted values of rdoutcome Ho: Constant variance chi2(1) = 2.00 Prob > chi2 = 0.1578在 15.78% 的显著性下不存在异方差。

Page 56: STATA 学习系列  第 6 讲 贾明

3.Exdata 数据分析实际应用

由以上分析,可以得到结论:

假设 2 通过

Page 57: STATA 学习系列  第 6 讲 贾明

3.Exdata 数据分析实际应用 假设 3 :高技术类的 R&D 投入效果并不存在单

一的增减趋势,在实验的前期呈现减少趋势 而后期将表现为增加趋势。

Page 58: STATA 学习系列  第 6 讲 贾明

3.Exdata 数据分析实际应用 . insheet using d:/stata\team2ehigh.txt (8 vars, 40 obs)

. describe

Contains data obs: 40 vars: 8 size: 1,080 (99.6% of memory free) ------------------------------------------------------------------------------- storage display value variable name type format label variable label ------------------------------------------------------------------------------- experimentid str10 %10s ExperimentID participantid byte %8.0g ParticipantID period byte %8.0g Period quantity byte %8.0g Quantity rdoutcome byte %8.0g R&d outcome price float %9.0g Price cost byte %8.0g Cost profit float %9.0g Profit ------------------------------------------------------------------------------- Sorted by: Note: dataset has changed since last saved

Page 59: STATA 学习系列  第 6 讲 贾明

3.Exdata 数据分析实际应用

. regress rdoutcome quantity period

Source | SS df MS Number of obs = 40 -------------+------------------------------ F( 2, 37) = 0.26 Model | 12.3097181 2 6.15485904 Prob > F = 0.7754 Residual | 889.290282 37 24.0348725 R-squared = 0.0137 -------------+------------------------------ Adj R-squared = -0.0397 Total | 901.60 39 23.1179487 Root MSE = 4.9025

------------------------------------------------------------------------------ rdoutcome | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- quantity | -.0122297 .0981868 -0.12 0.902 -.2111751 .1867157 period | -.0986862 .1381185 -0.71 0.479 -.3785408 .1811684 _cons | 13.97344 3.440562 4.06 0.000 7.002198 20.94468 ------------------------------------------------------------------------------

Page 60: STATA 学习系列  第 6 讲 贾明

3.Exdata 数据分析实际应用 . ovtest

Ramsey RESET test using powers of the fitted values of rdoutcome Ho: model has no omitted variables F(3, 34) = 0.54 Prob > F = 0.6594

. hettest

Cook-Weisberg test for heteroskedasticity using fitted values of rdoutcome

Ho: Constant variance chi2(1) = 12.80 Prob > chi2 = 0.0003

Page 61: STATA 学习系列  第 6 讲 贾明

. cprplot period,border c(s) bands(13)

e( r

dout

com

e | X

,per

iod

) +

b*p

erio

d

Period

Residuals Linear prediction

1 20

-5.61878

21.5157

Page 62: STATA 学习系列  第 6 讲 贾明

3.Exdata 数据分析实际应用 图象大至表现出:在前期减少,后期增加的

趋势。因为样本量少,所以效果不是很明显。 基本上可以接受假设 3.

Page 63: STATA 学习系列  第 6 讲 贾明

谢谢大家!