9.4使用数据集Growth.dta考察贸易与增长的关系。该数据集的被解释变量为65个国家1960-1995年的平均增长率(growth),而主要解释变量为1960-1995年的平均贸易开放度(tradeshare)
(1)将growth与tradeshare的散点图与线性拟合图画在一起,二者看上去是否有关系?
(2)有一个国家马耳他(Malta),其贸易开放度比其他国家高很多,在散点图上找出马耳他,马耳他是否像极端值?
(3)使用全样本,把growth对tradeshare进行回归,该回归的斜率与截距项估计值分别是多少?
(4)计算每个观测值的影响力(leverage),以及此影响力的最大值与平均值之比,是否存在极端值?
(5)去掉马耳他,重复上述回归,并再次回答(3)中的问题。(提示:可使用选择项“if _n<65”来去掉马耳他,其中“_n”表示第n个观测值)
(6)马耳他在哪?马耳他的贸易开放度为什么这么高?是否应在本研究中去掉马耳他?
(7)把growth对tradeshare,rgdp60(1960年的人均GDP),yearsschool(1960年的平均受教育年限),rev_coups(1960-1995年的年平均政变次数),以及assasinations(1960-1995年的年平均政治暗杀次数)进行回归。评论各变量系数的符号、统计显著性与经济意义。
(8)为什么将变量rgdp60与yearsschool的取值定为期初的1960年?
解答如下:
在Stata中导入数据集Growth.dta,在命令窗口输入如下命令:
- twoway scatter growth tradeshare||lfit growth tradeshare
- twoway scatter growth tradeshare,mlabel(country)||lfit growth tradeshare
- reg growth tradeshare
- predict lev,leverage
- sum lev
- dis r(max)/r(mean)
- reg growth tradeshare if _n<65
- reg growth tradeshare rgdp yearsschool rev_coups assasinations if _n<65
- reg growth tradeshare rgdp yearsschool rev_coups assasinations
结果如下:
growth与tradeshare散点图与线性拟合图画在一起(此处画了两次,第二次带标签):
(1)据上图,可以发现散点大致均匀分布在拟合线上下,可大致判断二者看上去有一定的关系。
(2)据上图,发现马耳他为右上角的散点,其离大多数观测点很远,所以马耳他的散点符合极端值的特征。
全样本growth对tradeshare进行回归:
(3)使用全样本把growth对tradeshare进行回归,如上图,该回归的斜率估计值为2.306434,截距项估计值为0.6402653。
计算每个观测值的影响力及最大值与平均值之比:
(4)根据计算结果,观测值最大值影响力与平均值影响力之比为12.873682,即lev的最大值是其平均值的12.873682倍,故存在高影响力的极端观测值。
去掉马耳他重复(3)回归:
(5)去掉马耳他以后回归的结果显示,斜率估计值为1.680905,截距项估计值为0.9574107。
(6)马耳他位于地中海,是地中海的一个岛国,其无矿产资源,石油、天然气完全依赖进口。太阳能、风能资源丰富,但开发不足,可替代能源使用率仅为0.36%。淡水资源匮乏,55%生活用水依靠海水淡化。但其是欧非重要的中转站,素有“地中海心脏”之称,贸易开放度高,贸易发达。由于马耳他自然资源匮乏但优越的地理位置条件,促使马耳他贸易开放度极端值的产生,必要时可以删除其极端值,但为了稳健起见,同时汇报“全样本”与删除极端值数据后的“子样本”回归结果。
新的回归,子样本和全样本:
(7)经过子样本与全样本回归对比发现,子样本回归=0.2911,全样本回归=0.3589 ,且全样本回归结果比子样本回归结果更稳健,所以我们不去掉马耳他。根据全样本回归结果:
rgdp60与rev_coups的系数为负,其余解释变量系数为正,且tradeshare在5%的水平上显著,rgdp60在1%的水平上高度显著,yearsschool高度显著,其余解释变量不显著(p值>0.05)。经济意义解释为,当其它条件不变时,tradeshare开放度每增加1%(1个单位),growth增长率平均增加1.561696%(1.561696个单位),rgdp与yearsschool的解释同理(参见tradeshare)。
(8)将rgdp60与yearsschool的取值定为期初的1960年,是为了观察其期初1960年的水平,将对未来36年的growth增长率的走势的影响是什么样,以期指导人们对1995年之后的growth增长率的大致预测及判断。