3.2 课后习题详解
一、习题
1.用WAGE2·RAW中有关男工人的数据估计了如下方程:
其中,educ是受教育年数,sibs是兄弟姐妹的个数,meduc是母亲受教育的年数,feduc则是父亲受教育的年数。
(i)sibs是否具有预期的影响?请给出解释。保持meduc、feduc不变,为了使预测的受教育程度减少一年,需要sibs增加多少?(这里不要求答案为整数。)
(ii)讨论对meduc的系数的解释。
(iii)假设一个男工人A没有兄弟姐妹,其父母都接受了12年的教育。另一个男工人B也没有兄弟姐妹,但其父母都接受了16年的教育。预计B和A所接受教育的年数差别为多少?
答:(i)sibs具有预期的影响。家庭中兄弟姐妹的数量越多,每一个小孩受教育的年数都会减少。为了使预测的受教育程度减少一年,需要增加∆sibs=1/0.094≈10.6。
(ii)变量sibs和feduc保持不变,则母亲受教育的年数每增加一年,预计受教育年数将会增加0.131年。因此母亲受教育年数增加4年,她的儿子受教育年数增加约半年(0.524)。
(iii)因为兄弟姐妹的个数是相同的,但是meduc和feduc均不相同,因此B和A所接受教育的年数为:(0.131+0.210)×4=1.364(年)。
2.利用GPA2.RAW中有关4137名大学生的数据,用OLS估计了如下方程:
其中,colgpa以四分制度量,hsperc是在高中班上名次的百分位数(比方说,hsperc=5,就意味着位于班上前5%之列),而sat是在学生能力测验中数学和语言的综合成绩。
(i)为什么hsperc的系数为负也讲得通?
(ii)当hsperc=20和sat=1050时,大学GPA的预测值是多少?
(iii)假设两个在高中班上具有同样百分位数的高中毕业生A和B,但A学生的SAT分数要高出140分(在样本中相当于一倍的标准差),那么,预计这两个学生的大学GPA相差多少?这个差距大吗?
(iv)保持hsperc不变,SAT的分数相差多少,才能导致预测的colgpa相差0.50或四分制的半分?评论你的结论。
答:(i)在高中班上名次的百分位数(hsperc)越小,学生在高中排名就越好,越大则排名越差。其它条件不变的情况下,学生在高中的排名越差,他/她预计的GPA将越小。
(ii)将hsperc=20,sat=1050代入估计方程可得:colgpa=1.392-0.0135×20+0.0148×1050=2.676。
(iii)预计中A的成绩比B的成绩高出0.0148×140≈0.207。这个差距较大。
(iv)hsperc不变,∆colgpa=0.00148∆sat。
当∆colgpa=0.5时,(∆sat)=0.5/(0.00148)≈338。在其他条件不变的情况下,SAT分数的差异为约2.5个标准差,才能预测colgpa相差0.50。
3.刚从法学院毕业的学生的起薪中位数由下式决定:
其中,LAST*是整个待毕业年级LAST成绩的中位数,GPA是该年级大学GPA的中位数,libvol是法学院图书馆的藏书量,cost是进入法学院每年的费用,而rank是法学院的排名(rank=1的法学院是最好的)。
(i)解释为什么我们预期β5≤0。
(ii)你预计其他斜率参数的符号如何?给出你的理由。
(iii)使用LAWSCH85.RAW中的数据,估计出来的方程是
在其他条件不变的情况下,预计GPA中位数相差一分会导致薪水有多大差别?(以百分比回答。)
(iv)解释变量log(libvol)的系数。
(v)你是否认为,应该进入一个排名更高的法学院?从预计的起薪来看,排名相差20位的价值有多大?
答:(i)法学院的排名越大,说明该学院的声望越差,这将使得起薪下降。例如,排名100意味着还有99所学校更好。因此预期β5≤0。
(ii)预计β1>0,β2>0,因为LAST和GPA都衡量了待毕业班级的质量,好学生进入学院使得预计的平均工资更高。β3,β4>0,法学院图书馆的藏书量以及进入法学院每年的费用都衡量了学校的质量。成本的作用小于藏书量,但反映了教员和硬件设施的质量。
(iii)预计GPA中位数相差一分会导致薪水增加24.8%。
(iv)应该进入一个排名更高的法学院。
排名相差20位的价值为:100×0.0033×20=6.6%。
4.下面这个模型是Biddle and Hamermesh(1990)所用多元回归模型的一个简化版本,原模型研究睡眠时间和工作时间之间的取舍,并考察影响睡眠的其他因素:
sleep=β0+β1totwrk+β2educ+β3age+u
其中,sleep和totwrk都以分钟/周为单位,而educ和age则以年为单位。(也可参见计算机习题C2.3。)
(i)如果成年人为工作而放弃睡眠,β1的符号是什么?
(ii)你认为β2和β3的符号应该是什么?
(iii)利用SLEEP75.RAW中的数据,估计出来的方程是
如果有人一周多工作5个小时,预计sleep会减少多少分钟?这是一个很大的舍弃吗?
(iv)讨论educ的估计系数的符号和大小。
(v)你能说totwrk,educ和age解释了sleep的大部分变异吗?还有什么其他因素可能影响花在睡眠上的时间?它们与totwrk可能相关吗?
答:(i)β1的符号应该为负。
(ii)β2的符号不明确。一些人认为更高教育水平的人想获得更多,其他条件相同的情况下,他们休息的较少,此时β2<0。睡眠与年龄之间的关系比模型描述的更为复杂,经济学家不能很好的判断这件事情。
(iii)因为totwrk都以分钟/周为单位,因此将时转化为分可得,∆totwrk=5×60=300。预计睡眠将会下降0.148×300=44.4(分)。对一周而言,这并不是一个很大的舍弃。
(iv)受教育年限educ越多暗示着预计睡眠时间越少,但是这种影响是很小的。假设在其他条件不变的情况下,大学和高中的区别是四年间大学学生每周睡眠时间少休息45分钟。
(v)不能,totwrk、educ和age只解释了11.3%的sleep的变异。一个包含在误差项中的重要因素是总体健康状况。另一个重要因素是婚姻状况,以及是否有孩子。健康、婚姻状况、孩子的数量和年龄与totwrk是相关的。
5.考虑含有三个自变量的多元回归模型,并满足假定MLR.1~MLR.4,y=β0+β1x1+β2x2+β3x3+u,你对估计x1和x2的参数之和感兴趣;把这个和记为θ1=β1+β2。
(i)证明是θ1的一个无偏估计量。
(ii)求出用、和表示的。
答:(i)
(ii)。
6.在一项调查大学GPA与在各种活动中折耗费时间之关系的研究中,你对几个学生分发了调查问卷。学生被问到,他们每周在学习、睡觉、工作和闲暇这四种活动中各花多少小时。任何活动都被列为这四种活动之一,所以对每个学生来说,这四个活动的小时数之和都是168。
(i)在模型GPA=β0+β1study+β2sleep+β3work+β4leisure+u中,保持sleep,work和leisure不变而改变study是否有意义?
(ii)解释为什么这个模型违背了假定MLR.3。
(iii)你如何才能将这个模型重新表述,使得它的参数具有一个有用的解释,而又不违背假定MLR.3。
答:(i)没有意义。因为四种活动的总时间固定为168小时,其他三种不变,则study时间也不会改变。
(ii)从(i)可知,study是其他三种活动的线性函数:study=168-sleep-work-leisure。这种关系对于每一个观测值都成立,因此违背了MLR.3。
(iii)应该去掉一个解释变量leisure,模型变为:
GPA=β0+β1study+β2sleep+β3work+u
β1是study的参数,当其他条件不变的情况下,study每增加一小时,GPA增加β1。但是如果学习时间增加一小时,leisure时间必须减少一小时。其他参数解释与此类似。
7.假设制造业中每个工人的平均生产力(avgprod)取决于培训的平均小时数(avgtrain)和工人的平均能力(avgabil)两个因素:avgprod=β0+β1avgtrain+β2avgabil+u,假设这个方程满足高斯-马尔可夫假定。如果将培训津贴给了那些工人能力较差的企业,以致avgtrain和avgabil呈负相关,那么,将avgprod对avgtrain进行简单回归所得到的可能出现什么样的偏误?
答:利用表3-2。因为β2>0,且Corr(x1,x2)<0。因此存在一个向下的偏误,即。简单回归估计低估了培训时间的影响。即使β1>0,也可能是负的。
8.下面哪些因素会导致OLS估计量出现偏误?
(i)异方差性。
(ii)遗漏一个重要变量。
(iii)模型中同时包含的两个自变量之间的样本相关系数达到0.95。
答:只有(ii)才会导致OLS出现偏误,且所遗漏的变量必须与模型中包含的变量是相关的。同方差性假设并不影响OLS估计量的无偏性,仅影响估计量的方差。样本解释变量之间共线性的程度并不影响高斯—马尔科夫假定。只有当自变量之间完全共线时,才会违背MLR.3。
9.假设你对估计其他条件不变情况下y和x1之间的关系感兴趣。为此,你可以搜集两个控制变量x2和x3的数据。(为真实起见,你可以想象y为期末考试分数,x1为到课率。x2为上学期之前的GPA,x3为SAT或ACT分数。)令表示y列x1进行简单回归的系数估计值,而为y对x1,x2,x3进行多元回归的斜率估计值。
(i)若样本中x1与x2和x3高度相关,且x2和x3对y具有很大的偏效应,预计和是十分类似还是十分不同?请解释。
(ii)若x1与x2和x3几乎无关但x2和x3高度相关,预计和是十分类似还是十分不同?请解释。
(iii)若样本中x1与x2和x3高度相关,且x2和x3对y具有很小的偏效应,预计和哪个更小?请解释。
(iv)若x1与x2和x3几乎无关,x2和x3对y具有很大的偏效应,并且x2与x3高度相关,预计和哪个更小?请解释。
答:(i)因为x1与x2和x3高度相关,后面的变量对具有很大的偏效应,简单和多元回归中x1的系数十分不同。由方程3.46以及对遗漏一个变量的讨论可知,系数不相同是直觉的结论。
(ii)若x1与x2和x3几乎无关但x2和x3高度相关,预计和十分类似。因为x1与x2和x3几乎无关,则x2和x3的相关程度对多元回归中对x1的回归估计没有直接的影响。
(iii)更小。在本案例中,加入x2和x3大幅度增加了x1的系数的标准误,因此。
(iv)更小。在模型中加入x2和x3将会减少残差,而不导致多重共线性,因此可得。x2和x3的相关关系并不影响。
10.假设决定y的总体模型是y=β0+β1x1+β2x2+β3x3+u,而这个模型满足假定MLR.1~MLR.4。但我们估计了漏掉x3的模型。令,和为y对x2和x3回归的OLS估计量。(给定样本中自变量的值)证明的期望值是
其中是x1对x2回归所得到的OLS残差。[提示:的公式来自方程(3.22)。将yi=β0+β1xi1+β2xi2+β3xi3+ui代入这个方程。经过一些计算之后,将xi3和视为非随机量而取期望。]
答:由公式3.22可得:
代入真实的模型可得:
因为,,,是xi1对xi2回归的残差,有零均值,且与xi2无关。因此分子简化为
将分子代入原式得:
由于随机误差项的均值为0,因此
11.下面这个方程把一个社区住房的中间价格表示成污染水平(用nox表示氧化亚氮)和社区中每套住房平均房间数量(rooms)之间的关系:log(price)=β0+β1log(nox)+β2rooms+u。
(i)β1和β2的符号可能是什么?对β1有何解释?请加以说明。
(ii)为什么nox[或更准确地说,是log(nox)]与rooms可能负相关?如果是这样,将log(price)对log(nox)进行简单回归得到β1的偏误估计量是偏高还是偏低?
(iii)利用HPRICE2.RAW中的数据,估计出如下方程:
根据你在第(ii)部分的回答,就price对nox的弹性估计值而言,上述简单回归结果和多元回归结果之间的关系与你的预期一致吗?这个结果是否意味着-0.718比-1.043更加接近真实弹性?
答:(i)β1<0,更高的污染水平导致预计房屋价格更低。β1表示房屋价格的污染弹性,即污染水平上升1%,则房屋价格下降β1%。
β2>0,每套住房平均房间数量越多,说明房屋面积越大,则房屋价格越高。
(ii)假设平均房间数量随着房屋质量的提高而增长,log(nox)与rooms可能负相关,因为实际上贫穷的社区污染水平更高。利用表3.2可判断偏误的方向,如果β2>0且Corr(x1,x2)<0,简单回归估计得到的有一个向下的偏误。当β1<0,意味着在同样的回归中,平均污染水平的作用被高估了。
(iii)上述简单回归结果和多元回归结果之间的关系与预期一致。简单回归估计的结果-1.043小于多元回归的结果-0.718。如果这些估计只是对于一个样本而言,那么就不能判断哪一个更接近β1,但如果这是一个典型的样本,则-0.718更接近真实的β1。
12.(i)在前4个高斯-马尔可夫假定之下,考虑简单回归模型y=β0+β1x1+u,对某个函数g(z),比如g(x)=x2或g(x)=log(1+x2)。定义zi=g(xi)定义一个斜率估计量为
证明是线性无偏的。记住,在你的推导过程中,因为,所以你可以把xi和zi都看成非随机的。
(ii)增加同方差假定MLR.5,证明
(iii)在高斯-马尔可夫假定下,直接证明,其中是OLS估计量。[提示:附录8中的柯西—施瓦兹不等式意味着
注意,我们可以将从样本协方差中去掉。
证明:(i)记,这不完全是z和x样本协方差,因为并没有除以n-1。但为了简化计算而使用它。由此可知:
这是一个yi的线性函数,设权重为
为了表示无偏性,将yi=β0+β1xi+u加入该方程可得:
因为,szx是zi、xi和预计期望值的函数。对于所有的i,都有E(ui)=0。因此可得:
(ii)据(i)可得:
(iii)已知
将从样本协方差中去掉,消去n-1,可以得到:
两边乘以σ2,可得。
13.如下式所示,在由美国各个县构成的总体中,各种税收比例对随后就业增长方面的影响:growth=β0+β1shareP+β2shareI+β3shareS+其他因素,其中,growth是就业从1980年到1990年的变化百分比,shareP是总税收收益中财产税的比例,shareI是所得税税收收益的比例,而shareS是销售税税收收益的比例。所有这些变量都以1980年的货币度量。遗漏的比例shareF包括收费和杂项税收。根据定义,这四个比例之和为1。其他因素将包括对教育、基础设施等支出(均以1980年货币度量)。
(i)我们为什么必须从方程中省略一个税收比例变量?
(ii)对β1给出一个仔细的解释。
答:(i)四种税收的比例之和为1,如果不省略一种税收的比例,方程就会遭遇完全共线性。参数不存在“其他条件不变”的情况,也就是说,只改变一种税收的比例不可能维持所有其他的变量保持不变。
(ii)因为每一种税收分担一个比例(最大为1,此时其他税收所占份额为0),因此增加1单位的财产税收益比例shareP是无意义的。如果shareP增加1%,保持其他因素不变的情况下,growth下降β1%。
二、计算机习题
1.卫生官员(和其他人)所关心的一个问题是,孕妇在怀孕期间抽烟对婴儿健康的影响。对婴儿健康的度量方法之一是婴儿出生时的体重;过低的出生体重会使婴儿有感染各种疾病的危险。由于除了抽烟之外,其他影响婴儿出生体重的因素可能与抽烟相关,所以我们应该考虑这些因素。比如,高收入通常会使母亲得到更好的产前照顾和更好的营养。表达这一点的方程是bwght=β0+β1cigs+β2faminc+u。
(i)β2的符号最可能是什么?
(ii)你是否认为cigs与faminc可能相关?解释为什么可能是正相关或负相关。
(iii)现在利用BWGHT.RAW中的数据分别估计包含和不包含faminc的方程。以方程的形式报告结论,包括样本容量和R2。讨论你的结论,主要看增加faminc是否会显著改变cigs对bwght 的估计影响。
答:(i)β2>0。高收入通常会使母亲得到更好的产前照顾和更好的营养,从而使得出生体重较大。
(ii)一方面,收入的增加会使得商品的消费增加,因此两者是正相关关系。另一方面,家庭收入越高,家庭成员所受的教育越高,吸烟的可能性越低,因此收入与吸烟是呈反相关关系的。实际上,样本中两者呈负相关关系,相关系数为-0.173。
(iii)不包含和包含变量faminc的方程分别为:bwght=119.77-0.514cigs,n=1.388,R2=0.023及bwght=116.97-0.463cigs+0.093faminc,n=1.388,R2=0.030。
可以看出,加入变量faminc的回归中,吸烟的影响较小,但两者的差别不大。这是因为吸烟和家庭收入之间并不是非常相关,而faminc的系数实际上是非常小的,1988年10000美元的家庭收入增长使得预计出生体重仅增加0.093盎司。
2.使用HPRICE1.RAW中的数据,估计如下模型:price=β0+β1sqrft+β2bdrms+u,其中,price是以千美元为单位的住房价格。
(i)以方程的形式写出结果。
(ii)住房在保持面积不变的同时又增加一间卧室,估计其价格会提高多少?
(iii)住房增加一间大小为140平方英尺的卧室,估计其价格会提高多少?将这个答案与你在第(ii)部分的答案相比较。
(iv)价格的变异有多大比例能被平方英尺数和卧室数解释?
(v)样本中的第一套住房有sqrft=24.38和bdrms=4。从OLS回归线计算这套住房的预计销售价格。
(vi)样本中第一套住房的实际销售价格是300000美元(price=300)。求出这套住房的残差。它是否表明购买者为这套住房支付了过低或过高的价格?
答:(i)估计方程为:price=-19.32+0.128sqrft+15.20bdrms,n=88,R2=0.632。
(ii)其价格会提高∆price=15.20∆bdrms=15.2,即15200美元。
(iii)估计其价格会提高∆price=0.128∆sqrft+15.20∆bdrms=0.128(140)+15.2=33.12,即33120美元。
(iv)价格的变异有63.2%能被平方英尺数和卧室数解释。
(v)这套住房的预计销售价格为:-19.32+0.128×2438+15.2×4=353.544,即353544美元。
(vi)实际销售价格为300000美元,预计价格为353544美元,残差为实际观察值与回归估计值的差,即-53544美元。购买者为这套住房支付了过低的价格。当然,还存在一些其他的因素影响房屋的价格,模型并未将这些因素完全纳入进来。
3.文件CEOSAL2.RAW包含了177位首席执行官的数据,并可用来考察企业业绩对CEO薪水的影响。
(i)估计一个将年薪与企业销售量和市场价值相联系的模型。让这个模型对每个自变量的变化都具有常弹性。以方程的形式写出结论。
(ii)在第(i)部分的模型中增加profits。为什么这个变量不能以对数形式进入模型?你认为这些企业业绩变量解释了CEO薪水变异中的大部分吗?
(iii)在第(ii)部分的模型中增加ceoten。保持其他条件不变,延长一年CEO任期,估计的百分比回报是什么?
(iv)求出变量log(mktval)和profits之间的样本相关系数。这些变量高度相关吗?这对OLS估计量有什么影响?
答:(i)常弹性方程为:
log(salary)=4.62+0.162log(sales)+0.107(mktval)
n=177,R2=0.299
(ii)profits不能以对数形式进入模型的原因在于:样本中的9个公司的利润为负,如果采用对数形式,将会在模型中丢失这些数据。估计模型如下:
log(salary)=4.69+0.161log(sales)+0.098log(mktval)+0.000036profits
n=177,R2=0.299
企业业绩变量仅解释了CEO薪水变异中的30%。
(iii)加入变量ceoten后的模型为:
log(salary)=4.56+0.162log(sales)+0.102log(mktval)+0.000029profits+0.012ceoten
n=177,R2=0.318
延长一年CEO任期,估计的百分比回报是1.2%。
(iv)变量log(mktval)和profits之间的样本相关系数是0.78,这是高度相关的。这对OLS估计量的无偏性是无影响的,但会使它们的方差增大。
4.本题使用ATTEND.RAW中的数据。
(i)求出变量atndrte,priGPA和ACT的最小值、最大值和平均值。
(ii)估计模型atndrte=β0+β1priGPA+β2ACT+u,并以方程的形式写出结论。对截距做出解释。它是否存在一个有用的含义。
(iii)讨论估计的斜率系数。有没有什么令人吃惊之处?
(iv)如果priGPA=3.65和ACT=20,预计atndrte是多少?你对这个结论做何解释?样本中有没有一些学生具有这些解释变量的值?
(v)如果学生A具有priGPA=3.1和ACT=21,而学生B具有priGPA=2.1和ACT=26,他们在出勤率上的预期差异是多少?
答:(i)atndrte,priGPA和ACT的平均值、最小值和最大值如表3-2所示:
表3-2
(ii)估计方程为:atndrte=75.70+17.26priGPA-1.72ACT,n=680,R2=0.291。
截距的含义是,当priGPA和ACT为0时,预计的atndrte为75.5%。实际上在大学里面没有学生的priGPA和ACT为0。对总体而言不存在一个有用的含义。
(iii)priGPA的系数意味着,在ACT保持不变的前提下,学生的priGPA系数提高1%,atndrte将增加17.3%。ACT的系数为负,最初是令人吃惊的。在priGPA给定的前提下,ACT提高5%,预计的atndrte将下降8.6%。
(iv)预计atndrte=75.70+17.267(3.65)-1.72(20)≈104.3。学生的出勤率不可能超过100%。当用回归方法对因变量的上界和下界进行预测时可能出现这样的情况,实际上样本中学生的真实出勤率为87.5%。
(v)A和B在出勤率上的预期差异是:17.26×(3.1-2.1)-(21-26)=25.86。
5.通过对例3.2明确地进行“排除其他影响”的练习,证实对OLS估计值做“排除其他影响”的解释。这首先要求将educ对exper和tenure进行回归,并保留残差然后将log(wage)对进行回归。将的系数与在log(wage)对educ、exper和tenure的回归中educ的系数相比较。
答:educ对exper和tenure进行回归的模型为:
保留残差然后将log(wage)对进行回归的模型为:
在第二个回归模型中,系数与公式3.19中educ的系数相等。以上回归的判定系数小于3.19的R2。log(wage)对的回归解释了educ中与exper和tenure无关的部分。exper和tenure的独立效应没有包括在内。
6.本题使用WAGE2.RAW中的数据。一般地,保证如下所有回归都含有截距。
(i)将IQ对educ进行简单回归,并得到斜率系数。
(ii)将log(wage)对educ进行简单回归,并得到斜率系数。
(iii)将log(wage)对educ和IQ进行多元回归,并分别得到斜率系数和。
(iv)验证。
答:(i)斜率系数。
(ii)斜率系数。
(iii)斜率系数和。
(iv)
这与是非常接近的。较小的差距可看作为舍入误差。
7.本题利用MEAP93.RAW中的数据。
(i)估计模型math10=β0+β1log(expend)+β2Inchprg+u,并按照通常的方式报告估计方程,包括样本容量和R2。斜率系数的符号与你的预期一致吗?请加以解释。
(ii)你如何理解第(i)部分中估计出来的截距?特别是,令两个解释变量都等于零说得过去吗?[提示:记住log(1)=0。]
(iii)现在做math10对log(expend)的简单回归,并将斜率系数与第(i)部分中得到的估计值进行比较。与第(i)部分中的结果相比,这里估计出来的支出效应是更大还是更小?
(iv)求出lexpend=log(expend)与Inchprg之间的相关系数。你认为其符号合理吗?
(v)利用第(iv)部分的结果来解释你在第(iii)部分中得到的结论。
答:(i)回归结果是:
math10=-20.36+6.231log(expend)-0.305Inchprg
n=408,R2=0.180
估计的斜率系数符号符合预期,即更多的支出导致通过率的增加,更高的贫困率导致通过率的下降。
(ii)截距是指其他解释变量为0时,被解释变量的估计值。当贫困率很低的时候,设定Inchprg=0是有意义的。设定log(expend)为0是无意义的,因为这意味着expend为1,而且支出是以美元计的。-20%的预测通过率是无意义的。
(iii)简单回归模型结果为:
math10=-69.34+11.16log(expend)
n=408,R2=0.030
其斜率系数是第(i)部分的结果的两倍。因此这里估计出来的支出效应更大。
(iv)log(expend)与Inchprg之间的相关系数为-0.19,这意味着,在平均水平上,较穷的高中在每个学生身上的支出更少。这是有意义的,尤其是在1993年的密歇根,学校基金是由当地的税收收入决定的。
(v)可以使用公式3.23,因为Corr(x1,x2)<0,这意味着,。简单回归估计中的系数大于多元回归中的。没有成功解释贫穷率使得支出的效应被高估。
8.利用DIS(RIM.RAW中的数据回答本题。对新泽西和宾夕法尼亚的各个邮区,搜集快餐店各种商品价格和人口特征方面的数据。目的是想考察快餐店是否在黑人更集中的区域收取更高的价格。
(i)求出样本中prpblck和income的平均值及其标准差。prpblck和income的度量单位是什么?
(ii)考虑一个模型,用人口中黑人比例和收入中位数来解释苏打饮料的价格psoda;psoda=β0+β1prpblck+β2income+u。用OLS估计这个模型并以方程的形式报告结果,包括样本容量和R2。(报告估计值时不要使用科学计数法。)解释prpblck的系数。你认为它在经济上算大吗?
(iii)将第(ii)部分得到的估计值与psoda对prpblck进行简单回归得到的估计值进行比较。控制收入变量后,这种歧视效应是更大还是更小了?
(iv)收入价格弹性为常数的模型可能更加适合。报告如下模型的估计值:
log(psoda)=β0+β1prpblck+β2income+u
若prpblck提高0.20(即20个百分点),估计psoda的变化百分比是多少?[提示:答案是2.xx,你在“xx”位置上填写数字即可。]
(v)现在在第(iv)部分的回归中添加变量prppov。有何变化?
(vi)求出log(income) 和prppov的相关系数。大致符合你的预期吗?
(vii)评价如下说法:“由于log(income)和prppov如此高度相关,所以它们不该进入同一个回归。”
答:(i)样本中prpblck平均值为0.113,标准差为0.182;income的平均值为47053.78,标准差为13179.29。prpblck的度量单位是比例,而收入的度量单位是美元。
(ii)OLS回归结果是:
psoda=0.956+0.115prpblck+0.00000income
n=401,R2=0.064
prpblck增加了10个百分点,soda的预计价格将增加0.0115美元。它在经济上不算大。在无黑人的地区和其他几乎全部是黑人的地区,soda价格的差异大约是11.5美分。
(iii)简单回归估计中,prpblck的系数为0.065,因此简单回归估计的系数更低。这是因为prpblck和income是负相关的,而收入变量在多元回归中的系数为正。控制收入效应后,歧视效应变大了。
(iv)模型结果为:
log(psoda)=-0.794+0.122prpblck+0.077log(income)
n=401,R2=0.068
若prpblck提高0.20(即20个百分点),估计psoda的变化百分比是0.20×0.122=0.0244,即2.44%。
(v)添加变量prppov,下降为0.073。
(vi)log(income)和prppov的相关系数为-0.84,因为贫困率是由收入决定的。
(vii)log(income)和prppov之间的确是高度相关的,但是为了能够分离出纯粹的歧视效应,在模型中需要包含尽可能多的衡量收入的因素,因此模型中包含这两个变量是有意义的,即他们可以进入一个回归。
9.利用CHARITY.RAW中的数据回答如下问题
(i)用普通最小二乘法估计如下模型:
gift=β0+β1mailsyear+β2giftlast+β3propresp+u
按照通常的方式报告估计方程,包括样本容量和R2。其R2与不使用giftlast和propresp的简单回归所得到的R2相比如何?
(ii)解释mailsyear的系数,它比对应的简单回归系数更大还是更小?
(iii)解释propresp的系数,千万要注意propresp的度量单位。
(iv)现在,在这个方程中增加变量avggif。这将对mailsyear的估计效应造成什么样的影响?
(v)在第(iv)部分的方程中,giftlast的系数有何变化?你认为这是怎么回事?
答:(i)估计模型为:
gift=-4.55+2.17mailsyear+0.0059giftlast+15.36propresp
n=4268,R2=0.0834
与简单回归的R2=0.0834相比较大,能够解释更大部分的gift变异。
(ii)保持其他变量不变,mailsyear每增加1,估计的gift将增加2.17荷兰盾。简单回归系数为2.65,因此多元回归估计系数较小。
(iii)propresp是以比例计的,增加1是无意义的。这种增长只会发生在propresp 从0增加到1时。设想propresp增长10个百分点,则预计gift将增加1.54荷兰盾。
(iv)估计结果为:
gift=-7.33+1.20mailsyear-0.261giftlast+16.20propresp+0.527avggift
n=4268,R2=0.2005
mailsyear的系数变小为1.2,比简单回归估计模型中的回归系数少一半。
(v)giftlast的系数符号变为负,当人们可能在较大的捐赠之后选择较小的捐赠,那么过去的捐赠越多,意味着现在的捐赠将会减小,因此这种负相关关系是有意义的。