来源:蜘蛛抓取(WebSpider)
时间:2017-10-24 06:47
标签:
样本均值的方差
利用 python 进行线性回归 - 简书
利用 python 进行线性回归
利用python进行线性回归
理解什么是线性回归
线性回归也被称为最小二乘法回归(Linear Regression, also called Ordinary Least-Squares (OLS) Regression)。它的数学模型是这样的:
y = a+ b* x+e
其中,a 被称为常数项或截距;b 被称为模型的回归系数或斜率;e 为误差项。a 和 b 是模型的参数。
当然,模型的参数只能从样本数据中估计出来:
y'= a' + b'* x
我们的目标是选择合适的参数,让这一线性模型最好地拟合观测值。拟合程度越高,模型越好。那么,接下来的问题就是,我们如何判断拟合的质量呢?
这一线性模型可以用二维平面上的一条直线来表示,被称为回归线。
模型的拟合程度越高,也即意味着样本点围绕回归线越紧密。
如何计算样本点与回归线之间的紧密程度呢?
高斯和勒让德找到的方法是:被选择的参数,应该使算出来的回归线与观测值之差的平房和最小。用函数表示为:
这被称为最小二乘法。最小二乘法的原理是这样的:当预测值和实际值距离的平方和最小时,就选定模型中的两个参数(a 和 b)。这一模型并不一定反映解释变量和反应变量真实的关系。但它的计算成本低;相比复杂模型更容易解释。
模型估计出来后,我们要回答的问题是:我们的模型拟合程度如何?或者说,这个模型对因变量的解释力如何?(R2)
整个模型是否能显著预测因变量的变化?(F 检验)
每个自变量是否能显著预测因变量的变化?(t 检验)
首先回答第一个问题。为了评估模型的拟合程度如何,我们必须有一个可以比较的基线模型。
如果让你预测一个人的体重是多少?在没有任何额外信息的情况下,你可能会用平均值来预测,尽管会存在一定误差,但总比瞎猜好。
现在,如果你知道他的身高信息,你的预测值肯定与平均值不一样。额外信息相比平均值更能准确地预测被预测的变量的能力,就代表模型的解释力大小。
上图中,SSA 代表由自变量 x 引起的 y 的离差平方和,即回归平方和,代表回归模型的解释力;SSE 代表由随机因素引起的 y 的离差平方和,即剩余平方和,代表回归模型未能解释的部分;SST 为总的离差平方和,即我们仅凭 y 的平均值去估计 y 时所产生的误差。
用模型能够解释的变异除以总的变异就是模型的拟合程度:R2=SSA/SST=1-SSE
R2(R 的平方)也被称为决定系数或判定系数。
第二个问题,我们的模型是否显著预测了 y 的变化?
假设 y 与 x 的线性关系不明显,那么 SSA 相对 SSE 占有较大的比例的概率则越小。换句话说,在 y 与 x 无线性关系的前提下,SSA 相对 SSE 的占比越高的概率是越小的,这会呈现一定的概率分布。统计学家告诉我们它满足 F 分布,就像这样:
如果 SSA 相对 SSE 占比较大的情况出现了,比如根据 F 分布,这个值出现的概率小于 5%。那么,我们最好是拒绝 y 与 x 线性关系不显著的原始假设,认为二者存在显著的线性关系较为合适。
第三个问题,每个自变量是否能显著预测因变量的变化?换句话说,回归系数是否显著?
回归系数的显著性检验是围绕回归系数的抽样分布(t 分布)来进行的,推断过程类似于整个模型的检验过程,不赘言。
实际上,对于只有一个自变量的一元线性模型,模型的显著性检验和回归系数的检验是一致的,但对于多元线性模型来说,二者就不能等价了。
利用 statsmodels 进行最小二乘回归
#导入相应模块
In [1]: import numpy as np
In [2]: import pandas as pd
In [3]: import statsmodels.api as sm
#将数据导入 pandas 的 dataframe 对象,第一列(年份)作为行标签
In [4]: df=pd.read_csv('/Users/xiangzhendong/Downloads/vincentarelbundock-Rdatasets-1218370/csv/datasets/longley.csv', index_col=0)#查看头部数据In [5]: df.head()
GNP.deflator
Unemployed
Armed.Forces
Population
#设置预测变量和结果变量,用 GNP 预测 Employed
In [6]: y=df.Employed #结果变量
In [7]: X=df.GNP #预测变量#为模型增加常数项,即回归线在 y 轴上的截距In [8]: X=sm.add_constant(X)
#执行最小二乘回归,X 可以是 numpy array 或 pandas dataframe(行数等于数据点个数,列数为预测变量个数),y 可以是一维数组(numpy array)或 pandas series
In [10]: est=sm.OLS(y,X)
使用 OLS 对象的 fit() 方法来进行模型拟合
In [11]: est=est.fit()#查看模型拟合的结果In [12]: est.summary()
#查看最终模型的参数In [13]: est.params
dtype: float64
#选择 100 个从最小值到最大值平均分布(equally spaced)的数据点
In [14]: X_prime=np.linspace(X.GNP.min(), X.GNP.max(),100)[:,np.newaxis]
In [15]: X_prime=sm.add_constant(X_prime)
#计算预测值
In [16]: y_hat=est.predict(X_prime)
In [17]: plt.scatter(X.GNP, y, alpha=0.3) #画出原始数据#分别给 x 轴和 y 轴命名
In [18]: plt.xlabel("Gross National Product")
In [19]: plt.ylabel("Total Employment")
In [20]: plt.plot(X_prime[:,1], y_hat, 'r', alpha=0.9) #添加回归线,红色
多元线性回归(预测变量不止一个)
我们用一条直线来描述一元线性模型中预测变量和结果变量的关系,而在多元回归中,我们将用一个多维(p)空间来拟合多个预测变量。下面表现了两个预测变量的三维图形:商品的销量以及在电视和广播两种不同媒介的广告预算。
数学模型是:
Sales = beta_0 + beta_1*TV + beta_2*Radio
图中,白色的数据点是平面上的点,黑色的数据点事平面下的点。平面的颜色是由对应的商品销量的高低决定的,高是红色,低是蓝色。
利用 statsmodels 进行多元线性回归
In [1]: import pandas as pd
In [2]: import numpy as np
In [3]: import statsmodels.api as sm
In [4]: df_adv=pd.read_csv(')
In [6]: X=df_adv[['TV','Radio']]
In [7]: y=df_adv['Sales']
In [8]: df_adv.head()
In [9]: X=sm.add_constant(X)
In [10]: est=sm.OLS(y,X).fit()
In [11]: est.summary()
你也可以使用 statsmodels 的 formula 模块来建立多元回归模型
In [12]: import statsmodels.formula.api as smf
In [13]: est=smf.ols(formula='Sales ~ TV + Radio',data=df_adv).fit()
处理分类变量
性别或地域都属于分类变量。
In [15]: df= pd.read_csv('', index_col=0)
In [16]: X=df.copy()
利用 dataframe 的 pop 方法将 chd 列单独提取出来
In [17]: y=X.pop('chd')
In [18]: df.head()
In [19]: y.groupby(X.famhist).mean()
Name: chd, dtype: float64
In [20]: import statsmodels.formula.api as smf
In [21]: df['famhist_ord']=pd.Categorical(df.famhist).labels
In [22]: est=smf.ols(formula="chd ~ famhist_ord", data=df).fit()分类变量的编码方式有许多,其中一种编码方式是虚拟变量编码(dummy-encoding),就是把一个 k 个水平的分类变量编码成 k-1 个二分变量。在 statsmodels 中使用 C 函数实现。
In [24]: est=smf.ols(formula="chd ~ C(famhist)", data=df).fit()
In [26]: est.summary()
处理交互作用
随着教育年限(education)的增长,薪酬 (wage) 会增加吗?这种影响对男性和女性而言是一样的吗?
这里的问题就涉及性别与教育年限的交互作用。
换言之,教育年限对薪酬的影响是男女有别的。
#导入相关模块
In [1]: import pandas as pd
In [2]: import numpy as np
In [4]: import statsmodels.api as sm
#导入数据,存入 dataframe 对象
In [5]: df=pd.read_csv('/Users/xiangzhendong/Downloads/pydatafromweb/wages.csv')
In [6]: df[['Wage','Education','Sex']].tail()
由于性别是一个二分变量,我们可以绘制两条回归线,一条是 sex=0(男性),一条是 sex=1(女性)
#绘制散点图
In [7]: plt.scatter(df.Education,df.Wage, alpha=0.3)
In [9]: plt.xlabel('education')
In [10]: plt.ylabel('wage')
#linspace 的作用是生成从最小到最大的均匀分布的 n 个数
In [17]: education_linspace=np.linspace(df.Education.min(), df.Education.max(),100)
In [12]: import statsmodels.formula.api as smf
In [13]: est=smf.ols(formula='Wage ~ Education + Sex', data=df).fit()
In [18]: plt.plot(education_linspace, est.params[0]+est.params[1]education_linspace+est.params[2]0, 'r')
In [19]: plt.plot(education_linspace, est.params[0]+est.params[1]education_linspace+est.params[2]1, 'g')
以上两条线是平行的。这是因为分类变量只影响回归线的截距,不影响斜率。
接下来我们可以为回归模型增加交互项来探索交互效应。也就是说,对于两个类别,回归线的斜率是不一样的。
In [32]: plt.scatter(df.Education,df.Wage, alpha=0.3)
In [33]: plt.xlabel('education')
In [34]: plt.ylabel('wage')
#使用*代表我们的回归模型中除了交互效应,也包括两个变量的主效应;如果只想看交互效应,可以用:代替,但通常不会只看交互效应
In [35]: est=smf.ols(formula='Wage ~ Sex*Education', data=df).fit()
In [36]: plt.plot(education_linspace, est.params[0]+est.params[1]0+est.params[2]education_linspace+est.params[3]0education_linspace, 'r')
In [37]: plt.plot(education_linspace, est.params[0]+est.params[1]1+est.params[2]education_linspace+est.params[3]1education_linspace, 'g')
参考资料:DataRobot | Ordinary Least Squares in Python
DataRoboe | Multiple Regression using Statsmodels
AnalyticsVidhya | 7 Types of Regression Techniques you should know!
维基百科 | 最小二乘法当前位置: >>
双变量模型(中级计量经济学总结(四川大学,杨可扬)
简单线性回归模型? ――估计世界经济06级 杨可扬中级计量经济学 杨可扬1中级计量经济学 杨可扬2本章大纲n 普通最小二乘法的推导 n OLS估计量的性质 n 拟和优度中级计量经济学 杨可扬3复习1中级计量经济学 杨可扬4复习2――OLS估计量的推导?y? y? 4? ?? {? 4? }? .? ??3?.?? ?? ?? y?= b 0? + b1?x?y? 3? y? 2?.? ?? {? 2?}??? .? 1?x? 1? x? 2?y? 1?x? 3?x? 4?x?5?中级计量经济学 杨可扬复习2――OLS估计量的推导OLS法是要找到一条直线,使残差 平方和最小 n 也即是:n??? ?? ?? = Min? yi? - b 0?- b1x? Min?u 1?2? i i =1 ?? b 1? b 0,??? t?=1?中级计量经济学 杨可扬nn?2?()?6复习2――OLS估计量的推导?? ?? 令 èn?2 ? ?1 u??i ÷ t= ? = 0, ? b??0? N? ?? è? ?1? u?? ÷ t?= ? = 0?可 得 , ? b??2? i? 1?N?n-1??( i?=1?n? i?=1??? ?? yi - b0 - b1?x? = 0? i?)?? ?? n -1?? xi yi - b 0 - b1?xi? = 0?中级计量经济学 杨可扬 7()?复习2――OLS估计量的推导根据样本均值的定义以及加总的性质, 可将第一个条件写为?? ?? y? = b 0? + b 1?x?,? or? ?? ?? b 0? = y? - b 1?x?中级计量经济学 杨可扬 8复习2――OLS估计量的推导n?i?=1? n? ?? x? y?i? -? y? - b 1?x? - b 1?x? = 0? i? i? ?? x? ( y?i? - y?) = b 1?? x? ( x? - x?) i? i? i?i?=1? n n(())?i?=1? n i?=1??? ( x? - x?)2? ? (x?i? - x?)( y?i? - y?) = b 1?? i?i?=1?中级计量经济学 杨可扬 9So?the?OLS?estimated?slope?is?因此OLS估计出的斜率为?? b1 =? (xi?=? 1? nni?- x?)( y?i? - y?)2? i?? (x? - x?)i?=1? n i?=1?provided? that? ? ( x? - x?)? & 0? i?中级计量经济学 杨可扬 10?2?复习2――OLS估计量的推导??? = y - b x ?? b0 1?n??? b1? =? ( x - x )( y - y?)i i? i?=1? n?? ( x - x?)i? i?=1? n? i?=1?2?provided?that? ? ( xi? - x )? & 0?中级计量经济学 杨可扬 112?复习2――OLS估计量的推导n? OLS斜率估计法总n?结:n斜率估计量等于样本 中x?和?y?的协方差除以? x的方差。若x?和?y?正 相关则斜率为正,反 之为负。?? = i?=1? b1??( x - x )( y - y?)i i? n??( x - x?)i? i? 1? = n? i? 1? =2?provided?that??( xi? - x )? & 0?122?中级计量经济学 杨可扬OLS的代数性质n?OLS?残差和为零 n 因此?OLS?的样本残差平均值也为零.?n? n??? ?? ?? ?? )? ui? = ?(?y? - b0? - b1?x? = 0? ? i?i? 1 =? i? 1? =1? n? ?? and?thus,? ?u? = 0? i? n?i?=1?中级计量经济学 杨可扬 13?OLS的代数性质n OLS回归线总是通过样本的均值。?? ?? y? = b 0? + b1?x?中级计量经济学 杨可扬14?OLS的代数性质n 回归元(解释变量)和OLS残差之间的样本协方差为零?n??? ? x u? = 0?i? i? i?=? 1中级计量经济学 杨可扬 15?OLS的代数性质n预测值和残差在样本 中是不相关的? ???? ?? cov( y? ,?u? )?=?0? i? i??? cov(?i?,???)?=?E? y? - E? y?))(?i? - E?u?))? y u? (??? (??? u? (??? i? i? i? i? ?? = E? y? - E? y?))? i?)? ((??? (? i? u? i? = E? y?u?)?- y? (???)? (??? ?? E?u? i? i? i? = E? b + b x?)???]? [(??? ?? u?0 1? i? i??? (??? ?? (? ?? = b0?E?u?)?+ b1?E? x?u?)? i? i? i? = 0?中级计量经济学 杨可扬 16?复习3――十大经典假设?线性回归模型? 2.? 在重复抽样中X的值是固定的? 3.? 零条件均值? 4.? 同方差性? 5.? 无自相关? 6.? 扰动项和自变量简的协方差为零? 7.? 观测次数大于待估参数? 8.? X又有变异? 9.? 正确设定模型? 10.? 没有完全的多重共线性1.?中级计量经济学 杨可扬17OLS估计量的统计性质n 高斯―马尔可夫定理(Gauss??Markov?theorem)? 在给定经典线性回归的假定下,最 小二乘估计量是具有最小方差的线 性无偏估计量。?best?liner?unbiased?estimator,?BLUE中级计量经济学 杨可扬 18?1,线性性:?b0,b1?是yi?的线性组合??? ?? 以y?= b 0 + b1?x? 为例,则 ( ? x - x )?y? = (x - x? )? y?.? ?? b= ? (x - x? )? ( ? x -x ) ?i i? i? 1? 2 2? i? i i?(xi? - x? )? ??= 令wi = 则b1? ? wi y?。 i? 2? ( ? xi? - x? )? ?? 即b1?是相对于y的线性估计量。中级计量经济学 杨可扬 19?1,线性性(续)??? ?? b0 = y - b1?x? 1? 1? = ? yi - ? wi yi? x = ? ( -x? i )?y? w i? n? n?= ? ki y? i?1? 其中, - x? i=k? w i? n中级计量经济学 杨可扬 20?2,无偏性? 参数估计量的数学期望值 等于真实值。E ( b?? )? = b中级计量经济学 杨可扬 21?2,无偏性(续)n为了思考无偏性,我们需要用总体的参数重新写 出估计量 把公式简单地改写为? (x? - x?)y? ,?where? ?? b =?i i? 1?s?2? x?s? ? ? ( x? - x?) i?2? x?2?22?中级计量经济学 杨可扬2,无偏性(续)? (x -? x?) y? = ? (x? - x?)(b + b ? (x? - x?)b + ? (x? - x?)b x? + ? ( x? - x?)u? = b ? ( x? - x?) + b ? ( x? - x?)x? + ? ( x? - x?)? u?i? i? i? i? 0 0? i? 1? i? i? i? 0? i? 1? i? i? i? i?中级计量经济学 杨可扬1? i?x? + u?i? ) =23?2,无偏性(续) ? (x i? - x?) = 0?,? 2? ? (x?i? - x?)x?i? = ? (x?i? - x?)so?,?the? numerator? can? be? rewritten? as? 因此,分子可被重写作2? 1? x?b s? +?? b1?? (x? - x?)u? ,?and? thus? u? ? (x? - x?)? = b +i? i? i? i? 1?s?2? x?中级计量经济学 杨可扬24?2,无偏性(续) let d i? = ( x? - x?),?so? that? i??? = b + ? 1? 2? ? d? u? ,?then? b i? ? ÷ ?? i? i? 1? s?x? ? è ?? = b + ? 1? 2? ? d? E?(u? )?= b E? b 1? ? ÷ ? i? 1? i? 1? è s?x? ?( )中级计量经济学 杨可扬25?2,无偏性(续)?? ?? 由于 b 0? =? y? - b 1?x? ?? = b + b x? + u? - b x?0? 1? 1??? = b 0? + (?b 1? - b 1?)?x? + u? 故而 ?? ?? E?(?b 0? )? = b 0? + E?[(?b 1? - b 1?)?x?]?+ E?(?u?)? = b 0?中级计量经济学 杨可扬 26?3,最小方差性n 最小方差性是在所有线形无偏估计量中,最小二乘法估计量的方差最 小。最小方差 这一性质又称为有 效性或最佳性。中级计量经济学 杨可扬273,最小方差性(续) ?? ) = Var? ? b + ? 1? ? d? u? ? = ? ÷ Var? (b ? ÷? ? ÷ s? ? è1?è1?2? xi? i??? 1? ? ? 1? ? ? 2? ÷ Var? (? d? u? ) = ? 2? ÷ i? i? è s?x? ? è s?x? ? ? 1? ? =? 2? ÷ è s?x? ?2? 2?2?2?? d? Var? (u? )2? i? i? 2?? d? s2?2? i?2?? 1? ? =s ? 2? ÷ è s?x? ?2?? d?2? i?=? 1? ? 2? s 2? ?? s ? = Var? b 1? ÷ s?x? = 2? 2? s?x? ? s?x? è中级计量经济学 杨可扬( )?283,最小方差性(续)??? ?? Var? ( b 0? )? =?Var? (?b 0? + (?b 1? - b 1?)?x? + u?)? ?? = Var? ((?b - b )?x?)?+ Var? (?u?)?1? 1??? = Var? (?b 1?x?)?+ Var? (?u?)? ?? = x?2?Var? (?b )?+ Var? (?u?)?0?= x? =2?ss?2? 2? x+2??sé n?x?2? + ? (?x?i? - x?)?2? ù s = s 2? ê ú 2? 2? (?x?i? - x?)? ê n?? (?x?i? - x?)? ú ? ? 2? x?i? ?2??(?x?i? - x?)?2?n?中级计量经济学 杨可扬 293,最小方差性(续)? Var? b? =? 1?( )s 2?s?2? x?=s 2?n? 2? (?x? - x?)? ? i? i?=1??? Var?( b 0?)?=s 2?2? ( xi? - x )? ?2? x? ? i?n中级计量经济学 杨可扬303,最小方差性的证明???= 由 “ 线 性 性 ” 的 证 明 中 可 知 : b 1? ? w i y?i? % 设 b 1是 其 它 估 计 方 法 得 到 的 b 1? 线 性 无 偏 估 计 量 的 % b = (w + b )?y ,其 中 b?是 不 全 为 零 的 常 数1??iiii?Q cov( y i , y j ) = cov( u i , u j? ) = 0,?i ? j?? % var( b ) = s ? ( w + b? )? Q ? ( w + b )? ? ? w2 1? i i? 2 i i 2? i??? \ var( b 1?) =w i 2 var( y i )? = s2?2?w? 2? i?% ?? \ var( b 1 ) ? var( b 1?)?中级计量经济学 杨可扬 31OLS估计量样本方差的总结n误差方差 s2?越大,斜率估计量 的方差也越大nxi 的变动越大,斜率估计量的方差越小.因此我们应该选择 尽可能的分散开的xi? Var? b 1? =?( )s 2?s?2? x?=s 2?n(?x? - x?)?2? ? i?i?=1?n在实验数据中这一点(增大xi的 变动)有时是可能的,但在社会 科学中我们很少可以人为地增 加xi的变动。 大的样本容量能够减小样本斜 率估计量的方差。中级计量经济学 杨可扬n32?估计误差方差(1)n 我们不知道误差方差s2 是多少, 因为我们不能观察到误差 ui计n 我们观测到的是残差? ?? i n 我们可以用残差构成误差方差的估中级计量经济学 杨可扬33估计误差方差(2)n 首先,我们注意到2? s2?=E(u? ),?所以s2?n?的无偏估计量是 (1?/?n?)?? i?=?1?u?i?2?n?u? 是不可观测的,但我们找到一个u? i? i?的无偏估计量中级计量经济学 杨可扬34估计误差方差(3)?? ?? ?? u?i = y?i? - b 0 - b 1?x?i? ?? ?? = (b 0? + b 1?x?i? + u?i? ) - b 0? - b 1?x?i? ?? ?? = u? - b - b - b - bi?(0?0?) (1?1?)Then,? an? unbiased? estimator? of? s 2? is? 那么, s 的一个无偏估计量是2?1? 2? ?? ?? s = ??u?i? = SSR? /?(n?- 2?)? (n?- 2?)2?中级计量经济学 杨可扬 35估计误差方差(4)s? =? s?? = s?? 2? = Standard?error? of? the? regression?s?? 2? = 回归的标准误 recall? that? sd? b?? = s s?( )xif? we? substitute? 如果我们用s?? for? s then?we? have? s??替换 s ,那么我们可得到the? standard? error? of? b?? ,? 1? b?? 的标准误差,1?se? b?? = s?? /? ? 1?( )(( x?i? - x? )2?)?1?2?36中级计量经济学 杨可扬误差方差无偏估计量的证明(1)?? ?? ?? u i = y i - b 0 - b 1?x?i? ?? ?? = ( b 0 + b 1 x i + u i ) - b 0 - b 1?x?i? ?? ?? = u i - b 0 - b 0 - b 1 - b 1? x?i?...........(1)? ?? ?? ? 0 = u - b 0 - b 0 - b 1 - b 1? x?.........( 2 )? (1) - ( 2 ) :? ?? ?? u i = u i - u - b 1 - b 1? ( x i? - x )?中级计量经济学 杨可扬 37() ()() ( )?)(误差方差无偏估计量的证明(2)?? ? u i 2 = ( u i? - u? )?2? - 2 b?? - b 1? ( x i - x ) ( u i? - u? )? 1 + ?( ()( (b??1 - b 1?)2?( x i? - x? )?2? ( u i? - u? )?2? ( x i - x ) ( u i? - u? )? ( x i? - x )?2?38??? u i2 =- 2 b?? 1 +? b 1? ) ?b??1 - b 1?)? ?2?中级计量经济学 杨可扬误差方差无偏估计量的证明(3)?E[? (ui - u )2 ] =? E (ui 2 - 2ui?u + u?2?)? 2 2 1? 2 = n(s - s + s ) = (n?-1)? 2? s n n? 其中, E ui?2)= var(u? = s 2? ( )? 1? uiu = ui (u1 + u2? + ..... + ui? + .... + u? )? n? n 1? = (u1ui + u2?ui + ..... + ui 2? + .... + un?u?)? i? n2中级计量经济学 杨可扬 39误差方差无偏估计量的证明(4)?Q E uiu j)=cov(uiu?j?)=0, i ? j ( 2 2? 2? 2 \ E uiu)= E (ui? ) = var(u? = s (2 )? n n? 1? 2? 2 2 E (u ) = var(u ) + [ E (u?)]? = s n中级计量经济学 杨可扬 40误差方差无偏估计量的证明(5)?? E[ b1 - b1?() ? ( x - x)(u - u?)]?i i?2? E[? ( xi - x )u?]? i? = 2? ( xi? - x?)? ?[ E ? ( xi - x )ui ]2? + var[? ( xi - x )u?]? i? = 2? ( xi? - x?)? ? = var(u?)?= s 2? i? ?? E b1 - b1? = E[?中级计量经济学 杨可扬 41()?2?误差方差无偏估计量的证明(6)?? ( xi - x )?u?i?]?2? 2? ? ( xi? - x?)? ? ( xi - x )ui ]2? + var[ ? ( xi - x )?u?i?]? = [ E? 2 2? ? ( xi - x ) ? ( xi? - x?)?=s 2?2? ( xi? - x )? ?中级计量经济学 杨可扬 42误差方差无偏估计量的证明(7)?? 综上, E (? ui?2 ) = (n - 1)s 2 + s 2 - 2s 2 = (n?- 2)? 2? s u?2? ? ??i? )?= s 2? 也即, E? ( n?- 2? 那么,s 2? 的一个无偏估计量是 1? 2 ?? ??2? s = ui? = SSR / ( n?- 2? )? ? ( n - 2?)中级计量经济学 杨可扬 43Goodness-of-Fit 拟合优度W e?can?think?of?each?observation?as?being?m ade? up?of?an?explained?part,?and?an?unexplained?part,? 每一个观察值可被视为由解释部分和 ?? ?? 未 解 释 部 分 构 成 , y i = y i + u?i?。 D efine?: 定 义 :? ( y - y?) :?total?sum ?of?squares?(S S T )? 总 平 方 和? ?? ? ( y - y )? :?explaine?d?sum ?of?squares?(S S E )? 解 释 平 方 和 ?? ? u :??residual?sum ?of?squares?(S SR )? 残 差 平 方 和i? i? 2? 2? i?2?T hen?SS T ? = ?S S E ? + ?S S R? 有 , S ST ? = ?S S E ? + ?S S R?中级计量经济学 杨可扬 44拟合优度(续)中级计量经济学 杨可扬45拟合优度(续) 证明SST=SSE+SSR?SST =?i( y i - y?i? )?2?2?2? ??i ) - ( y i - y?i? )]? ?? = ? [( y i - y?? ?? ? [ u - ( y - y? )]? ?? ?? ?? ?? = ? u - 2 ? u ( y - y ) + ? ( y - y? )? ?? ?? = ? u + ? ( y - y? )? =i i? 2? 2? i i i i i i i? 2? i i?2?= SSR + SSE中级计量经济学 杨可扬 46拟合优度(续)我们怎样衡量我们的样本回归线拟合样本数据 有多好呢? w 可以计算总平方和(SST)中被模型解释的部 2? 分,称此为回归R?2? =?SSE/SST? w?R?=?1?C?SSR/SST中级计量经济学 杨可扬 47拟合优度(续)1.0 ? R ? 1?2?2. 3.4. 5.R2 越大,表明回归直线与样本观察值拟合得 越好,反之,拟合得就越差。 R2的局限性: 当回归中加入另外的解释变量时,R2通常会上 升。此代数事实成立,因为当模型加入更多回 归元时,残差平方和绝不会增加。 R2很高,模型未必就好。 R2=0,不能说明自变量与因变量就没有关系。?中级计量经济学 杨可扬 48拟合优度(续)数理统计知识?样本协方差: 1? S xy = ? ( xi - x )( yi? - y?)? n?- 1? 样本相关系数: r? = xy? S?xy? S x S?y? =? ( x - x )( y - y?)? ? ( x - x ) ? ( y - y )?i i? 2 i i?中级计量经济学 杨可扬2?49拟合优度(续)我们也可以证明R 等于实际的y?与 i?2??? 估计的y?之间相关系数的平方 i? ryi y?i? = ??2?? ( ? ( y - y ) ( y?? - y?))i i? 2? i i?2?( ? ( y - y ) ) ( ? ( y?? - y??) )?2?中级计量经济学 杨可扬= R?2?详见Gujarati课后习题50简单线性回归模型? ――推断世界经济06级 杨可扬中级计量经济学 杨可扬51本章大纲n区间估计 n假设检验中级计量经济学 杨可扬52?? P? b -?d ? b ? b + d )?= 1?- a (? ??如果存在这样一个区间,称之为置信区间 (confidence? interval);? 1?a称为置信系数(置信度) (confidence? coefficient), a称为显著性水平(level? of? significance ) ; 置 信 区 间 的 端 点 称 为 置 信 限 (confidence?limit)或临界值(critical?values)。中级计量经济学 杨可扬53中级计量经济学 杨可扬54未能拒绝?拒绝拒绝a/2-? a t2?(1 - a) 0中级计量经济学 杨可扬a/2ta2?55?正态性假设?ui? : NID(0, s )?2?c yi ?~?NID(b 0 ?+?b1x i??,?s )?中级计量经济学 杨可扬 562?抽样分布b??j= ? w i y?i?( b??j- bj?)s d? b??j?( )2?~ ?N ( 0 ,1?)(n - 2)?? 2? ssj?2?~ c ( n? - 2 )? ~ ? t ( n? - 2 )?57(b??j? - b)s e b??j?( )?中级计量经济学 杨可扬一元线性模型中,b? (i=0,1)的置信 i? 区间?? bi - bi? t= ~ t (n?-?2)? ??)? se(bi?意味着,如果给定置信度(1-a),从分布 表中查得自由度为(n-2)的临界值,那么t值处在 (-ta/2, ta/2)的概率是(1-a )。表示为:?P? -t?a & t? & t?a ) = 1?- a? (?2? 2?即??? b i - bi P ( -t a & & t? ) = 1?-?a ??)? a se( b i?2 2??? ?? ?? ?? P ( b i - t a ? se( b i ) & b i & b i + t a ? se( b i?)) = 1?- a2 2?中级计量经济学 杨可扬58置信区间于是得到:(1?a)的置信度下, b的置信 区间是??? ?? ?? ?? ( bi - t a ? se( bi ), bi + t a ? se( bi?))?2 2?中级计量经济学 杨可扬59b 的置信区间n如果自由度为25,那么对任意bj? ,95%的 置信区间为 ? ? ? ?[ b j - 2.06 ×?se( b j?),? b j + 2.06 ×?se( b j?)]?n当自由度&120,?t(n?k?1)?分布与正态分布 充分接近,可以用标准正态分布的97.5分位 数来构造95%置信区间?? ?[ b j - 1.96 ×?se( b j?),? b j + 1.96 × se( b j?)]?中级计量经济学 杨可扬 60??假设检验nnn所谓假设检验,就是事先对总体参数或总体分布形式作 出一个假设,然后利用样本信息来判断原假设是否合理, 即判断样本信息与原假设是否有显著差异,从而决定是否 接受或否定原假设。 假设检验采用的逻辑推理方法是反证法。 先假定原假设正确,然后根据样本信息,观察由此假设而 导致的结果是否合理,从而判断是否接受原假设。 判断结果合理与否,是基于“小概率事件不易发生”这一 原理的中级计量经济学 杨可扬61检验步骤:(1)对总体参数提出假设? H? : b? =0,? 0? 1??? b1? t? = ?? se( b1?)?H? :b? ?0? 1? 1(2)以原假设H0构造t统计量,并由样本计算其值(3)给定显著性水平a,查t分布表,得临界值t a/2?(n?2)?(4) 比较,判断 若? |t|&?t a/2?(n?2),则拒绝H? 0? 若? |t|??t a/2?(n?2),则未能拒绝H0?,?中级计量经济学 杨可扬 62t检验的p值n 假设自由度为40,算得?t?值为?2.423,对应5%和1%的临界值分 别为2.021?和?2.704。我们是否应 当拒绝零假设?n “Tobe, or not to be: that is the question.” -- Hamlet中级计量经济学 杨可扬63?t检验的p值(续)n 另一种想法:如果将算得的t?统计量作为临界值,那么使得零假设被拒绝的 最小显著水平是多少?n这个水平称为p?值。对于双边检验?p?value=P(|T|&|t|)中级计量经济学 杨可扬 64?t检验的p值(续)?P值的实质:能够拒绝原假设的最小显著性水平选择的显著性水平低于P值则不能拒绝,高于则可以拒 绝-? t中级计量经济学 杨可扬t?65?注意:t值的计算不依赖于显著性水平,判决值才依赖t检验的p值(续)――实例?上例中假设自由度为40,算得 t 值为2.423,对应5%和1% 的临界值分别为2.021 和 2.704pvalue=P(|T|&2.423)=2P(T&2.423)=0.02 。 必有 1%&p&5%.也即,在5%的水平上可以拒绝,而在1% 的水平上则不能.p? α/2?p? α/2?t? 0.01? 0.005? t?t? 0.025?t? 0.01? t? 0.025? t? 0.005?中级计量经济学 杨可扬66?简单线性回归模型? ――预测世界经济06级 杨可扬中级计量经济学 杨可扬67本章大纲v点预测(点估计) v区间预测(区间估计)中级计量经济学 杨可扬68点预测(个别值与均值)设有模型? yt = a + b xt + ut?, t =?1, 2 ~?n t表示第t个抽样时期,现在假设属于抽样时 期以外的某个特定时期的X已知,且上式 同样适用于这个时期,因变量有:?y = a + b x0 + u0?中级计量经济学 杨可扬 690?点预测(个别值与均值)(续)我们可以利用模型和样本观察值得出回归方程?? ?? ?? yt = a +?b xt?x? 将t外推到抽样期之外的某个预测期0,就有0??? ?? ?? y = a +?b x0?0??? 其中 x? 已知。此时 y?0? 即可作为均值 E ( y | x? )? 0? 0? 0? 估计值也可以作为个别值 y? 的估计值。?中级计量经济学 杨可扬70区间估计――均值??? ?? ?? 设有估计方程? y = b 0 + b1 x1?想要估计的参数:E ( y | x? )? 0? 令q 0 = E ( y | x0 )?= b 0 + b1 x? 0? ?? ?? ?? 它的估计量是q = b + b x0 0中级计量经济学 杨可扬1 0?71区间估计――均值1、可以证明?( q??0? 服从正态分布? N 0,var(q?? )? 0? )?2? ( x0? - x?)? ??q 0?) = s 2?[ 1? + var( ?? ]? n? 2? ??( xt? - x )?s?2? 将 s?2 用 s?u2? 代替,得 ???? var(q? ) 的估计量? 0?2??? )?= s ( 1? + ( x0? - x?)? ) ?? n? se?q 0? ( 2? ? ( xt? - x )?中级计量经济学 杨可扬 72区间估计――均值(续)构造t统计量q?? - q 0? 0 t= :?t (n?- 2)? ?? se(q 0?)?置信度=? 1? a ,自由度=n?2, ? 的置信区间 -? q0 为??? - t ( n -2) ? se(q ),q + t ( n?- 2)? ? se(q ))? ?? ?? ?? (q0a 200a 20?中级计量经济学 杨可扬73区间估计――均值(续)?2? ( x0 - x ) 2 ( x0? - x?)? ?? ( ?? n ?? n? (q 0 - tan2 2) ? s ( 1 + )q 0 + t?( n?2?2)? ? s ( 1? + , ?? a ) )? 2 2? ? ( xt - x ) ? ( xt? - x )??? )?= s ( 1? + ( x0? - x?)? )? ?? n? se?q 0? ( 2? ? ( xt? - x )?2?中级计量经济学 杨可扬74区间估计――均值(续)更简单的因为? 0 = E ( y | x0 )?= b 0 + b1 x0? q方法?所以? 0 = q 0 - b1 x0? b代入y = b 0 + b1 x0? + u? 我们可以得到 y = q 0 + b1 (?x1 - x0? + u )?q?0?的标准误差就是新的回归截距项的标准误差中级计量经济学 杨可扬 75区间估计――个别值?我们刚刚定义q 0? = E ( y | x0?)? 因此,我们可以为y的平均值建立一个置信区间?如何为总体中的一个特定的值,y?0? 建立置信区间呢? , 需要考虑进不可观察误差的变化。中级计量经济学 杨可扬76令y 的OLS? 回归线为 ?? ?? 0? ??0 = b + b x? y?0 1?1?区间估计――个别值(续)? 0?则,预测误差为,? ??0 = y 0 - y0?.? ?? e?? 容易证明E(e0?) = 0? 。 ?? ?? ?? ?? Var(e0 ) = Var (y 0 ) + Var (u 0 ) = Var?(y 0 )?+ s 2? 。2? ( x0? - x?)? ?? 因此,se? ??0?)?= s (1+ 1? + (e ) n? 2? ? ( xt? - x )?中级计量经济学 杨可扬 77区间估计――个别值(续)? ?? ?? e - 0? y0 - y? 0? t= = :?t (n?- 2)? 0 0? ?? ?? se(e ) se(e )?现在预测区间为( ( ?? ?? ?? ??0 - tan2 2) ? se(e0 ), y 0 + tan?2?2) ? se(e0?)]? [y0?中级计量经济学 杨可扬78区间估计――个别值(续):更简 单的方法?预测区间为?( ?? ?? ?? ?? ( [y 0 - tan2 2) ? se(e0 ), y 0 + tan?2?2) ? se(e0?)]?关键问题:? (e )? se? ??0?0?? ?? ?? ?? Var(e ) = Var (y ) + Var (u ) = Var?(y )?+ s ?? ??0 ) = se(y 0 ) 2 + s 2 = se(q 0?)?+ s 2? ?? ?? ?? se(e中级计量经济学 杨可扬0002?79中级计量经济学 杨可扬80对上图的解释1?现象1:置信带当x0 = x时达到最小,且随着x0?远离x 而迅速增大?2? ( x0? - x?)? ?? n? 原因1:se? q 0?)?= s ( 1? + ( ?? ) 2? ? ( xt? - x?)? 2? ( x0? - x?)? ?? se? ??0?)?= s (1+ 1? + (e )? n? 2? ? ( xt? - x )?结论1:预测效果随着x0?远离x? 而显著下降中级计量经济学 杨可扬 81对上图的解释2?现象1:E ( y | x0?)? 的置信带比y?0? 的置信带窄?2? ( x0? - x?)? ?? n? 原因1:se?q 0?)?= s ( 1? + ( ?? ) 2? 简单线性回归模型?)? ? ( xt? - x?――估计2? ( x0? - x?)? ??0?)?= s (1+ 1? + ?? se? (e )? n? 2? ? ( xt? - x )?事实上,随着n ? ?, E ( y | x? )? 0? 的置信区间宽度趋于0, 而y 0? 的置信区间宽度却不会中级计量经济学 杨可扬 82书中自有黄金屋? 书中自有黄金屋――? 单线性回归实例 简单线性回归实例 简世界经济06级 杨可扬 06?83?读书的目的n你读书可能可能为了实现共产主义 可能为了报效祖国, 可能为了发展我国的经济学 可能为了报答父母……… ………?84?nnn读书的目的(续)85?建立模型? 建立模型wage = b 0 + b1?educ + u? 其中wage? 表示每小时工资(美元) educ表示受教育的年数b 0?表示没有受教育时,且不考虑其它因素时的工资 b1?表示其它因素不变,增加一年教育能够带来的工资增长u可能包括如,工作经验,天生能力,职业道德等因素86?Eviews简介 建立工作文件启动EViews, 点击File\New\Workfile,弹出工 作文件对话框,选择数据的时间频率、起始期和终 止期。时间频率 年度 半年 季度 月度 起始期 周 日 非时序数据 终止期Eviews简介(续)数组窗口图数组窗口Eviews简介(续)回归结果常数和解 释变量 判定系数 调整的判定系数 回归方程的标准差 残差平方和 似然函数的对数 德宾?瓦森统计量 被解释变量均值 被解释变量标准差 赤池信息准则 施瓦兹信息准则? F统计量? F统计量的概率T统计 参数估 参数标 双侧 量值 计值 准差? 概率估计参数1 1?90?估计参数2??? wage = -0.90 + 0.54? educ (0.68)(0.05? )? n=526,?R = 0.16??? b1?=0.54其 因 不 , 加 年 育 每 时 资 计 长 美 它 素 变 增 一 教 , 小 工 预 增 0.54 元??? b 0? = -0.90表示没有受过教育那么预计每小时工资为 - 0.90美元?2?在526个样本值中只有18人受过少于8? 年的教育91?参数的区间估计? 参数的区间估计?? b1 =0.54,? (?b1 ) = 0.05, t? (524) = 1.96? se ?? 0.025? 0.54 ± 0.? 05*1.96?于是可得:在95%的置信度下,b1? 的置信区间为 (0.42,0.63)92?参数的假设检验? 参数的假设检验H 0 : b1 = 0 ? H1 : b1? ??0?teduc? = 10.16, t? (524) = 1.96? 0.025? 显然? educ? & t0.025?(524)? t故,拒绝H 0? ,即在5? %的显著性水平上,b1?显著的不为零?peduc = 0.000093?均值的估计? 均值的估计?? wage = -0.90 + 0.54? educ? 当educ0? = 16时,? ?? = 7.74? wage0??? 令q 0 = E ( wage educ? = 16), 则q 0? = 7.74? 0 改写方程为wage = q 0 + b1? educ - 16)?+ u (?se?q 0?) = 0.23,?代入公式? ( ?? ?? - t ( n - 2) ? se(q ),q + t ( n?- 2)? ? se(q ))? ?? ?? ?? (q0a 200a 20?可得,在95%的置信度下,E ( wage educ0? = 16)? 的置信区间为(7.29,8.19)94?95 95?n谢谢大家96?97 97?98 98?99 99?100 100?n不够101?102 102?103 103?104 104?105 105?106 106?107 107?
All rights reserved Powered by
copyright ©right 。文档资料库内容来自网络,如有侵犯请联系客服。