为什么ols回归线的性质证明总是通过样本均值

利用 python 进行线性回归 - 简书
利用 python 进行线性回归
利用python进行线性回归
理解什么是线性回归
线性回归也被称为最小二乘法回归(Linear Regression, also called Ordinary Least-Squares (OLS) Regression)。它的数学模型是这样的:
y = a+ b* x+e
其中,a 被称为常数项或截距;b 被称为模型的回归系数或斜率;e 为误差项。a 和 b 是模型的参数。
当然,模型的参数只能从样本数据中估计出来:
y'= a' + b'* x
我们的目标是选择合适的参数,让这一线性模型最好地拟合观测值。拟合程度越高,模型越好。那么,接下来的问题就是,我们如何判断拟合的质量呢?
这一线性模型可以用二维平面上的一条直线来表示,被称为回归线。
模型的拟合程度越高,也即意味着样本点围绕回归线越紧密。
如何计算样本点与回归线之间的紧密程度呢?
高斯和勒让德找到的方法是:被选择的参数,应该使算出来的回归线与观测值之差的平房和最小。用函数表示为:
这被称为最小二乘法。最小二乘法的原理是这样的:当预测值和实际值距离的平方和最小时,就选定模型中的两个参数(a 和 b)。这一模型并不一定反映解释变量和反应变量真实的关系。但它的计算成本低;相比复杂模型更容易解释。
模型估计出来后,我们要回答的问题是:我们的模型拟合程度如何?或者说,这个模型对因变量的解释力如何?(R2)
整个模型是否能显著预测因变量的变化?(F 检验)
每个自变量是否能显著预测因变量的变化?(t 检验)
首先回答第一个问题。为了评估模型的拟合程度如何,我们必须有一个可以比较的基线模型。
如果让你预测一个人的体重是多少?在没有任何额外信息的情况下,你可能会用平均值来预测,尽管会存在一定误差,但总比瞎猜好。
现在,如果你知道他的身高信息,你的预测值肯定与平均值不一样。额外信息相比平均值更能准确地预测被预测的变量的能力,就代表模型的解释力大小。
上图中,SSA 代表由自变量 x 引起的 y 的离差平方和,即回归平方和,代表回归模型的解释力;SSE 代表由随机因素引起的 y 的离差平方和,即剩余平方和,代表回归模型未能解释的部分;SST 为总的离差平方和,即我们仅凭 y 的平均值去估计 y 时所产生的误差。
用模型能够解释的变异除以总的变异就是模型的拟合程度:R2=SSA/SST=1-SSE
R2(R 的平方)也被称为决定系数或判定系数。
第二个问题,我们的模型是否显著预测了 y 的变化?
假设 y 与 x 的线性关系不明显,那么 SSA 相对 SSE 占有较大的比例的概率则越小。换句话说,在 y 与 x 无线性关系的前提下,SSA 相对 SSE 的占比越高的概率是越小的,这会呈现一定的概率分布。统计学家告诉我们它满足 F 分布,就像这样:
如果 SSA 相对 SSE 占比较大的情况出现了,比如根据 F 分布,这个值出现的概率小于 5%。那么,我们最好是拒绝 y 与 x 线性关系不显著的原始假设,认为二者存在显著的线性关系较为合适。
第三个问题,每个自变量是否能显著预测因变量的变化?换句话说,回归系数是否显著?
回归系数的显著性检验是围绕回归系数的抽样分布(t 分布)来进行的,推断过程类似于整个模型的检验过程,不赘言。
实际上,对于只有一个自变量的一元线性模型,模型的显著性检验和回归系数的检验是一致的,但对于多元线性模型来说,二者就不能等价了。
利用 statsmodels 进行最小二乘回归
#导入相应模块
In [1]: import numpy as np
In [2]: import pandas as pd
In [3]: import statsmodels.api as sm
#将数据导入 pandas 的 dataframe 对象,第一列(年份)作为行标签
In [4]: df=pd.read_csv('/Users/xiangzhendong/Downloads/vincentarelbundock-Rdatasets-1218370/csv/datasets/longley.csv', index_col=0)#查看头部数据In [5]: df.head()
GNP.deflator
Unemployed
Armed.Forces
Population
#设置预测变量和结果变量,用 GNP 预测 Employed
In [6]: y=df.Employed #结果变量
In [7]: X=df.GNP #预测变量#为模型增加常数项,即回归线在 y 轴上的截距In [8]: X=sm.add_constant(X)
#执行最小二乘回归,X 可以是 numpy array 或 pandas dataframe(行数等于数据点个数,列数为预测变量个数),y 可以是一维数组(numpy array)或 pandas series
In [10]: est=sm.OLS(y,X)
使用 OLS 对象的 fit() 方法来进行模型拟合
In [11]: est=est.fit()#查看模型拟合的结果In [12]: est.summary()
#查看最终模型的参数In [13]: est.params
dtype: float64
#选择 100 个从最小值到最大值平均分布(equally spaced)的数据点
In [14]: X_prime=np.linspace(X.GNP.min(), X.GNP.max(),100)[:,np.newaxis]
In [15]: X_prime=sm.add_constant(X_prime)
#计算预测值
In [16]: y_hat=est.predict(X_prime)
In [17]: plt.scatter(X.GNP, y, alpha=0.3) #画出原始数据#分别给 x 轴和 y 轴命名
In [18]: plt.xlabel("Gross National Product")
In [19]: plt.ylabel("Total Employment")
In [20]: plt.plot(X_prime[:,1], y_hat, 'r', alpha=0.9) #添加回归线,红色
多元线性回归(预测变量不止一个)
我们用一条直线来描述一元线性模型中预测变量和结果变量的关系,而在多元回归中,我们将用一个多维(p)空间来拟合多个预测变量。下面表现了两个预测变量的三维图形:商品的销量以及在电视和广播两种不同媒介的广告预算。
数学模型是:
Sales = beta_0 + beta_1*TV + beta_2*Radio
图中,白色的数据点是平面上的点,黑色的数据点事平面下的点。平面的颜色是由对应的商品销量的高低决定的,高是红色,低是蓝色。
利用 statsmodels 进行多元线性回归
In [1]: import pandas as pd
In [2]: import numpy as np
In [3]: import statsmodels.api as sm
In [4]: df_adv=pd.read_csv(')
In [6]: X=df_adv[['TV','Radio']]
In [7]: y=df_adv['Sales']
In [8]: df_adv.head()
In [9]: X=sm.add_constant(X)
In [10]: est=sm.OLS(y,X).fit()
In [11]: est.summary()
你也可以使用 statsmodels 的 formula 模块来建立多元回归模型
In [12]: import statsmodels.formula.api as smf
In [13]: est=smf.ols(formula='Sales ~ TV + Radio',data=df_adv).fit()
处理分类变量
性别或地域都属于分类变量。
In [15]: df= pd.read_csv('', index_col=0)
In [16]: X=df.copy()
利用 dataframe 的 pop 方法将 chd 列单独提取出来
In [17]: y=X.pop('chd')
In [18]: df.head()
In [19]: y.groupby(X.famhist).mean()
Name: chd, dtype: float64
In [20]: import statsmodels.formula.api as smf
In [21]: df['famhist_ord']=pd.Categorical(df.famhist).labels
In [22]: est=smf.ols(formula="chd ~ famhist_ord", data=df).fit()分类变量的编码方式有许多,其中一种编码方式是虚拟变量编码(dummy-encoding),就是把一个 k 个水平的分类变量编码成 k-1 个二分变量。在 statsmodels 中使用 C 函数实现。
In [24]: est=smf.ols(formula="chd ~ C(famhist)", data=df).fit()
In [26]: est.summary()
处理交互作用
随着教育年限(education)的增长,薪酬 (wage) 会增加吗?这种影响对男性和女性而言是一样的吗?
这里的问题就涉及性别与教育年限的交互作用。
换言之,教育年限对薪酬的影响是男女有别的。
#导入相关模块
In [1]: import pandas as pd
In [2]: import numpy as np
In [4]: import statsmodels.api as sm
#导入数据,存入 dataframe 对象
In [5]: df=pd.read_csv('/Users/xiangzhendong/Downloads/pydatafromweb/wages.csv')
In [6]: df[['Wage','Education','Sex']].tail()
由于性别是一个二分变量,我们可以绘制两条回归线,一条是 sex=0(男性),一条是 sex=1(女性)
#绘制散点图
In [7]: plt.scatter(df.Education,df.Wage, alpha=0.3)
In [9]: plt.xlabel('education')
In [10]: plt.ylabel('wage')
#linspace 的作用是生成从最小到最大的均匀分布的 n 个数
In [17]: education_linspace=np.linspace(df.Education.min(), df.Education.max(),100)
In [12]: import statsmodels.formula.api as smf
In [13]: est=smf.ols(formula='Wage ~ Education + Sex', data=df).fit()
In [18]: plt.plot(education_linspace, est.params[0]+est.params[1]education_linspace+est.params[2]0, 'r')
In [19]: plt.plot(education_linspace, est.params[0]+est.params[1]education_linspace+est.params[2]1, 'g')
以上两条线是平行的。这是因为分类变量只影响回归线的截距,不影响斜率。
接下来我们可以为回归模型增加交互项来探索交互效应。也就是说,对于两个类别,回归线的斜率是不一样的。
In [32]: plt.scatter(df.Education,df.Wage, alpha=0.3)
In [33]: plt.xlabel('education')
In [34]: plt.ylabel('wage')
#使用*代表我们的回归模型中除了交互效应,也包括两个变量的主效应;如果只想看交互效应,可以用:代替,但通常不会只看交互效应
In [35]: est=smf.ols(formula='Wage ~ Sex*Education', data=df).fit()
In [36]: plt.plot(education_linspace, est.params[0]+est.params[1]0+est.params[2]education_linspace+est.params[3]0education_linspace, 'r')
In [37]: plt.plot(education_linspace, est.params[0]+est.params[1]1+est.params[2]education_linspace+est.params[3]1education_linspace, 'g')
参考资料:DataRobot | Ordinary Least Squares in Python
DataRoboe | Multiple Regression using Statsmodels
AnalyticsVidhya | 7 Types of Regression Techniques you should know!
维基百科 | 最小二乘法当前位置: >>
双变量模型(中级计量经济学总结(四川大学,杨可扬)
简单线性回归模型? ――估计世界经济06级 杨可扬中级计量经济学 杨可扬1 中级计量经济学 杨可扬2 本章大纲n 普通最小二乘法的推导 n OLS估计量的性质 n 拟和优度中级计量经济学 杨可扬3 复习1中级计量经济学 杨可扬4 复习2――OLS估计量的推导?y? y? 4? ?? {? 4? }? .? ??3?.?? ?? ?? y?= b 0? + b1?x?y? 3? y? 2?.? ?? {? 2?}??? .? 1?x? 1? x? 2?y? 1?x? 3?x? 4?x?5?中级计量经济学 杨可扬 复习2――OLS估计量的推导OLS法是要找到一条直线,使残差 平方和最小 n 也即是:n??? ?? ?? = Min? yi? - b 0?- b1x? Min?u 1?2? i i =1 ?? b 1? b 0,??? t?=1?中级计量经济学 杨可扬nn?2?()?6 复习2――OLS估计量的推导?? ?? 令 èn?2 ? ?1 u??i ÷ t= ? = 0, ? b??0? N? ?? è? ?1? u?? ÷ t?= ? = 0?可 得 , ? b??2? i? 1?N?n-1??( i?=1?n? i?=1??? ?? yi - b0 - b1?x? = 0? i?)?? ?? n -1?? xi yi - b 0 - b1?xi? = 0?中级计量经济学 杨可扬 7()? 复习2――OLS估计量的推导根据样本均值的定义以及加总的性质, 可将第一个条件写为?? ?? y? = b 0? + b 1?x?,? or? ?? ?? b 0? = y? - b 1?x?中级计量经济学 杨可扬 8 复习2――OLS估计量的推导n?i?=1? n? ?? x? y?i? -? y? - b 1?x? - b 1?x? = 0? i? i? ?? x? ( y?i? - y?) = b 1?? x? ( x? - x?) i? i? i?i?=1? n n(())?i?=1? n i?=1??? ( x? - x?)2? ? (x?i? - x?)( y?i? - y?) = b 1?? i?i?=1?中级计量经济学 杨可扬 9 So?the?OLS?estimated?slope?is?因此OLS估计出的斜率为?? b1 =? (xi?=? 1? nni?- x?)( y?i? - y?)2? i?? (x? - x?)i?=1? n i?=1?provided? that? ? ( x? - x?)? & 0? i?中级计量经济学 杨可扬 10?2? 复习2――OLS估计量的推导??? = y - b x ?? b0 1?n??? b1? =? ( x - x )( y - y?)i i? i?=1? n?? ( x - x?)i? i?=1? n? i?=1?2?provided?that? ? ( xi? - x )? & 0?中级计量经济学 杨可扬 112? 复习2――OLS估计量的推导n? OLS斜率估计法总n?结:n斜率估计量等于样本 中x?和?y?的协方差除以? x的方差。若x?和?y?正 相关则斜率为正,反 之为负。?? = i?=1? b1??( x - x )( y - y?)i i? n??( x - x?)i? i? 1? = n? i? 1? =2?provided?that??( xi? - x )? & 0?122?中级计量经济学 杨可扬 OLS的代数性质n?OLS?残差和为零 n 因此?OLS?的样本残差平均值也为零.?n? n??? ?? ?? ?? )? ui? = ?(?y? - b0? - b1?x? = 0? ? i?i? 1 =? i? 1? =1? n? ?? and?thus,? ?u? = 0? i? n?i?=1?中级计量经济学 杨可扬 13? OLS的代数性质n OLS回归线总是通过样本的均值。?? ?? y? = b 0? + b1?x?中级计量经济学 杨可扬14? OLS的代数性质n 回归元(解释变量)和OLS残差之间的样本协方差为零?n??? ? x u? = 0?i? i? i?=? 1中级计量经济学 杨可扬 15? OLS的代数性质n预测值和残差在样本 中是不相关的? ???? ?? cov( y? ,?u? )?=?0? i? i??? cov(?i?,???)?=?E? y? - E? y?))(?i? - E?u?))? y u? (??? (??? u? (??? i? i? i? i? ?? = E? y? - E? y?))? i?)? ((??? (? i? u? i? = E? y?u?)?- y? (???)? (??? ?? E?u? i? i? i? = E? b + b x?)???]? [(??? ?? u?0 1? i? i??? (??? ?? (? ?? = b0?E?u?)?+ b1?E? x?u?)? i? i? i? = 0?中级计量经济学 杨可扬 16? 复习3――十大经典假设?线性回归模型? 2.? 在重复抽样中X的值是固定的? 3.? 零条件均值? 4.? 同方差性? 5.? 无自相关? 6.? 扰动项和自变量简的协方差为零? 7.? 观测次数大于待估参数? 8.? X又有变异? 9.? 正确设定模型? 10.? 没有完全的多重共线性1.?中级计量经济学 杨可扬17 OLS估计量的统计性质n 高斯―马尔可夫定理(Gauss??Markov?theorem)? 在给定经典线性回归的假定下,最 小二乘估计量是具有最小方差的线 性无偏估计量。?best?liner?unbiased?estimator,?BLUE中级计量经济学 杨可扬 18? 1,线性性:?b0,b1?是yi?的线性组合??? ?? 以y?= b 0 + b1?x? 为例,则 ( ? x - x )?y? = (x - x? )? y?.? ?? b= ? (x - x? )? ( ? x -x ) ?i i? i? 1? 2 2? i? i i?(xi? - x? )? ??= 令wi = 则b1? ? wi y?。 i? 2? ( ? xi? - x? )? ?? 即b1?是相对于y的线性估计量。中级计量经济学 杨可扬 19? 1,线性性(续)??? ?? b0 = y - b1?x? 1? 1? = ? yi - ? wi yi? x = ? ( -x? i )?y? w i? n? n?= ? ki y? i?1? 其中, - x? i=k? w i? n中级计量经济学 杨可扬 20? 2,无偏性? 参数估计量的数学期望值 等于真实值。E ( b?? )? = b中级计量经济学 杨可扬 21? 2,无偏性(续)n为了思考无偏性,我们需要用总体的参数重新写 出估计量 把公式简单地改写为? (x? - x?)y? ,?where? ?? b =?i i? 1?s?2? x?s? ? ? ( x? - x?) i?2? x?2?22?中级计量经济学 杨可扬 2,无偏性(续)? (x -? x?) y? = ? (x? - x?)(b + b ? (x? - x?)b + ? (x? - x?)b x? + ? ( x? - x?)u? = b ? ( x? - x?) + b ? ( x? - x?)x? + ? ( x? - x?)? u?i? i? i? i? 0 0? i? 1? i? i? i? 0? i? 1? i? i? i? i?中级计量经济学 杨可扬1? i?x? + u?i? ) =23? 2,无偏性(续) ? (x i? - x?) = 0?,? 2? ? (x?i? - x?)x?i? = ? (x?i? - x?)so?,?the? numerator? can? be? rewritten? as? 因此,分子可被重写作2? 1? x?b s? +?? b1?? (x? - x?)u? ,?and? thus? u? ? (x? - x?)? = b +i? i? i? i? 1?s?2? x?中级计量经济学 杨可扬24? 2,无偏性(续) let d i? = ( x? - x?),?so? that? i??? = b + ? 1? 2? ? d? u? ,?then? b i? ? ÷ ?? i? i? 1? s?x? ? è ?? = b + ? 1? 2? ? d? E?(u? )?= b E? b 1? ? ÷ ? i? 1? i? 1? è s?x? ?( )中级计量经济学 杨可扬25? 2,无偏性(续)?? ?? 由于 b 0? =? y? - b 1?x? ?? = b + b x? + u? - b x?0? 1? 1??? = b 0? + (?b 1? - b 1?)?x? + u? 故而 ?? ?? E?(?b 0? )? = b 0? + E?[(?b 1? - b 1?)?x?]?+ E?(?u?)? = b 0?中级计量经济学 杨可扬 26? 3,最小方差性n 最小方差性是在所有线形无偏估计量中,最小二乘法估计量的方差最 小。最小方差 这一性质又称为有 效性或最佳性。中级计量经济学 杨可扬27 3,最小方差性(续) ?? ) = Var? ? b + ? 1? ? d? u? ? = ? ÷ Var? (b ? ÷? ? ÷ s? ? è1?è1?2? xi? i??? 1? ? ? 1? ? ? 2? ÷ Var? (? d? u? ) = ? 2? ÷ i? i? è s?x? ? è s?x? ? ? 1? ? =? 2? ÷ è s?x? ?2? 2?2?2?? d? Var? (u? )2? i? i? 2?? d? s2?2? i?2?? 1? ? =s ? 2? ÷ è s?x? ?2?? d?2? i?=? 1? ? 2? s 2? ?? s ? = Var? b 1? ÷ s?x? = 2? 2? s?x? ? s?x? è中级计量经济学 杨可扬( )?28 3,最小方差性(续)??? ?? Var? ( b 0? )? =?Var? (?b 0? + (?b 1? - b 1?)?x? + u?)? ?? = Var? ((?b - b )?x?)?+ Var? (?u?)?1? 1??? = Var? (?b 1?x?)?+ Var? (?u?)? ?? = x?2?Var? (?b )?+ Var? (?u?)?0?= x? =2?ss?2? 2? x+2??sé n?x?2? + ? (?x?i? - x?)?2? ù s = s 2? ê ú 2? 2? (?x?i? - x?)? ê n?? (?x?i? - x?)? ú ? ? 2? x?i? ?2??(?x?i? - x?)?2?n?中级计量经济学 杨可扬 29 3,最小方差性(续)? Var? b? =? 1?( )s 2?s?2? x?=s 2?n? 2? (?x? - x?)? ? i? i?=1??? Var?( b 0?)?=s 2?2? ( xi? - x )? ?2? x? ? i?n中级计量经济学 杨可扬30 3,最小方差性的证明???= 由 “ 线 性 性 ” 的 证 明 中 可 知 : b 1? ? w i y?i? % 设 b 1是 其 它 估 计 方 法 得 到 的 b 1? 线 性 无 偏 估 计 量 的 % b = (w + b )?y ,其 中 b?是 不 全 为 零 的 常 数1??iiii?Q cov( y i , y j ) = cov( u i , u j? ) = 0,?i ? j?? % var( b ) = s ? ( w + b? )? Q ? ( w + b )? ? ? w2 1? i i? 2 i i 2? i??? \ var( b 1?) =w i 2 var( y i )? = s2?2?w? 2? i?% ?? \ var( b 1 ) ? var( b 1?)?中级计量经济学 杨可扬 31 OLS估计量样本方差的总结n误差方差 s2?越大,斜率估计量 的方差也越大nxi 的变动越大,斜率估计量的方差越小.因此我们应该选择 尽可能的分散开的xi? Var? b 1? =?( )s 2?s?2? x?=s 2?n(?x? - x?)?2? ? i?i?=1?n在实验数据中这一点(增大xi的 变动)有时是可能的,但在社会 科学中我们很少可以人为地增 加xi的变动。 大的样本容量能够减小样本斜 率估计量的方差。中级计量经济学 杨可扬n32? 估计误差方差(1)n 我们不知道误差方差s2 是多少, 因为我们不能观察到误差 ui计n 我们观测到的是残差? ?? i n 我们可以用残差构成误差方差的估中级计量经济学 杨可扬33 估计误差方差(2)n 首先,我们注意到2? s2?=E(u? ),?所以s2?n?的无偏估计量是 (1?/?n?)?? i?=?1?u?i?2?n?u? 是不可观测的,但我们找到一个u? i? i?的无偏估计量中级计量经济学 杨可扬34 估计误差方差(3)?? ?? ?? u?i = y?i? - b 0 - b 1?x?i? ?? ?? = (b 0? + b 1?x?i? + u?i? ) - b 0? - b 1?x?i? ?? ?? = u? - b - b - b - bi?(0?0?) (1?1?)Then,? an? unbiased? estimator? of? s 2? is? 那么, s 的一个无偏估计量是2?1? 2? ?? ?? s = ??u?i? = SSR? /?(n?- 2?)? (n?- 2?)2?中级计量经济学 杨可扬 35 估计误差方差(4)s? =? s?? = s?? 2? = Standard?error? of? the? regression?s?? 2? = 回归的标准误 recall? that? sd? b?? = s s?( )xif? we? substitute? 如果我们用s?? for? s then?we? have? s??替换 s ,那么我们可得到the? standard? error? of? b?? ,? 1? b?? 的标准误差,1?se? b?? = s?? /? ? 1?( )(( x?i? - x? )2?)?1?2?36中级计量经济学 杨可扬 误差方差无偏估计量的证明(1)?? ?? ?? u i = y i - b 0 - b 1?x?i? ?? ?? = ( b 0 + b 1 x i + u i ) - b 0 - b 1?x?i? ?? ?? = u i - b 0 - b 0 - b 1 - b 1? x?i?...........(1)? ?? ?? ? 0 = u - b 0 - b 0 - b 1 - b 1? x?.........( 2 )? (1) - ( 2 ) :? ?? ?? u i = u i - u - b 1 - b 1? ( x i? - x )?中级计量经济学 杨可扬 37() ()() ( )?)( 误差方差无偏估计量的证明(2)?? ? u i 2 = ( u i? - u? )?2? - 2 b?? - b 1? ( x i - x ) ( u i? - u? )? 1 + ?( ()( (b??1 - b 1?)2?( x i? - x? )?2? ( u i? - u? )?2? ( x i - x ) ( u i? - u? )? ( x i? - x )?2?38??? u i2 =- 2 b?? 1 +? b 1? ) ?b??1 - b 1?)? ?2?中级计量经济学 杨可扬 误差方差无偏估计量的证明(3)?E[? (ui - u )2 ] =? E (ui 2 - 2ui?u + u?2?)? 2 2 1? 2 = n(s - s + s ) = (n?-1)? 2? s n n? 其中, E ui?2)= var(u? = s 2? ( )? 1? uiu = ui (u1 + u2? + ..... + ui? + .... + u? )? n? n 1? = (u1ui + u2?ui + ..... + ui 2? + .... + un?u?)? i? n2中级计量经济学 杨可扬 39 误差方差无偏估计量的证明(4)?Q E uiu j)=cov(uiu?j?)=0, i ? j ( 2 2? 2? 2 \ E uiu)= E (ui? ) = var(u? = s (2 )? n n? 1? 2? 2 2 E (u ) = var(u ) + [ E (u?)]? = s n中级计量经济学 杨可扬 40 误差方差无偏估计量的证明(5)?? E[ b1 - b1?() ? ( x - x)(u - u?)]?i i?2? E[? ( xi - x )u?]? i? = 2? ( xi? - x?)? ?[ E ? ( xi - x )ui ]2? + var[? ( xi - x )u?]? i? = 2? ( xi? - x?)? ? = var(u?)?= s 2? i? ?? E b1 - b1? = E[?中级计量经济学 杨可扬 41()?2? 误差方差无偏估计量的证明(6)?? ( xi - x )?u?i?]?2? 2? ? ( xi? - x?)? ? ( xi - x )ui ]2? + var[ ? ( xi - x )?u?i?]? = [ E? 2 2? ? ( xi - x ) ? ( xi? - x?)?=s 2?2? ( xi? - x )? ?中级计量经济学 杨可扬 42 误差方差无偏估计量的证明(7)?? 综上, E (? ui?2 ) = (n - 1)s 2 + s 2 - 2s 2 = (n?- 2)? 2? s u?2? ? ??i? )?= s 2? 也即, E? ( n?- 2? 那么,s 2? 的一个无偏估计量是 1? 2 ?? ??2? s = ui? = SSR / ( n?- 2? )? ? ( n - 2?)中级计量经济学 杨可扬 43 Goodness-of-Fit 拟合优度W e?can?think?of?each?observation?as?being?m ade? up?of?an?explained?part,?and?an?unexplained?part,? 每一个观察值可被视为由解释部分和 ?? ?? 未 解 释 部 分 构 成 , y i = y i + u?i?。 D efine?: 定 义 :? ( y - y?) :?total?sum ?of?squares?(S S T )? 总 平 方 和? ?? ? ( y - y )? :?explaine?d?sum ?of?squares?(S S E )? 解 释 平 方 和 ?? ? u :??residual?sum ?of?squares?(S SR )? 残 差 平 方 和i? i? 2? 2? i?2?T hen?SS T ? = ?S S E ? + ?S S R? 有 , S ST ? = ?S S E ? + ?S S R?中级计量经济学 杨可扬 44 拟合优度(续)中级计量经济学 杨可扬45 拟合优度(续) 证明SST=SSE+SSR?SST =?i( y i - y?i? )?2?2?2? ??i ) - ( y i - y?i? )]? ?? = ? [( y i - y?? ?? ? [ u - ( y - y? )]? ?? ?? ?? ?? = ? u - 2 ? u ( y - y ) + ? ( y - y? )? ?? ?? = ? u + ? ( y - y? )? =i i? 2? 2? i i i i i i i? 2? i i?2?= SSR + SSE中级计量经济学 杨可扬 46 拟合优度(续)我们怎样衡量我们的样本回归线拟合样本数据 有多好呢? w 可以计算总平方和(SST)中被模型解释的部 2? 分,称此为回归R?2? =?SSE/SST? w?R?=?1?C?SSR/SST中级计量经济学 杨可扬 47 拟合优度(续)1.0 ? R ? 1?2?2. 3.4. 5.R2 越大,表明回归直线与样本观察值拟合得 越好,反之,拟合得就越差。 R2的局限性: 当回归中加入另外的解释变量时,R2通常会上 升。此代数事实成立,因为当模型加入更多回 归元时,残差平方和绝不会增加。 R2很高,模型未必就好。 R2=0,不能说明自变量与因变量就没有关系。?中级计量经济学 杨可扬 48 拟合优度(续)数理统计知识?样本协方差: 1? S xy = ? ( xi - x )( yi? - y?)? n?- 1? 样本相关系数: r? = xy? S?xy? S x S?y? =? ( x - x )( y - y?)? ? ( x - x ) ? ( y - y )?i i? 2 i i?中级计量经济学 杨可扬2?49 拟合优度(续)我们也可以证明R 等于实际的y?与 i?2??? 估计的y?之间相关系数的平方 i? ryi y?i? = ??2?? ( ? ( y - y ) ( y?? - y?))i i? 2? i i?2?( ? ( y - y ) ) ( ? ( y?? - y??) )?2?中级计量经济学 杨可扬= R?2?详见Gujarati课后习题50 简单线性回归模型? ――推断世界经济06级 杨可扬中级计量经济学 杨可扬51 本章大纲n区间估计 n假设检验中级计量经济学 杨可扬52 ?? P? b -?d ? b ? b + d )?= 1?- a (? ??如果存在这样一个区间,称之为置信区间 (confidence? interval);? 1?a称为置信系数(置信度) (confidence? coefficient), a称为显著性水平(level? of? significance ) ; 置 信 区 间 的 端 点 称 为 置 信 限 (confidence?limit)或临界值(critical?values)。中级计量经济学 杨可扬53 中级计量经济学 杨可扬54 未能拒绝?拒绝拒绝a/2-? a t2?(1 - a) 0中级计量经济学 杨可扬a/2ta2?55? 正态性假设?ui? : NID(0, s )?2?c yi ?~?NID(b 0 ?+?b1x i??,?s )?中级计量经济学 杨可扬 562? 抽样分布b??j= ? w i y?i?( b??j- bj?)s d? b??j?( )2?~ ?N ( 0 ,1?)(n - 2)?? 2? ssj?2?~ c ( n? - 2 )? ~ ? t ( n? - 2 )?57(b??j? - b)s e b??j?( )?中级计量经济学 杨可扬 一元线性模型中,b? (i=0,1)的置信 i? 区间?? bi - bi? t= ~ t (n?-?2)? ??)? se(bi?意味着,如果给定置信度(1-a),从分布 表中查得自由度为(n-2)的临界值,那么t值处在 (-ta/2, ta/2)的概率是(1-a )。表示为:?P? -t?a & t? & t?a ) = 1?- a? (?2? 2?即??? b i - bi P ( -t a & & t? ) = 1?-?a ??)? a se( b i?2 2??? ?? ?? ?? P ( b i - t a ? se( b i ) & b i & b i + t a ? se( b i?)) = 1?- a2 2?中级计量经济学 杨可扬58 置信区间于是得到:(1?a)的置信度下, b的置信 区间是??? ?? ?? ?? ( bi - t a ? se( bi ), bi + t a ? se( bi?))?2 2?中级计量经济学 杨可扬59 b 的置信区间n如果自由度为25,那么对任意bj? ,95%的 置信区间为 ? ? ? ?[ b j - 2.06 ×?se( b j?),? b j + 2.06 ×?se( b j?)]?n当自由度&120,?t(n?k?1)?分布与正态分布 充分接近,可以用标准正态分布的97.5分位 数来构造95%置信区间?? ?[ b j - 1.96 ×?se( b j?),? b j + 1.96 × se( b j?)]?中级计量经济学 杨可扬 60?? 假设检验nnn所谓假设检验,就是事先对总体参数或总体分布形式作 出一个假设,然后利用样本信息来判断原假设是否合理, 即判断样本信息与原假设是否有显著差异,从而决定是否 接受或否定原假设。 假设检验采用的逻辑推理方法是反证法。 先假定原假设正确,然后根据样本信息,观察由此假设而 导致的结果是否合理,从而判断是否接受原假设。 判断结果合理与否,是基于“小概率事件不易发生”这一 原理的中级计量经济学 杨可扬61 检验步骤:(1)对总体参数提出假设? H? : b? =0,? 0? 1??? b1? t? = ?? se( b1?)?H? :b? ?0? 1? 1(2)以原假设H0构造t统计量,并由样本计算其值(3)给定显著性水平a,查t分布表,得临界值t a/2?(n?2)?(4) 比较,判断 若? |t|&?t a/2?(n?2),则拒绝H? 0? 若? |t|??t a/2?(n?2),则未能拒绝H0?,?中级计量经济学 杨可扬 62 t检验的p值n 假设自由度为40,算得?t?值为?2.423,对应5%和1%的临界值分 别为2.021?和?2.704。我们是否应 当拒绝零假设?n “Tobe, or not to be: that is the question.” -- Hamlet中级计量经济学 杨可扬63? t检验的p值(续)n 另一种想法:如果将算得的t?统计量作为临界值,那么使得零假设被拒绝的 最小显著水平是多少?n这个水平称为p?值。对于双边检验?p?value=P(|T|&|t|)中级计量经济学 杨可扬 64? t检验的p值(续)?P值的实质:能够拒绝原假设的最小显著性水平选择的显著性水平低于P值则不能拒绝,高于则可以拒 绝-? t中级计量经济学 杨可扬t?65?注意:t值的计算不依赖于显著性水平,判决值才依赖 t检验的p值(续)――实例?上例中假设自由度为40,算得 t 值为2.423,对应5%和1% 的临界值分别为2.021 和 2.704pvalue=P(|T|&2.423)=2P(T&2.423)=0.02 。 必有 1%&p&5%.也即,在5%的水平上可以拒绝,而在1% 的水平上则不能.p? α/2?p? α/2?t? 0.01? 0.005? t?t? 0.025?t? 0.01? t? 0.025? t? 0.005?中级计量经济学 杨可扬66? 简单线性回归模型? ――预测世界经济06级 杨可扬中级计量经济学 杨可扬67 本章大纲v点预测(点估计) v区间预测(区间估计)中级计量经济学 杨可扬68 点预测(个别值与均值)设有模型? yt = a + b xt + ut?, t =?1, 2 ~?n t表示第t个抽样时期,现在假设属于抽样时 期以外的某个特定时期的X已知,且上式 同样适用于这个时期,因变量有:?y = a + b x0 + u0?中级计量经济学 杨可扬 690? 点预测(个别值与均值)(续)我们可以利用模型和样本观察值得出回归方程?? ?? ?? yt = a +?b xt?x? 将t外推到抽样期之外的某个预测期0,就有0??? ?? ?? y = a +?b x0?0??? 其中 x? 已知。此时 y?0? 即可作为均值 E ( y | x? )? 0? 0? 0? 估计值也可以作为个别值 y? 的估计值。?中级计量经济学 杨可扬70 区间估计――均值??? ?? ?? 设有估计方程? y = b 0 + b1 x1?想要估计的参数:E ( y | x? )? 0? 令q 0 = E ( y | x0 )?= b 0 + b1 x? 0? ?? ?? ?? 它的估计量是q = b + b x0 0中级计量经济学 杨可扬1 0?71 区间估计――均值1、可以证明?( q??0? 服从正态分布? N 0,var(q?? )? 0? )?2? ( x0? - x?)? ??q 0?) = s 2?[ 1? + var( ?? ]? n? 2? ??( xt? - x )?s?2? 将 s?2 用 s?u2? 代替,得 ???? var(q? ) 的估计量? 0?2??? )?= s ( 1? + ( x0? - x?)? ) ?? n? se?q 0? ( 2? ? ( xt? - x )?中级计量经济学 杨可扬 72 区间估计――均值(续)构造t统计量q?? - q 0? 0 t= :?t (n?- 2)? ?? se(q 0?)?置信度=? 1? a ,自由度=n?2, ? 的置信区间 -? q0 为??? - t ( n -2) ? se(q ),q + t ( n?- 2)? ? se(q ))? ?? ?? ?? (q0a 200a 20?中级计量经济学 杨可扬73 区间估计――均值(续)?2? ( x0 - x ) 2 ( x0? - x?)? ?? ( ?? n ?? n? (q 0 - tan2 2) ? s ( 1 + )q 0 + t?( n?2?2)? ? s ( 1? + , ?? a ) )? 2 2? ? ( xt - x ) ? ( xt? - x )??? )?= s ( 1? + ( x0? - x?)? )? ?? n? se?q 0? ( 2? ? ( xt? - x )?2?中级计量经济学 杨可扬74 区间估计――均值(续)更简单的因为? 0 = E ( y | x0 )?= b 0 + b1 x0? q方法?所以? 0 = q 0 - b1 x0? b代入y = b 0 + b1 x0? + u? 我们可以得到 y = q 0 + b1 (?x1 - x0? + u )?q?0?的标准误差就是新的回归截距项的标准误差中级计量经济学 杨可扬 75 区间估计――个别值?我们刚刚定义q 0? = E ( y | x0?)? 因此,我们可以为y的平均值建立一个置信区间?如何为总体中的一个特定的值,y?0? 建立置信区间呢? , 需要考虑进不可观察误差的变化。中级计量经济学 杨可扬76 令y 的OLS? 回归线为 ?? ?? 0? ??0 = b + b x? y?0 1?1?区间估计――个别值(续)? 0?则,预测误差为,? ??0 = y 0 - y0?.? ?? e?? 容易证明E(e0?) = 0? 。 ?? ?? ?? ?? Var(e0 ) = Var (y 0 ) + Var (u 0 ) = Var?(y 0 )?+ s 2? 。2? ( x0? - x?)? ?? 因此,se? ??0?)?= s (1+ 1? + (e ) n? 2? ? ( xt? - x )?中级计量经济学 杨可扬 77 区间估计――个别值(续)? ?? ?? e - 0? y0 - y? 0? t= = :?t (n?- 2)? 0 0? ?? ?? se(e ) se(e )?现在预测区间为( ( ?? ?? ?? ??0 - tan2 2) ? se(e0 ), y 0 + tan?2?2) ? se(e0?)]? [y0?中级计量经济学 杨可扬78 区间估计――个别值(续):更简 单的方法?预测区间为?( ?? ?? ?? ?? ( [y 0 - tan2 2) ? se(e0 ), y 0 + tan?2?2) ? se(e0?)]?关键问题:? (e )? se? ??0?0?? ?? ?? ?? Var(e ) = Var (y ) + Var (u ) = Var?(y )?+ s ?? ??0 ) = se(y 0 ) 2 + s 2 = se(q 0?)?+ s 2? ?? ?? ?? se(e中级计量经济学 杨可扬0002?79 中级计量经济学 杨可扬80 对上图的解释1?现象1:置信带当x0 = x时达到最小,且随着x0?远离x 而迅速增大?2? ( x0? - x?)? ?? n? 原因1:se? q 0?)?= s ( 1? + ( ?? ) 2? ? ( xt? - x?)? 2? ( x0? - x?)? ?? se? ??0?)?= s (1+ 1? + (e )? n? 2? ? ( xt? - x )?结论1:预测效果随着x0?远离x? 而显著下降中级计量经济学 杨可扬 81 对上图的解释2?现象1:E ( y | x0?)? 的置信带比y?0? 的置信带窄?2? ( x0? - x?)? ?? n? 原因1:se?q 0?)?= s ( 1? + ( ?? ) 2? 简单线性回归模型?)? ? ( xt? - x?――估计2? ( x0? - x?)? ??0?)?= s (1+ 1? + ?? se? (e )? n? 2? ? ( xt? - x )?事实上,随着n ? ?, E ( y | x? )? 0? 的置信区间宽度趋于0, 而y 0? 的置信区间宽度却不会中级计量经济学 杨可扬 82 书中自有黄金屋? 书中自有黄金屋――? 单线性回归实例 简单线性回归实例 简世界经济06级 杨可扬 06?83? 读书的目的n你读书可能可能为了实现共产主义 可能为了报效祖国, 可能为了发展我国的经济学 可能为了报答父母……… ………?84?nnn 读书的目的(续)85? 建立模型? 建立模型wage = b 0 + b1?educ + u? 其中wage? 表示每小时工资(美元) educ表示受教育的年数b 0?表示没有受教育时,且不考虑其它因素时的工资 b1?表示其它因素不变,增加一年教育能够带来的工资增长u可能包括如,工作经验,天生能力,职业道德等因素86? Eviews简介 建立工作文件启动EViews, 点击File\New\Workfile,弹出工 作文件对话框,选择数据的时间频率、起始期和终 止期。时间频率 年度 半年 季度 月度 起始期 周 日 非时序数据 终止期 Eviews简介(续)数组窗口图数组窗口 Eviews简介(续)回归结果常数和解 释变量 判定系数 调整的判定系数 回归方程的标准差 残差平方和 似然函数的对数 德宾?瓦森统计量 被解释变量均值 被解释变量标准差 赤池信息准则 施瓦兹信息准则? F统计量? F统计量的概率T统计 参数估 参数标 双侧 量值 计值 准差? 概率 估计参数1 1?90? 估计参数2??? wage = -0.90 + 0.54? educ (0.68)(0.05? )? n=526,?R = 0.16??? b1?=0.54其 因 不 , 加 年 育 每 时 资 计 长 美 它 素 变 增 一 教 , 小 工 预 增 0.54 元??? b 0? = -0.90表示没有受过教育那么预计每小时工资为 - 0.90美元?2?在526个样本值中只有18人受过少于8? 年的教育91? 参数的区间估计? 参数的区间估计?? b1 =0.54,? (?b1 ) = 0.05, t? (524) = 1.96? se ?? 0.025? 0.54 ± 0.? 05*1.96?于是可得:在95%的置信度下,b1? 的置信区间为 (0.42,0.63)92? 参数的假设检验? 参数的假设检验H 0 : b1 = 0 ? H1 : b1? ??0?teduc? = 10.16, t? (524) = 1.96? 0.025? 显然? educ? & t0.025?(524)? t故,拒绝H 0? ,即在5? %的显著性水平上,b1?显著的不为零?peduc = 0.000093? 均值的估计? 均值的估计?? wage = -0.90 + 0.54? educ? 当educ0? = 16时,? ?? = 7.74? wage0??? 令q 0 = E ( wage educ? = 16), 则q 0? = 7.74? 0 改写方程为wage = q 0 + b1? educ - 16)?+ u (?se?q 0?) = 0.23,?代入公式? ( ?? ?? - t ( n - 2) ? se(q ),q + t ( n?- 2)? ? se(q ))? ?? ?? ?? (q0a 200a 20?可得,在95%的置信度下,E ( wage educ0? = 16)? 的置信区间为(7.29,8.19)94? 95 95? n谢谢大家96? 97 97? 98 98? 99 99? 100 100? n不够101? 102 102? 103 103? 104 104? 105 105? 106 106? 107 107?
All rights reserved Powered by
copyright &copyright 。文档资料库内容来自网络,如有侵犯请联系客服。

我要回帖

更多关于 样本均值的方差 的文章

 

随机推荐