y12(i)=yhat{i}(end)...

MATLAB_时间序列建模预测
扫扫二维码,随身浏览文档
手机或平板扫扫即可继续访问
MATLAB_时间序列建模预测
举报该文档为侵权文档。
举报该文档含有违规或不良信息。
反馈该文档无法正常浏览。
举报该文档为重复文档。
推荐理由:
将文档分享至:
分享完整地址
文档地址:
粘贴到BBS或博客
flash地址:
支持嵌入FLASH地址的网站使用
html代码:
&embed src='/DocinViewer-4.swf' width='100%' height='600' type=application/x-shockwave-flash ALLOWFULLSCREEN='true' ALLOWSCRIPTACCESS='always'&&/embed&
450px*300px480px*400px650px*490px
支持嵌入HTML代码的网站使用
您的内容已经提交成功
您所提交的内容需要审核后才能发布,请您等待!
3秒自动关闭窗口镇江网络助学工程数学答案(1――58全)_百度文库
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
评价文档:
44页1下载券52页1下载券100页1下载券56页1下载券6页1下载券2页免费44页1下载券57页免费20页1下载券21页免费
喜欢此文档的还喜欢52页1下载券56页1下载券44页1下载券20页1下载券17页免费
镇江网络助学工程数学答案(1――58全)|镇​江​网​络​助​学​工​程​数​学​答​案​(―​―8​全​)
把文档贴到Blog、BBS或个人站等:
普通尺寸(450*500pix)
较大尺寸(630*500pix)
你可能喜欢育龙网中国第一教育门户【咨询电话:010-】
您现在的位置:&>&&>&&>&
育龙网&WWW.CHINA-B.C0M&& 日&&来源:互联网
核心提示:
第1章回归分析的种类与简单回归分析第1节回归分析的任务和种类1.回归分析仅哪些问题当人们从一组对象上获得2个或多个指标的
第1章 回归分析的种类与简单回归分析 第1节 回归分析的任务和种类 1.回归分析仅哪些问题当人们从一组对象上获得2个或多个指标的观测值时,往往需要回答下述几个问题①如何实现预测,即如何由1个或多个指标的值去推算另1个或多个指标的值;②如何实现控制,即事先给锄品质量应达到的标准(因变量的取值范围),根据变量之间的数量关系去控制那些影响产品质量的因素(自变量)的变化区间;③如何实现修匀,由于所研究的指标带有变异性,当用散布图将变量之间的关系呈现出来时,散点所形成的轨迹并非像数学中初等函数那样有规律,需要用合适的数学方法(如用直线或某种光滑曲线)对资料进行修匀,使变量之间本质联系更清楚地呈现出来。回归分析正是回答上述问题的一种最常用最有效的统计分析方法之一。 2.回归分析的种类如果因变量是连续变量(即一般定量资料),设自变量的个数为k,当k=1时,回归分析的种类有①直线回归分析;②通过直线化实现的简单曲线回归分析(以下简称为曲线拟合);③非线性曲线拟合;④一般多项式曲线拟合;⑤正交多项式曲线拟合。当k≥2时,称为多元回归分析(注前面的④、⑤2种情况实质上是用多元回归分析仅只含1个自变量时较复杂的曲线拟合问题)。当同时对多个因变量进行回归分析时,称之为多重回归分析。在多元回归分析中,简单而又实用的则是多元线性回归分析(其中某些自变量可以是原观测指标经过某种初等变换的结果,如对数变换、开平根变换等,因为这里所说的线性是指∶函数f相对于回归参数是线性的,并非相对于自变量而言)。这是本篇中要论述的问题。如果因变量是与时间有关的连续变量且未被离散化(如生存时间、复发时间、死亡时间等),而自变量可以是定量的,也可以是定性的。此时需用生存分析中的半参数或参数回归分析方法,将在本书第5篇中论述。如果因变量是名义或有序变量,无论它取二个离散值(如死与活、复发与未复发等)还是多个离散值(自变量可以是定性和定量的)时,都可选用 logistic回归分析;如果把列联表中每个格内的理论频数的对数当作因变量,把分组变量(包含影响因素和观测结果变量2类)当作自变量,可用对数线性模性分析。这部分内容请参见本书第3篇中有关章节。在自变量代表时间的情况下,通常不假定因变量y的各次观察值独立,而具有某种非独立的结构,例如构成一平稳序列。这种回归模型的研究被划入统计学的另一个重要分支──时间序列统计分析的范围,本书不 作讨论。 第2节 直线回归与相关分析的概念和要点 1.两种分析方法的异同点研究在专业上有一定联系的两个变量之间是否存在直线关系以及如何求得直线回归方程等问题,需进行直线相关和回归分析。从研究的目的来说,若仅仅为了了解两变量之间呈直线关系的密切程度和方向,宜选用线性相关分析;若仅仅为了建立由自变量推算因变量的直线回归方程,宜选用直线回归分析。从资料所具备的条件来说,作相关分析时要求两变量都是随机变量(如人的身长与体重、血硒与发硒);作回归分析时要求因变量是随机变量,自变量可以是随机的,也可以是一般变量。在统计学教科书中习惯把相关与回归分开论述,其实在应用时,当两变量都是随机变量时,常需同时给出这2种方法分析的结果;另外,若用计算器实现统计分析,可用对相关系数的检验取代对回归系数的检验(理由见下节),胀方便地达到了化繁为简的目的。故本书把这2个内容放在一起讲解。 2.散布图在这两种分析中的作用功能齐全的计算器和统计软件,会蒙骗盲目运用统计方法的人,进行直线相关和回归分析时,尤其要注意!因为统计方法只能帮助人们揭示数据之间内在的统计规律性,但它不能创造规律,也就是说,资料之间是否存在本质联系要靠专业知识来解释;另外,在专业上有一定联系的2项指标之间的关系并非都是直线关系。实事上,如果2项指标之间呈一条弯曲度不大的“S”型或倒“S”型曲线趋势,错误地用一条直线回归方程来描述,在统计学上往往会得到较高的显著性,即该直线回归方程是成立的,但在生物学上是解释不通的(当因变量是某种率时最易发生这种现象)。正确的做法是将 的n对数值绘在直角坐标系内,得到x与y变化趋势的散布图,如果n个点形成的散布图呈一条明显的曲线趋势时,宜拟合一条曲线回归方程;如果n个点在一条不太宽的长带内随机地着,且不存在明显的曲线趋势,可考虑进行直线相关和回归分析;如果n个点形成的散布图近似于一个圆盘,则说明x与y之间无确定的变化趋势,几乎是互相独立的,不必硬把它们捏合在一起分析。 第3节 直线回归与相关分析的计算和应用 1.直线相关分析进行直线相关分析的2个变量之间无自变量和因变量之分,分析的目的是研究在专业上有一定联系的2个变量呈直线关系的密切程度和方向,所用的统计量称为相关系数r,按式~计算。
由式定义的相关系数r满足-1≤r≤1。当n固定时, 若|r|越接近于0, 表明x与y之间呈直线关系的密切程度越低;若|r|越接近于1,表明x与y之间呈直线关系的密切程度越高。相关系数的大小受数据的对子数和抽样误差的影响,当r所代表的总体相关系数ρ=0时,|r|可能明显大于0,为了尽可能排除抽样误差的影响,较客观地反映出2变量之间呈直线关系的密切程度,需进行假设检验,其假设为H0ρ=0;H1ρ≠0,α=0.05。按式、计算。 , 求出统计量tr的值后,查t临界值表、下结论的方法与均数比较时所用的t检验相同。统计学家已编制出相关系数的临界值表,按df=n-2查此表作检验就更简便了。 2.直线回归分析进行直线回归分析的2个变量之间一般有自变量和因变量之分,即使在专业上无法区分时,常把容易测量的变量看作自变量,另一个较难测量的变量看作因变量。分析的目的是建立2变量之间的直线回归方程,检验该方程是否成立,并结合专业知识说明该方程是否值得应用以及如何应用。关于直线回归模型,有下列统计假定∶①对于给定的x,y是1个具有特定概率的随机变量,并且,与各x值对应的y服从具有等方差的正态;②独立性假定,即各y值在统计学上彼此互相独立;③直线假定,若用μy|x表示给定x时,y的均数,则此假定的含义是:y的均数是x的直线函数。这等价于说,将、、…、这些点连接起来,它们应在1条直线上。设总体直线回归方程为y=α+βx+ε,ε为随机误差,样本直线回归方程为y^=a+bx,a、b分别是α、β的估计值,根据最小平方法原理,可导出计算a,b的公式,见式、。
, 式中的lxx、lxy由式、定义;式中x、y由式定义。如果根据专业知识需求过定点的直线回归方程,则按式,计算。 
如果=点,则按式计算。与需要对相关系数进行检验的理由相同,对斜率和截距也需作检验。对β作检验的假设和方法如下。H0β=0;H1: β≠0;α=0.05。
 值得注意的是同一批资料,按式与按式算得的结果和查表的结果完全一致,即tr=tb,df=n-2。显然,计算tr要比tb容易得多,在实用时,可用前者取代后者。实现这2种检验的更简便的方法则是直接查“相关系数临界值表”。与对斜率检验等价的还有一种常用的方法∶即对回归方程是否显著作方差分析(见后面SAS软件REG过程的输出结果)。其基本思想是: 计算出y的总离均差平和SST、由回归所能解释的离均差平和SSR,它们的差值就是回归所无法解释的量,称为误差,记为SSE,然后,用回归的均方除以误差的均方,构造出F统计量,进而根据F推断出所求的回归方程是否显著。关于SST、SSR、SSE的计算参见本章第4节,此处仅介绍SSR,以便引入1个与相关系数有关的统计量──决定系数 。SSR=r2SST, 即r2=SSR/SST, 这说明决定系数r2就是回归的离均差平和占y的总离均差平和的百分比,它即建立了相关与回归之间的联系,又通过具体的数量大小反映了回归的贡献大小,这是回归分析中1个十分有用的统计量。 对α作检验的假设和方法如下。H0: α=0; H1: α≠0; α=0.05。ta=|a-0|/Sa  =|a|/Sa , df=n-2
 上述各式中Sy.x称为剩余标准差,是排除了x的影响后,单独y方面的变异大小,常用它作为预报精确度的标志。因为它的单位与y一致,最容易在实际中进行比较和检验,所以,一个回归能否对仅实际问题有所帮助,只要比较Sy.x与允许的偏差就行。故它是检验一个回归是否有效的极其重要的标志。 3.直线相关与回归分析中区间估计问题──利用回归方程进行预报与控制ρ、α、β的100%置信区间按式~计算。r-tαSr≤ρ≤r+tαSr  a-tαSa≤α≤a+tαSa  b-tαSb≤β≤b+tαSb  若记μy|x=x0为给定x=x0条件下y的总体均数, 则它的100%置信区间按式、计算。  在给定x=x0条件下,y的个体值的近似100%容许区间按式、计算,胀仅了对因变量y进行预报的问题。 在实际应用时,有时也会遇到与上述情况相反的情形,即给定y=y0,问对应的x0是多少?胀是所谓的控制问题。在给定y=y0条件下,x0的估计值需按下述2种情形来考虑:①如果x,y都是随机变量,则预测与控制这2个问题的地位是平等的。可以反过来把y作为自变量而把x作为因变量,这时当然应求从x推算y的直线回归方程x^=c+dy,它与从x推算y的直线回归方程并不重合,将y=y0代入此方程, 求得x0的估计值, 并用式、进行区间估计,注意把公式中的x,y的地位互换;②一般控制问题多用在自变量非随机的场合,因此,不能象①中那样反转过去做。事实上,在这种场合下,控制问题的性质与预测问题很不一样: 在前者,x虽然未知,但是是1个非随机的变量,取确定的数;在后者,预测对象y却是随机变量。处理的方法是:作为x的点估计,仍沿用已求得的直线回归方程y^=a+bx解出x^0=/b,但应重新推导出与上面2式类似的公式,以便直接运用。于是,x0的近似100%容许区间按式、计算。胀仅了对自变量x进行控制的问题。
在上2式中,y0是根据n0次观测得到的y的均数,当y0为理论值时,n0=∞;当y0为1次观测结果时,n0=1。 4.直线相关与回归分析的应用 给10只中年大鼠注射内毒素后, 测得每只大鼠的红细胞含量x与血红蛋白含量y分别如下,试对x,y两变量进行线性相关和回归分析。鼠号 x 654 786 667 605 761 642 652 706 602 539 y 130 168 143 130 158 129 151 153 149 109 先介绍用统计公式逐一计算的方法①绘出10对数据的散布图,发现各散点呈一直线变化趋势,表明值得进行直线相关和回归分析;②按式~和式、计算,得lxx=49676.4,  lyy=2730lxy=915, x-=661.4, y-=142.0, b=0.199008, a=10.376109于是,求得相关系数r=0.848915, y倚x变化的直线回归方程为 y^=10..199008x③按式、对相关系数进行显著性检验H0: ρ=0; H1: ρ≠0; α=0.05。Sr=0.186863tr=4.543, df=8按df=8查t临界值表,得t0.01=3.355,因tr=4.543t0.01=3.355,即P0.01,在α=0.01水准上拒绝H0,接受H1。用查表法实现上述检验的方法是查相关系数临界值表,找到df=8所对应的那一行,看r=0.848915在某2个相邻的数之间,与此二值对应的表头上的小数就是概率P值所在的范围。因r0.002=0.847r=0..001=0.872,所以0.001P0.002 ,0.。相关关系,则宜选用单侧检验;若理由并不十分充足,则宜选用双侧检验)。④同理,可用式、对总体截距作显著性检验,若差别不显著,可认为所求的直线回归方程通过坐标原点;⑤如果需要,还可按式~进行区间估计。 因r=0.8489150,故可以认为x与y之间呈非常显著的正相关关系,也即所求得的直线回归方程成立。 适于进行直线相关和回归分析的资料类型为定量资料;当运用求得的直线回归方程去对因变量的取值进行预报时,自变量的取值最好不要超出原试验数据的变化范围; 检查直线回归方程的计算是否有错的简便方法:所求的直线应通过这一点,即将x代入方程,应得y^≈y。 最后介绍用SAS软件实现统计计算和检验的方法──DATA PROC PLOT; INPUTPLOT yx=‘s‘;CARDS;RUN;654 130 PROC CORR;786 168  VAR667 143 RUN;605 130 PROC REG;761 158  MODEL y=x / R CLI CLM;642 129  PLOT x=‘-‘652 151 yx=‘o‘ / OVERLAY;706 153  OUTPUT OUT=aaa P=yhat R=602 149 RUN;539 109 PROC PLOT DATA=; PLOT yresidyhat=‘R‘;OPTIONS LS=64 PS=20; RUN;   OPTIONS语句规定输出时每行最多64个字符,每页最多20行,目的是使输出的图形小一些;第1次调用PLOT过程是为了绘原始数据的散布图,以便了解是否适合作直线相关和回归分析,每1对数据用1个“s”表示出来;第2个过程步是调用CORR过程作相关分析;第3个过程步是调用REG过程进行直线回归分析,在MODEL语句中,因变量放在等号左边,右边各选择项的含义是:R、CLI、CLM的95%置信区间的下限与上限值),紧接此语句之后的PLOT语句第1部分要求以x为横轴,纵轴分别为U95、L95、P,均用“-”表示,将绘出回归直线的置信带;同时用“o”表示原始数据点, OVERLAY要求将自变量相同因变量取几组不同值的图绘在同1个坐标系内; OUTPUT语句产生1个输出数据集AAA,内含原始数据和y的预测值yhat、残差yresid=y-y^;最后调用PLOT过程绘残差图,把残差放在纵轴上、y的预测值放在横轴上。  Plot of YX. Symbol used is ‘s‘.200 + Y
s s150 +ss ss s s s s100 +-+++++++ 500 550 600 650 700 750 800 X这是原始数据的散布图,不存在某种明显的曲线趋势,各点在1条不太宽的带内随机地着,而且,2变量都是随机变量,故可以继续作直线相关和回归分析。CORRELATION ANALYSIS  2 ‘VAR‘ Variables: XY  Simple Statistics Variable  NMean  Std Dev Sum  Minimum  Maximum X 10  661.4  74.2940  .0 786.0 Y 10  142.0  17.4165  .0 168.0 Pearson Correlation Coefficients / Prob
R under Ho: Rho=0 / N = 10  X Y X  1.00000  0.8  0.0019 Y  0.84892  1.090.0 这是相关分析过程给出的关于均数、标准差等的简单统计量,皮尔逊相关系数及其显著性检验的P值。因r=0.84892,P=0.0019,说明2变量之间呈非常显著的正相关关系。Model: MODEL1 Dependent Variable: YAnalysis of VarianceSum of MeanSource DF Squares  Square F Value  ProbFModel  1      20.639  0.0019Error 
95.32589C Total 9 
Root MSE  9.76350 R-square  0.7207Dep Mean 142.00000 Adj R-sq  0.6857C.V.  6.87570这是回归过程给出的关于所拟合的直线回归方程是否显著的检验结果,这里使用的检验方法是方差分析,它与前面讲的关于ρ和β的检验是等价的。对应的F= 20.639,P=0.0019,说明直线回归方程是非常显著的,此方程的精确度可用剩余标准差来度量,即Sy.x=9.7635。
Parameter Estimates Parameter StandardT for H0:Variable DF Estimate Error  Parameter=0  Prob
TINTERCEP  1 10.376122  29..356  0.7310X 1 0.  0.0019这是关于总体截距和总体斜率的参数估计及其显著性检验结果,α^=a=10.376122, α与0的差别不显著,应不要截距重新拟合直线回归方程;β^=b=0.199008,β与0的差别非常显著。 Model: MODEL2NOTE: No intercept in model. R-square is redefined.Dependent Variable: Y Analysis of Variance Sum of MeanSource DF Squares  Square F Value  ProbFModel1 96 96   0.0001Error 86.07734U Total 10 00 Root MSE  9.27779 R-square  0.9962Dep Mean 142.00000 Adj R-sq  0.9958C.V.  6.53365这是关于不含截距项的直线回归方程是否显著的检验结果,F=2365.26,P0.0001,说明直线回归方程是非常显著的,方程的精确度为Sy.x=9.27779。
Parameter Estimates Parameter StandardT for H0:Variable DF Estimate Error  Parameter=0  Prob
TX 1 0.  0.0001通过坐标原点的直线回归方程为: y^=0.2145520x,β与0的差别非常显著。从统计学角度看,此直线回归方程是成立的。至于此方程是否确有意义,仍需结合专业知识,尤其是要注意由方程推算出来的预测值在专业上是否成立。 ①②③  ④⑤⑥⑦ Dep Var  Predict  Std Err Lower95% Upper95% Lower95% Upper95%Obs YValue  Predict Mean Mean  Predict  Predict 1 130.0 140.3 2.885 133.8 146.8 118.3 162.3 2 168.0 168.6 3.467 160.8 176.5 146.2 191.0… ………………… 9 149.0 129.1 2.655 123.1 135.1 107.3 151.010 109.0 115.6 2.377 110.2 121.0  93.①因变量的观测值、②用不含截距项的直线回归方程推算出来的因变量的预测值、③预测值的标准误差、④与⑤是各点y^的95%置信限的下限与上限、 ⑥与⑦是各点y值的95%容许限的下限与上限。若以、绘图,并将回归直线同侧的点分别连接在一起,就是反映回归线波动的95%置信带;以、绘图,同理, 可得反映各点上y值的波动范围的95%容许带。 ①②  ③ ④ ⑤ Std Err  Student  Cook‘sObs  Residual Residual Residual -2-1-0 1 2D 1  -10.-1.168  0.146 2-0.-0.071 0.001 3-0.-0.010 0.000 4 0. 0.024 0.000 5-5.-0.607 0.055 6-8.-0.987 0.100 711. 1.262  0.169 8 1. 0.177 0.004 919. 2.234 0.3 8.968-0.739 0.038①残差、②残差的标准误差、③学生化残差,③的值=①/②;④是学生化残差图,图上出现4个及以上“”号的那些点所对应的学生化残差的绝对值大于2, 如果这样的点所占的比例较大,表明模型选得不合适;⑤是Cook‘s D统计量,用来度量因变量每1个观测值对于预测值的影响大小,此值越大,表明所对应的观测值的影响越大,借此来发现原始数据中的强影响点。显然,第9点是可疑的强影响点,应检查原始记录和数据输入时是否有失误。Sum of Residuals  1. 残差之和,即∑;Sum of Squared Residuals  774.6960 残差平之和,即∑2;Predicted Resid SS
932.4054 Press之值Press是的缩写,即预测残差平和,简称预测平和,它度量了全模型的优劣。它是每次去掉1个观测点后拟合方程,再用该点的x值代入方程求出预测值,记为y^i,-i,并按下式计算残差平和:Press=∑ni=12=∑ni=12当方程中只有1个自变量时,  hi=─1n +2/lxx当方程中自变量数目≥2时,  hi=xi-1x‘i此处本应是原始观测点、y的预测值以及回归直线的95%置信带图。  Plot of YRESIDYHAT. Symbol used is ‘R‘. R 20 +Re s i 10 +Rd u a  0 + RR R  Rl  RR -10 + R R -+-+-+-+-+ 100  120  140  160 180 Predicted Value of Y这是以y^为横轴变量、以为纵轴变量绘出的残差图,除最高点外,其他各点随机,无确定的趋势,表明用不含截距项的直线回归方程描述给定的资料是合适的。  再举一个自变量是非随机变量的直线回归分析的实例,演示在这种资料中如何进行控制。试验资料如下,试问∶若希望把Y控制在10附近,应当给多大的剂量合适?试验顺序∶ 1  2  3  4  5X∶  100 200 400 8001000x)∶ 2.000  2.301  2.602  2.903  3.204Y∶ 3  7  9 12 16 经研究得知∶药物的剂量X与反应Y之间呈曲线关系,为便于研究,需将X取对数变换,用x表示变换后的结果。绘出的散布图不难看出∶各散点在不太宽的长带范围内随机地着,故可进行直线回归分析。──DATA DATA s1=/b)2/INPUT x Y; CARDS; y0=10;  s2=SQRT;2.0003 a=-17.398007;Sx0=Syxs2/2.3017 b=10.299003; t=ROUND,0.001);2.6029 Syx=0.60553; low1=ROUND;2.903  12 Ybar=9.4;upp1=ROUND;3.204  16 n0=1; n=5;  x0=ROUND;; x1=13.01;Sx0=ROUND;PROC PLOT; x2=34.75803; x02=ROUND;PLOT Yx=‘‘; RUN;x0=/b; low2=ROUND;PROC REG USSCP;lxx=x2-x1x1/n; upp2=ROUND;MODEL Y=x; RUN; 
FILE PRINT;PUT #1 @5 ‘SE of x0‘ @25 ‘t-Value‘ #2 @5 Sx0 @25 t #4 @5 ‘log10‘ @25 ‘95% Tolerance Limit of log10‘ #5 @5 x0  @25 low1  @45 upp1 #7 @5 ‘X0‘ @25 ‘95% Tolerance Limit of X0‘ #8 @5 X02 @25 low2  @45 upp2;RUN; PLOT过程绘制的散布图, 有助于决定此资料是否适合作直线回归分析;REG过程中的选择项要求输出∑x、∑x2、∑Y、∑Y2等统计量的值, 便于程序2中引用。 该程序需要运用的运行结果,其中y0=10是题中指定的数、a和b是回归方程的截距与斜率、Sy.x为直线回归方程的均方误差、Ybar为Y的均数、n0为各点上重复试验次数、n为的对子数、x1为∑x之值、x2为∑x2之值。中的上述数值需根据已知条件和的输出结果修改。其他部分是按本节式和进行计算,读者不必修改。 Uncorrected Sums of squares and CrossproductsUSSCP INTERCEP X YINTERCEP 5 13. 34.75803  131.625Y  47  131.625  539∑x=13.01、∑x2=34.75803、∑Y=47、∑Y2=539、∑xY=131.625。 Dependent Variable: YAnalysis of Variance Sum of MeanSource DF Squares  Square F Value  ProbFModel1 96.00 262.091  0.0005Error3 1.167C Total 4 97.20000Root MSE0.60553 R-square  0.9887Dep Mean9.40000 Adj R-sq  0.9849C.V.6.44181Sy.x=0.605553、y-=9.4、全模型有非常显著性意义。Parameter Estimates Parameter StandardT for H0:Variable DF Estimate Error  Parameter=0Prob
TINTERCEP  1-17.30404  -10.X 1 10.0.0005截距和斜率都有显著性意义,直线回归方程为∶Y^=-17..299003x。SE of x0t-Value0.065  2.776log10  95% Tolerance Limit of log102.662.481  2.839X0 95% Tolerance Limit of X.691 690.24 与Y0=10对应的对数剂量的点估计值x^0=2.66、其标准误差Sx0=0.065、x0的95%容许区间为;与Y0=10对应的药物浓度的点估计值X^0=457.088、其95%的容许区间为 。专业结论从略。 第4节 具有重复试验数据的直线回归分析 1.回归分析中安排重复试验的目的目的在于弄清:影响y的因素除x外,是否还有1个或几富可忽略的其他因素,以及x与y的关系是否确是直线关系。如果除x的影响外,还有其他未加控制的、不可忽视的影响因素掺杂,则此直线的拟合效果就不能算是好的,称为失拟。即在无重复试验情况下所建立的直线回归方程,既使假设检验的结果是“回归方程显著”,仅仅说明x的一次项对y的影响是不可忽视的,并不能表明这个回归方程是拟合得很好的。 2.重复试验数据的收集与格式设自变量x共有k富同的取值,x1,x2,…,xk。对每1个给定的xi,做了m次试验,得到因变量y的m个观测值,胀得到了具有m次重复试验的回归数据,数据的格式如下:x1 y11, y12, y13, …, y1mx2 y21, y22, y23, …, y2m……xk yk1, yk2, yk3, …, ykm 3.重复试验数据的回归分析方法建立直线回归方程的方法把重复试验数据看成是无重复试验数据,即按k×m个数据点用通常的方法建立直线回归方程;若用计算器计算,还可用各xi下y的均数来计算,即用,,…,这k个数据点来建立直线回归方程。用这2种方法建立的方程是完全相同的,但作显著性检验时计算自由度要慎重,详后。回归方程拟合效果的检验①y的总离均差平和及其自由度的分解 式中各符号的含义是∶ SS、df、T、R、L、E。各SS的计算公式如下∶式中lxx等参见式~,只是lxy,lyy中的y代表用各xi下y的均数作为原始数据算得的相应量。②各离差平和SS的含义SSR叫回归平和,它是由于x的变化而产生的,SSR越大,说明回归的贡献也越大;SSL叫失拟平和,它是由于用来拟合该数据的模型不当而产生的, SSL越大, 意味着推翻此模型的可能性也越大;SSE叫误差的平和,它是反映重复试验所引起的y的变化,SSE越大,可能是试验的精度不高,也可能是被观测的指标的变异性大等原因所致。③拟合效果检验先对失拟进行F检验H0∶MSL=MSE, H1∶MSL≠MSE, α=0.05。F1=MSL/MSE=/ F1服从df1=k-2、df2=k的F。查方差分析用的F临界值表,下同。若结论是拒绝H0,说明SSL中除含有试验误差的影响外,尚含有其他因素的影响,需查明原因,再作研究。这时有如下几种可能∶影响y的除x外,致少还有1富可忽视的因素;y与x是曲线关系;y与x无关。此时,即使用F=MSR/MSE进行第2次F检验的结果显著,仅说明求得的直线回归方程有一定的作用,但不能说明此方程是拟合得好的,仍需查明原因,改变数学模型,作进一步研究。若结论是接受H0,那就说明SSL基本上是由试验误差等偶然因素引起的,此时,可将SSL与SSE合并起来对回归方程作显著性检验。其假设与方法如下: H0∶所求得的直线回归方程不显著,H1∶所求得的直线回归方程显著,α=0.05。 F2=MSR/MS=/ F2服从df1=1、df2=km-2的F分布。若结论是拒绝H0,就说明回归方程是显著的,这时的“显著”表明这一回归方程拟合得好。若结论是接受H0,就说明x的一次项对y没有多大作用,原因可能是由于试验误差过大; 也可能是由于并不存在对y有显著影响的因素。 应用举例 设有一批含重复试验的数据,由x与y的变化趋势和专业知识得知,x与y之间有一定的线性关系,试作分析。详细的数据列在SAS程序中,以第1行为例说明如下:x1=0.1429,重复试验4次,其后的4个数是y的重复试验结果(2.2148, 1.7,1.5060),本试验共有5富同的x值,重复试验都是4次。──DATA 0..5 1.0 PROC REG;INPUT x n @; g=_N_;  0..5 2.2  MODEL y=x; RUN;DO i=1 TO 0..6 2.2  PROC GLM; INPUT y @@; 1..5 3.0CLASS OUTPUT; END; 2..3 6.1MODEL y=x g/SS1;CARDS; ; RUN; 
 第1个INPUT语句读取x值和重复试验次数n,该语句共执行5次,隐含变量_N_的取值从1~5,将其值赋给分组变量G;用DO-END读取每行上y的4次重复试验数据;第1个过程步调用REG过程建立直线回归方程;第2个过程步调用GLM过程,对失拟作检验。由于REG过程不能对失拟作检验,这里利用GLM过程间接实现具有重复试验数据回归分析,这是1个有用的技巧。  Dependent Variable: Y Analysis of VarianceSum of MeanSource DF Squares  Square F Value  ProbFModel  1 28.20 101.536  0.0001Error 18 5.019C Total19 33.73157  Root MSE  0.53121 R-square  0.8494  Dep Mean  2.88696 Adj R-sq  0.8411  C.V. 18.40040Parameter Estimates Parameter StandardT for H0:Variable DF Estimate Error  Parameter=0Prob
TINTERCEP  1 1.0.0001X 1 1.0.0001这是第1个过程步的输出结果,求得直线回归方程为:y^=1..535850x。对此方程所作的显著性检验(在失拟不显著时才有意义)结果为: F=101.536,P=0.0001,说明此方程是非常显著的。Dependent Variable: Y Sum of MeanSource DF  Squares  Square  F Value Pr
FModel  4  28.  7..02 0.0001Error 154.  0.Corrected Total19  33. R-SquareC.V.  Root MSE  Y Mean 0.58  0.572040  2. Source  DF  Type I SSMean Square  F Value Pr
FX 1 28...56 0....17 0.9122这是第2个过程步输出的结果,最后1行是对失拟检验的结果,F=0.17,P=0.9122,说明SSL基本上是由试验误差等偶然因素引起的,故需将失拟部分合并到误差中去,再检验回归方程是否显著。注意∶第1部分实际已给出将失拟部分合并到误差中去作检验的结果了。 第5节 加权直线回归的应用──半数效量的估计 1.半数效量的概念 半数效量(ED50)是实验物质引起实验动物总体中半数产生某种反应所需的剂量,通常以mg/kg表示。若剂量用浓度(mg/L)或时间作标志,则称半数有效浓度(EC50)或半数有效时间(ET50);若反应用死亡、耐受或抑制作标志,则称半数致死量(LD50)、半数耐受量(ELM50)或半数抑制量(ID50)。 其中LD50用得最多,它在药理学及毒理学研究中应用甚广。研究LD50(其他半数效量也一样)的试验资料的格式为∶自变量常常是连续变化的量,如药物的剂量,在所选定的k个剂量下,分别用m只动物作实验(各次实验的动物数m最好相等,但也可以不等),然后,观察各剂量下动物的死亡率p,LD50就是求p=50%所对应的剂量x。有了LD50的概念之后,也就不难理解LD2、LD5、LD95、LD98的含义了。为什么要选LD50作为反映药物或毒物毒性大小的指标呢?其原因如下所述∶当绘出剂量反应曲线(剂量为横轴,死亡率为纵轴),你会发现曲线呈长尾S形,如将剂量取对数后,则剂量反应曲线呈对称的S形。此曲线2端伸延较缓,说明在低剂量与高剂量区域内剂量即使变化较大,但引起反应率的变化却很小,而曲线中段,斜率较大,特别在死亡率p=50%处剂量稍有改变,就会引起反应率的明显变化,说明LD50甚为敏感,故选择半数效量作为评价指标,对鉴别不同药物或毒物的毒性大小,具有较高的敏感性。由于研究曲线的规律比较困难,人们发现:将反应率转换成概率单位后,便将对称的S形曲线直线化了,这给研究半数效量带来了极大的方便。把反应率转化成概率单位的方法是∶ ①直接查百分数p与概率单位对照表;②如果没有此对照表,把反应率看作正态曲线下的面积,根据面积,反查“标准正态曲线下的面积表”,得到标准正态变量的u值,用查得的各u值加5,便得到与各反应率p相对应的概率单位值。本书将用SAS程序求半数效量,为节省篇幅,这2个表都未编入本书中。 2.概率单位法半数效量的概率单位法是多种计算半数效量的法中最有效的一种,最先由C.I.Bliss提出,故简称为Bliss法。由于概率单位的是非正态的,且方差不齐,故不适合用通常的最小二乘法直接拟合概率单位随对数剂量变化的直线回归方程,需用各点上方差的倒数作权众,进行加权,并用最大似然法求解,故此法又称为概率单位法或最大似然法。 3.应用举例 某人以1种已知的毒物(标号为1)作为对照,来研究另2种未知毒物的毒性大小,每种毒物均用了若干个剂量,每个剂量下分别用若干只大鼠作了试验。设毒物分组标志为A,剂量为DOSE,各次试验的死亡数为R、试验动物数为N,资料参见程序。试计算各种毒物的半数致死量LD50,并把2种未知毒物分别与对照毒物相比较。──DATA 2 2.0 3 10 INPUT 2 2.5 6 10 2 3.0 9 10CARDS;  3 0.7 0 101 0.3 0 8 3 0.8 2 101 0.4 2 8 3 0.9 5 101 0.5 3 16 3 1.0 9 101 0.6 10 16 ;1 0.7 13 16 PROC PROBIT LOG10;1 0.8 8 8  MODEL r/n=dose / LACKFIT INVERSECL;2 1.0 0 10  BY2 1.5 1 10 RUN;
 此程序只能分别求出3种毒物所对应的加权直线回归方程及各种效应量,关于LD50之间的比较、斜率之间的比较,需用后面的程序来实现。数据步中的语句不言自明;过程步中∶调用的是PROBIT过程,选择项LOG10是对剂量取常用对数,MODEL语句等号右边的LACKFIT要求对失拟进行检验, INVERSECL要求求出用原始剂量所表达的各种反应效量。BY语句要求按分组变量A的各水浦别计算。 Probit Procedure A=1 - Log Likelihood for NORMAL -32.8766351Goodness-of-Fit TestsStatistic Value DF  ProbChi-Sq  -Pearson Chi-Square 4.6L.R.Chi-Square 4.4Response Levels:  2 Number of Covariate Values:6NOTE: Since the chi-square is small , fiducial limits will be calculated using a t value of 1.96.这是用2种方法对第1批资料进行失拟检验的结果,其P值都大于0.3,表明用加权的直线回归方程描述此资料是合适的。
Variable DF  Estimate Std Err ChiSquare PrChi Label/Value INTERCPT  1 2...21 Intercept Log10 1 9...91求得第1批资料的加权直线回归方程为: y^=2..381216lg。此式中的y^为概率单位的预测值。对截距和斜率的检验结果均为P<0.0001。 Estimated Covariance Matrix INTERCPT  Log10  INTERCPT 0..018434Log10 1..202850这是截距与斜率的协方差矩阵。 Probit Model in Terms of Tolerance DistributionMU SIGMA -0.2596μ=-0.25306是刺激(此处指对数半数致死剂量)的均数,σ=0.106596是刺激的尺度参数。所求得的直线回归方程中截距a、斜率b与μ、σ之间的关系如下: a=-μ/σ、b=1/σ。
Estimated Covariance Matrix for Tolerance Parameters  MU SIGMA MU 0.000362 -0. SIGMA -0. 0.000543这是参数μ、σ的协方差矩阵。 Proba  Probit Analysis on Log10  Probit Analysis on DOSEbility Log10 95 Percent F.L. DOSE 95 Percent F.L. Lower UpperLower Upper ① ②③  ④ ⑤⑥⑦0.01-0.50104 -0.70093 -0.47  0.19910  0.-0.47198 -0.65082 -0.30  0.22345  0.40148 ………………………………………………………………………………………0.50-0.25306 -0.29682 -0.39  0.50487  0.61076 ………………………………………………………………………………………0.98-0.03414 -0.10400  0.40  0.78705  1.-0.00508 -0.08279  0.37  0.82644  1.51089F.L.= Fiducial Limits①概率,即死亡率;②~④分别为对数剂量及其95%置信限的下限与上限;⑤~⒅别为原始剂量及其95%置信限的下限与上限。
A=2 - Log Likelihood for NORMAL -19.Goodness-of-Fit TestsStatistic Value DF  ProbChi-Sq  -Pearson Chi-Square 0.7L.R.Chi-Square 0.5Response Levels:  2 Number of Covariate Values:5NOTE: Since the chi-square is small , fiducial limits will be calculated using a t value of 1.96.
Variable DF  Estimate Std Err ChiSquare PrChi Label/Value INTERCPT  1 -2..817 0.0003 Intercept Log10 1 8...12
Estimated Covariance Matrix INTERCPT  Log10  INTERCPT 0..741760Log10 -1..015390 Probit Model in Terms of Tolerance DistributionMU SIGMA 0..118603
Estimated Covariance Matrix for Tolerance Parameters  MU SIGMA MU 0.000739  0. SIGMA  0. 0.000992 Proba  Probit Analysis on Log10  Probit Analysis on DOSEbility Log10 95 Percent F.L. DOSE 95 Percent F.L.Lower Upper LowerUpper 0.50  0.388  0.432 1.939以上是第2批数据的有关结果,为节省篇幅,最后1部分只给出概率P=0.50的结果。
A=3 - Log Likelihood for NORMAL -15.4414598Goodness-of-Fit TestsStatistic Value DF  ProbChi-Sq  -Pearson Chi-Square 0.0L.R.Chi-Square 0.8Response Levels:  2 Number of Covariate Values:4NOTE: Since the chi-square is small , fiducial limits will be calculated using a t value of 1.96.
Variable DF  Estimate Std Err ChiSquare PrChi Label/Value INTERCPT  1 1....0053 Intercept Log10 1 22...33
Estimated Covariance Matrix INTERCPT  Log10  INTERCPT 0..120800Log10 2..996228 Probit Model in Terms of Tolerance DistributionMU SIGMA  -0.0521  0.04386
Estimated Covariance Matrix for Tolerance Parameters  MU SIGMA MU 0.000127  0. SIGMA  0. 0.000144 Proba  Probit Analysis on Log10  Probit Analysis on DOSEbility Log10 95 Percent F.L. DOSE 95 Percent F.L. Lower Upper  LowerUpper0.50  -0..077421 -0.024937  0...944197以上是第3批数据的有关结果,为节省篇幅,最后1部分只给出概率P=0.50的结果。  上述的输出结果只回答了提出的第1个问题,要回答第2个问题,需用下面的程序来实现。──DATAxld50a=-0.25306; xld50b=0.35166; xld50c=-0.052103;ua=-0.21413; la=-0.29682;ub=0.41571; lb=0.29088;uc=-0.024937;lc=-0.=9.;  b2=8.;  b3=22.799945;sb1=2.050085;sb2=2.239507;sb3=6.244696;q=21.96;sld50a=/q; sld50b=/q; sld50c=/q;uab=abs/uac=abs/pld50ab=)2;pld50ac=)2;tab=abs/tac=abs/p_b_ab=)2;p_b_ac=)2;FILE PRINT;PUT #2 @10 ‘xld50a‘ @25 ‘xld50b‘ @40 ‘xld50c‘ #3 @10 xld50a 10.6 @25 xld50b 10.6 @40 xld50c 10.6 #4 @10 ‘sld50a‘ @25 ‘sld50b‘ @40 ‘sld50c‘ #5 @10 sld50a 10.6 @25 sld50b 10.6 @40 sld50c 10.6 #6 @10 ‘uab‘ @25 ‘uac‘ @40 ‘pld50ab‘ @55 ‘pld50ac‘ #7 @10 uab 5.3 @25 uac 5.3 @40 pld50ab 6.4 @55 pld50ac 6.4 #9 @10 ‘b1‘ @25 ‘b2‘ @40 ‘b3‘ #10 @10 b1 10.6 @25 b2 10.6 @40 b3 10.6 #11 @10 ‘sb1‘ @25 ‘sb2‘ @40 ‘sb3‘ #12 @10 sb1 10.6 @25 sb2 10.6 @40 sb3 10.6 #13 @10 ‘tab‘ @25 ‘tac‘ @40 ‘p_b_ab‘ @55 ‘p_b_ac‘ #14 @10 tab 5.3 @25 tac 5.3 @40 p_b_ab 6.4 @55 p_b_ac 6.4;RUN;  此程序的目的是对多个LD50进行两两比较、对多个直线斜率进行两两比较。由于PROBIT过程不能直接实现此目的,需用 SAS语言和统计公式来间接实现。首先,需将中输出的有关数据作为已知条件,赋给相应的变量。各变量含义如下: xld50a、xld50b、xld50c分别是a,b,c3批数据的对数半数致死剂量;ua、la分别是第1组资料对数半数致死剂量的95%置信限的上限与下限,同理,知ub,lb,uc,lc的含义; b1~b3分别是3条回归直线的样本斜率、sb1~sb3分别是b1~b3的标准误差。若不是3条直线,就需要在看懂此程序后对有关语句作相应的调整,就不一一赘述了。  xld50a xld50b xld50c-0..351660  -0.052103sld50a sld50b sld50c0.021094  0.031844  0.013389uabuacpld50abpld50ac15.83 8.043 0.0xld50a~xld50c、sld50a~sld50c分别是3批数据对数半数致死剂量及其标准误差; 其后是第1与第2组、第1与第3组之间对数半数致死剂量比较的U检验结果: 前者为U=15.83,P0.0001;后者为U=8.043,P0.0001。 b1 b2 b39.381216  8.431469  22.sb2sb32.050085  2.239507  6.244696tabtacp_b_ab p_b_ac0.313 2.042 0.2b1~b3、sb1~sb3分别是3条回归直线的斜率及其标准误差;其后是b1与b2比较、b1与b3比较的t检验的结果∶前者为t=0.313,P=0.7544,差别不显著;后者为t=2.042,P=0.0412,差别显著。 与对照毒物相比,第1种未知毒物的毒力非常显著地低于对照毒物;第2种未知毒物的毒力也非常显著地低于对照毒物。与对照毒物的回归斜率相比,第1种未知毒物的斜率 与对照毒物的斜率无显著差别;第2种未知毒物的斜率显著地大于对照毒物的斜率。结合专业知识,还应给出更具体的解释,从略。 第6节 可直线化的简单曲线拟合 曲线拟合一般可分为2类:其一∶曲线直线化法,即利用变量变换的方法, 使变换后的2个变量之间呈直线关系。求出直线回归方程后,再将方程中的变量还原,便得所求的曲线回归方程。这一类又可分为以下2种情形∶①直线化后的方程中只保留1个自变量;②直线化后的方程中有多个自变量,但它们都是由最初始的1个自变量变换得来的如∶Z1=x,Z2=x2,Z3=x3,…。胀是所谓的多项式回归,其本质是把一元回归问题转变成多元线性回归问题。其二∶有些曲线方程不能经过变量变换使之直线化或给澄数的初值后,直接拟合曲线方程,都属于非线性回归问题。 1.曲线拟合的基本步骤曲线拟合的基本步骤可概述如下:①绘出的散布图; ②根据各点在图中的趋势,并结合常见曲线图形的形状和专业知识,选定几种最可能的曲线类型;③根据所选定的曲线方程的特点,作相应的变量变换,使曲线直线化;④建立直线化后的直线回归方程,并作显著性检验;⑤将变量还原,写出用原变量表达的曲线方程;⑥若对同1批资料拟合了几个可能的模型,需作曲线的拟合优度检验,看它们在描述同1批资料上是否有显著差别;⑦对拟合得最好的曲线方程作残差分析,考察所拟合的曲线回归方程在专业上是否成立,是否值得应用。 2.应用举例 某试验研究中测得在专业上有一定联系的2项指标(x,y)的数值,试拟合y随x变化的曲线方程。 根据散布图中各点的趋势,可试用指数曲线y=Aebx、幂函数曲线y=Axb、对数曲线y=a+bln拟合之。可直线化的简单曲线拟合问题可用REG过程来实现统计计算。──OPTIONS LS=78 PS=20;10 673 60 53 110 8 PROC REG;DATA c4;20 211 70 38 120 8  MODEL Y1=x;INPUT x y @@; 30 135 80 33 130 3  MODEL Y1=X1;Y1=LOG;X1=LOG;  40 106 90 17 140 5  MODEL y=X1;CARDS; 50  96 100  9 150 2 RUN;  ;   “Y1=LOG; X1=LOG;”分别表示取y和x的自然对数,即Y1=ln,X1=ln,假定你还需要对y作倒数和平根变换,可在CARDS语句行之前插入一行:“Y2=1/y; Y3=SQRT;”。注意∶数据中有零值时不能取对数和倒数变换,有负数时不能取对数和平根变换。设原变量用x,y表示,则:第1个模型是为了拟合指数曲线方程y=Aebx,即y=ea+bx,这里,A=ea,对此方程的2边同时取自然对数,就使曲线直线化了∶Y1=a+bx,这里Y1 =ln; 第2个模型是为了拟合幂函数曲线y=Axb,对此方程的2边同时取自然对数,就使曲线直线化了∶Y1=a+bX1,这里Y1=ln、X1=ln、a=ln;第3个模型是为了拟合对数曲 线方程y=a+bln,令X1=ln,就使曲线直线化了。  Model: MODEL1 Dependent Variable: Y1 Analysis of VarianceSum of Mean  Source DF  SquaresSquare  F Value  ProbF  Model  1 38.890  429.706  0.0001  Error 13  1.17673  0.09052  C Total14 40.07262  Root MSE0.30086 R-square0.9706  Dep Mean3.31277 Adj R-sq0.9684  C.V.9.08186这是由第1个MOEDL语句输出的方差分析表,F=429.706,P0.0001, 说明Y1与X之间的直线回归方程非常显著。  Parameter Estimates  ParameterStandard  T for H0: Variable DF  Estimate  Error Parameter=0 ProbT INTERCEP  1  6..  38. X 1 -0.. -20.总体直线回归方程的截距和斜率参数与零的差别都非常显著,求得的直线化回归方程为: ,因Y1=ln,故: ,即所求的指数曲线方程为: 。
Model: MODEL2Dependent Variable: Y1  Analysis of Variance Sum of Mean  Source  DF SquaresSquare F V..654 0. -2...483 0.0001这是由第2个MODEL语句输出的2部分结果,各项解释与前面类似。 求得的直线化回归方程为: Y^1=11..,因Y1=ln、X1=ln,故:y^=e=e11..064188ln, 即所求的幂函数曲线方程为:y^=5x-2.064188 。
Model: MODEL3 Dependent Variable: Y  Analysis of Variance Sum of Mean  Source  DF Squares  Square F Value ProbF  Model 1 48 48 42.090  0.0001  Error13     C Total 14 33  Root MSE86.46867 R-square 0.7640  Dep Mean93.13333 Adj R-sq 0.7459  C.V.92.84396  Parameter Estimates  ParameterStandard  T for H0: Variable DF  Estimate ErrorParameter=0 ProbT INTERCEP  1 891.5..128 0. -191.730822  29..488 0.0001这是由第3个MODEL语句输出的2部分结果。求得的直线化回归方程为:y^=891..,因X1=ln,故所求的对数曲线回归方程为:y^=891..730822ln 。  值得注意的是∶3个模型及其截距、斜率参数的检验结果基本一致,各项的自由度也分别相等,若目的在于比较这3个曲 线方程拟合同1批资料是否有显著差别,需作曲线拟合优度的相互比较,其方法是F检验,即:F=较大剩余方差/较小剩余方差 ,然后,查方差齐性检验用的F临界值表得到P值。各曲线方程的剩余平和=∑2,上述3个简单的曲线方程中都只有2个待估参数,故剩余自由度都是n-2。若是K次多项式曲线,当K=1时,剩余df=n-2;当K=2时,剩余df=n-3,…。本例的目的是从3条曲线中选择1个较好的,加以运用,故只需看F值即可。 由于模型1的F值等于429.706最大,相对来说稍好些,即此资料用指数曲线方程拟合效果较好;究竟此曲线回归方程是否有实用价值,应通过下面的方法进行考察。  前例表明用指数曲线方程: y^=541.565490exp描述所给定的实验资料2变量之间的变化规律较好,这只是从直线化回归方程的显著性检验中得到的初步结论,究竟拟合得怎样,应考察各点上的残差以及总的残差平和是否较小。──OPTIONS LS=64 PS=25; OUTPUT;DATA c6; END;t=0; DROPDO i=1 TO 15;CARDS;INPUT 数据与相同。yhat=541.565490EXP;  ;resid=y-  PROC PRINT;t=t+ IDscrs=t; RUN;
按指数曲线方程求出各点上y的估计值YHAT和残差RESID;并求承差平和SCRS。需要修改的内容是曲线回归方程中的系数;若是其他曲线,要注意把函数的表达式写正确。  X Y  YHAT  RESIDSCRS 299. -45.…………………………………………………………  140 5 2.934  2.  150 2 2.021 -0.  从统计检验的角度看拟合得比较好的曲 线方程前5点上的残差却大得惊人! 这个例子提醒我们∶用直线化方法拟合的曲线方程有无实用价值,不能仅看直线化后直线回归方程是否显著,关键要看因变量的观测值与由曲线方程算得的估计值之残差以及总的残差平和是否较小,同时还应考虑曲线方程中参数的个数是否较少。因为参数过多时,曲线方程显得很复杂,不便于应用,更重要的是减少了误差项的自由度,有时虽然当方程中的参数增多时,残差平和略有减少,而剩余误差的均方并没有减少或有增大的趋势。 第7节 一般多项式曲线拟合 在方程中引入x的2次、3次、乃至更高次方项,使直 线方程成为一般多项式程,用Z1=x,Z2=x2,…,Zk=xk,胀把一般多项式程转变成多元线性回归方程问题了。若无现成的统计软件,多元回归方程的拟合在计算时就相当困难,于是,有人研究出一种计算比较简便的拟合多项式的方法─正交多项式。利用这种方法,有2个限制条件:①需要从有关专著中找到现成的正交多项式系数表,它与实验点数n有关,所占篇幅较多,故一般统计书都没有收录此表;②它仅适用于自变量取等间隔数值的情况,胀要求在试验之前有的放矢地去进行设计。现在,有现成的统计软件,故只需用一般的多项式进行拟合即可。
前例表明用1个简单的指数曲 线方程已经描述了资料的大致情况,但还很不理想,可以在不改变曲线类型的前提下,改变指数项的次数,使拟合得不好的点得到改善。──OPTIONS LS=78 PS=25;  PROC REG;DATA c7;MODEL Y1=X1;INPUT x y @@; MODEL Y1=X1 X2;Y1=LOG; X1=x; X2= MODEL Y1=X1-X3;X3=X2x; X4=X3x; X5=X4x; X6=X5x;MODEL Y1=X1-X4;CARDS; MODEL Y1=X1-X5; MODEL Y1=X1-X6;; RUN;  X1~X6分别表示x的1次方至6次方,6个MODEL语句在本质上都是想拟合指数曲线,只是指数项中所含x的次数和项数不一样,分别为含X的1次至6次多项式。 因输出结果占篇幅很大,这里只给出简要说明。模型1的结果与中MODEL1完全一致,模型2、3、4、6从总体上说是有显著意义的,但回归系数的显著性检验结果表明∶模型2中X2,模型3中X2、X3,模型4中X1~X4,模型6中X1~X6均无显著意义,唯有模型5中各回归系数以及整个模型都有显著意义,特列在下面:  Model: MODEL5  Dependent Variable: Y1 Analysis of Variance Sum of Mean  Source  DF  Squares  Square  F Value ProbF  Model 5 39.535  127.956 0.0001  Error 9  0.577  C Total 14 40.07262Root MSE 0.24853 R-square  0.9861Dep Mean 3.31277 Adj R-sq  0.9784C.V. 7.50210 Parameter Estimates  Parameter  Standard T for H0: Variable DFEstimate Error Parameter=0 Prob
T INTERCEP 18... X11  -0.. -3. X210..  2. X31  -0.. -2. X41 0..  2. X51 -1.8. -2. 模型5为:ln=8...-0. +7.85×10-7x4-1.8x5 , 故所求的含多项式的指数曲线方程为:Y^=exp 。
用前例中模型5计算出各点的残差以及总的残差平和。──DATA c8;  t=0; DROP i t X2 X3 X4 X5 Q W;DO i=1 TO 15;  INPUT CARDS; X2= X3=X2x; X4=X3x; X5=X4x; Q=8...;; W=-.+7.85E-7X4-1.8;  PROC PRINT; yhat=EXP; ID resid=y- t=t+ scrs=t;RUN; OUTPUT; END;
W=的右边E-7与E-9代表10-7和10-9,其他参见程序修改指导。  X Y  YHAT  RESID  SCRS 14.-11. ………………………………………………………  140 5 2.818 2.  150 2 1.504 0.  与的结果相比,前4点上的残差绝对值大大减少了,总残差平和由94328.85减少到709.779,自由度由n-2=13减少到n-6=9,剩余均方由=减少到709.779/9=78.864333,减少误差的平和/自由度与模型5的剩余均方之比为: /78..772532这说明模型5以减少误差项的自由度=4为代价,换来了比模型1多解释的误差均方是它本身剩余均方的近297倍的好结果,这是相当令人满意的。 第8节 非线性曲线拟合 无论曲线方程能否直线化,在给澄数初估值的前提下,均可直接进行曲线拟合,其方法称为非线性最小平迭代法。具体的迭代计算法有多种,在用NLIN过程时可选取下面5种之一,即GAUSS-NEWTON法、MARQUARDT法、NEWTON法、GRADIENT法和DUD法。运用NLIN过程时,除选用DUD法进行迭代计算外, 其他迭代计算方法均需给出关于各参数的偏导数的表达式,不熟悉求导的读者使用NLIN过程是有困难的。  从曲线拟合的结果中得到曲 线方程Y^=exp,i=1,2,…,5,其中6肝数B0~B5的初估值依次为:8.618278、-0..008334、-0..85×10-7、-1.8试用NLIN过程进一步拟合之。──OPTIONS LS=78 PS=20;DATA c11;INPUT x y @@;CARDS;;PROC NLIN METHOD=NEWTON;PARMS B0=8.618278  B1=-0.284849  B2=0.008334  B3=-0.000121 B4=7.85E-7 B5=-1.87034E-9;MODEL y=EXP;  DER.B0=y; DER.B1=DER.B2=  DER.B3=x3y;DER.B4=x4y; DER.B5=x5y;  DER.B0.B0=y; DER.B1.B1=  DER.B2.B2=x4y;  DER.B3.B3=x6y; DER.B4.B4=x8y; DER.B5.B5=x10y;  DER.B0.B1=DER.B0.B2=  DER.B0.B3=x3y;  DER.B0.B4=x4y; DER.B0.B5=x5y; DER.B1.B2=x3y;  DER.B1.B3=x4y; DER.B1.B4=x5y; DER.B1.B5=x6y;  DER.B2.B3=x5y; DER.B2.B4=x6y; DER.B2.B5=x7y;  DER.B3.B4=x7y; DER.B3.B5=x8y; DER.B4.B5=x9y;  OUTPUT OUT=bbb P=yhat R=resid SSE=scrs L95M=lm U95M=DATA SETPROC SORT DATA=  BY RUN;PROC PRINT DATA= ID RUN;  选用了牛顿法进行迭代计算,因而需求Y关于B0到B5的一阶和二阶偏导数,求Bi、Bj的2阶混合偏导数时,只准许给出1个DER.Bi.Bj.或DER.Bj.Bi.,不能同时给出2个。在步长搜索法没指定时,缺省值为SMETHOD=HVALVE,即各次迭代的步长K依次取为K=1,0.5,0.25,…;在SMETHOD=后除选用HALVE外,还可选用GOLDEN、ARMGOLD和 CUBIC。参数语句有下列5种写法,如:RARMS B0=0 B1=4 TO 8 B2=0 TO 0.6 BY 0.2 B3=1, 10, 100  B4=0, 0.5, 1 TO 4;与之相对应的各参数的可能初估值分别为:B0 =0,B1=4、5、6、7、8,B2=0、0.2、0.4、0.6,B3=1、10、100,B4=0、0.5、1、2、3、4。缺点是各参数的终值不能事先指定在某数值以下,这样有时求出的方程中某些参数是不符合专业上要求的,出现这种情况时,需改变初估值或迭代法重新计算。  Non-linear Least Squares Iterative Phase Dependent Variable Y  Method: Newton  Iter  B0B1B2 Sum of Squares B3B4B508...9...  -1.87034E-9  ………………………………………………………………………59...2... -3.NOTE: Convergence criterion met.用牛顿法经过5次迭代计算便达到了收敛临界值。
Non-Linear Least Squares Summary Statistics Dependent Variable Y  SourceDF Sum of Squares Mean Square  Regression 6  40   Residual  9 292.07  Uncorrected Total 15  00 
14  33因变量Y的回归均方为,剩余均方为32.54907。 Parameter Estimate Asymptotic Asymptotic 95 %Std. ErrorConfidence Interval Lower Upper  B0  9.. 8. 9.  B1 -0.. -0. -0.  B2  0.. 0. 0.  B3 -0.. -0. -0.  B4  0.. 0. 0.  B5 -0.. -0. -0. Asymptotic Correlation Matrix CorrB0B1B2B3B4  B5 B0 1 -0....8895921 -0.. -0.... 0.. -0... -0... -0.. 0.... -0. -0.916 0..6肝数的最终估计值B0=9.022525,B1=-0.347229,…,B5=-3×10-9,同时给出它们的渐近标准误差、渐近95%置信区间的下、上限值和渐近相关矩阵。 X  Y  YHAT LM  UM RESID  660. 0.11.924 200. -0.9240  ……………………………………………………………………… 140 5 3.873 -7.628 15.373 1. 0.799 -9.164 10.762 1.2010这是按非线性曲线拟合的结果推算出来的预测值、预测值均数的95%下限及上限、残差。残差平和SCRS= 292.942,比中最好的模型5算得的残差平和709.779减少了416.837。由此可见,非线性曲线拟合的效果是相当令人满意的。 第9节 再用1个实例复习曲线拟合的全过程  某地进行核试验,在一定条件下,离爆心的距离X与冲击伤发生率Y有如下试验数据:X:  4.1 4.4 6.8 8.7 10.3 11.9 13.5 15.3 17.3 19.5 23.4 30.0Y:  100 99 90 80  70  60  50  40  30  20  101试拟合Y随X变化的曲线回归方程。  若不绘出资料的散布图,盲目进行直线回归,其结果如下:拟合直线回归方程是无可非议的,因为无论是对整个方程的检验还是对2肝数所作的检验,都有P0.0001,即非常显著。若算出各点上y的预测值,就会发现用直线拟合此资料是不妥当的! 因为最后1点y的预测值是负15。在处理有些资料时还可能会出现第1点大大超过100%,这暗示所选用的模型脱离了实际。从而进一步说明,进行统计分析必须结合专业知识的必要性和重要性。将此资料的散布图绘出后发现,各散点几乎呈1条反S型曲线,选择logistic曲线方程比较合适。──DATA C5;  4.10 100 10.30 70 17.30 30PROC PLOT;INPUT x y @@; 4.40 99 11.90 60 19.50 20 PLOT yx=‘o‘; RUN;Y1=LOG/y);6.80 90 13.50 50 23.40 10PROC REG;CARDS;8.70 80 15.30 40 30.00 1 MODEL Y1=x;RUN;  ;   此程序的关键语句是第3句,即欲使logistic曲线方程:y=K/直线化,必须事先给出K值,对于因变量y为某种率的资料,K是y取值的上限,若y是某种率,通常取K=101或稍大一点的数。从略。拟合logistic曲线方程的结果如下:ln=-4..316680x,为消除对数函数,把等式2边都看作e的指数,并解出y^,得:y^=101/,即所求的logistic曲线方程为:y^=101/ 。 从直线化后的直线回归方程的方差分析和参数估计的结果来看,用logistic曲线方程是可行的。此曲线回归方程是否有实用价值,还应作残差分析。  用前例中拟合出来的logistic曲线模型计算出各点的残差以及总的残差平方和。──DATA C9; t=0;CARDS;DO i=1 TO 12;INPUT  ;yhat=101/);  PROC PRINT;resid=y- t=t+ scrs=t;IDOUTPUT; END; DROP  RUN;  关键是要注意修改“yhat=”后面的表达式。从略,得总残差平合为497.681,自点到5个点上的残差较大,虽然直线化方程的检验结果十分令人满意,但由曲线方程估计的结果仍不够理想,有待于进一步找到更合适的曲 线方程或进行非线性最小平估计,从而减少估计误差。  从曲线拟合的结果中得到曲线方程: Y^=K/的3个参数K、A、B的初估值,它们分别为K=101,A=0.009449,B=0.316680,试用NLIN过程进一步拟合之。──DATA c10; DER.K=y/K; DER.A=-yyEXP/K;INPUT x y @@;DER.B=-yyxAEXP/K;CARDS;  OUTPUT OUT=ccc P=yhat R=resid4.10 100 10.30 70  17.30 30SSE=scrs L95M=lm U95M=4.40 99 11.90 60  19.50 20DATA6.80 90 13.50 50  23.40 10 SET8.70 80 15.30 40  30.00 1PROC SORT DATA=; BYPROC NLIN METHOD=MARQUARDT; PROC PRINT DATA=PARMS K=101 A=0.009449 B=0.316680;  IDMODEL y=K/);  RUN;   选择的迭代计算法是MARQUARDT;PARMS语句指出哪些是参数,并给澄数的初估值,这里的参数实际上是曲线方程中的待定系数;模型语句直接用曲线方程的形式给出。DER.K表示曲线方程中因变量Y对K求一阶导数,DER.A、DER.B含义相同; 根据最后拟合出来的曲 线方程算出因变量的估计值和残差、总残差平和,预测值均数的95%置信区间的下限、上限 , 输出到名为CCC的数据集中去; 其他语句以前曾解释过,就不多说了。METHOD=后面可选其他4种,但选择NEWTON时,需给出各参数的二阶偏导数,即DER.K.K、 DER.K.A、DER.K.B、DER.A.A、DER.A.B、DER.B.B。若选择DUD时,不需要求导数;若选择GAUSS-NEWTON法时,选择项为GAUSS。 Non-Linear Least Squares Summary StatisticsDependent Variable YSource DF Sum of Squares  Mean SquareRegression 3   Residual9  3..440948Uncorrected Total 12   11  因变量y的回归均方为,剩余均方为0.440948。Parameter Estimate Asymptotic Asymptotic 95 % Std. Error Confidence Interval Lower UpperK  118.. 114.2.......233369以上结果给出了3肝数的最终估计值K=118.6210213、A=0.0771415、B=0.2122328, 同时给出它们的渐近标准误差、渐近95% 置信区间的下、上限值和渐近相关矩阵。  X  Y YHATLM UMRESID 4.99.-0.1 99 99.0.111-0.15950  ……………………………………………………………………… 23.4 10 9.829 9. 0. 1 2.583 2.-1.58325  YHAT为Y的预测值, LM、UM分别为各点预测值均数的95%置信区间下、上限值,RESID为残差,SCRS=3.96853为总的残差平和。第1点y的预测值略超过 100%,不太合理,这是因为NLIN过程中没有对参数范围加以限制的功能所致。遇到这种情况,只能改变参数的初值,重新摸索。  欲使曲线拟合效果好,首先要选准正确的数学模型;其次, 要尽可能给出接近真值的参数估计值,并运用非线性最小二乘法实现曲线拟合;最好多用几种可能的模型、多用几种迭代计算法,以便从中选择拟合得最好的结果。曲线拟合得好的标准可从以下几方面考虑:①曲线变化趋势与散点变化趋势一致; ②y的预测值在专业上是有意义的; ③各点上的残差以及残差平和都尽可能地小; ④模型中的待估参数尽可能地少。 第10节 两条或多条回归直线的比较 若需对两条或多条回归直线之间进行比较,即检验总体截距之间是否有显著性差别、总体斜率之间是否有显著性差别,可仿照下面的两个例子来实现。四个健康猴,胸腔压力X和肺容量Y资料如下,试检验四条回归直线间有无显著性差别。━ DATADO a=1 TO 4; PROC GLM; 1号猴 2号猴 3号猴 4号猴  input x y @@; OUTPUT;  CLASS ━━━ ━━━ ━━━ ━━━ END; CARDS;  MODEL y=x a xa/SS1;X  Y X  Y X  Y X  Y 2.0 45 3.2 57 2.5 60 1.4 33 RUN;  2.0 45 3.2 57 2.5 60 1.4 33 1.8 47 1.5 30 0.6 22 3.0 60 PROC GLM; 1.8 47 1.5 30 0.6 22 3.0 60 3.9 72 1.0 28 1.5 40 4.0 66  CLASS 3.9 72 1.0 28 1.5 40 4.0 66 2.5 49 1.8 31 2.1 55 5.0 87  MODEL y=x a / SS3;2.5 49 1.8 31 2.1 55 5.0 87 ;RUN; 
程序中a代表回归线的条数,如果只有两条回归直线, 只需将a的最大值改成2。 Dependent Variable: YSource  DF  Type I SSMean Square  F Value Pr
FX 1 370. 0.0...95 0.0196XA  3  82...95 0.2001这是第1个过程步输出的结果,最后一行是检验各回归直线的斜率之间是否平行。由F=1.95,P=0.2001,说明各斜率之间无显著性差别,故可认为四条回归线是互相平行的。Source  DF Type III SSMean Square  F Value Pr
FX 1 209. 0.0...73 0.0235这是第2个过程步输出的结果,最后一行是检验各回归直线的截距之间是否相等。由F=4.73,P=0.0235,说明各截距之间有显著性差别,故可认为四个截距不等或不完全相等。
相关热词搜索:
-- 本站部分信息来源于互联网,不代表本站观点或立场,如有侵权,请来电告知,我们将及时处理

我要回帖

更多关于 y12 end 的文章

 

随机推荐