经济模型,多元线性回归 相关性回归分析一个解释变量和被解释变量相关性,t检验和F值检验都通过了,R²大小重要吗?

多元回归分析与Logistic回归分析的应用研究_大学生考试网
当前位置: >>
多元回归分析与Logistic回归分析的应用研究
南京信息工程大学 硕士学位论文 多元回归分析与Logistic回归分析的应用研究 姓名:孙振宇 申请学位级别:硕士 专业:应用数学 指导教师:李刚
中文摘要本文主要研究了线性回归分析中多元回归分析及非线性回归分析中 Logistic回归分析在实际中的应用。第一部分综合使用影响分析、聚类分析以及 多元回归分析等方法,并把这些方法融合在一起预测五强溪水库的流量。在对湖南沅水流域包括河溪、风滩、浦市等22个水文观测站1996―2003年的日雨量、流量资料等记录数据进行分析后,运用影响分析的统计方法对大量的观测数据进行筛选,在去除异常点并找出主要影响因子之后作聚类分析,根据分类后的数据再分别采用多元回归分析建立模型对进入五强溪水库的水流量进行预报, 三个模型的预报准确率都在90%以上,获得了很好的预报效果。第二部分结合 教师互评,上级领导(或专家)对教师评价,学生对教师的评价这三方面应用 Logistic回归分析的方法来进行研究,提出一个对教师教学质量的总体评估模 型,并用SAS软件进行编程实现。这种评估模型能比较科学客观的评价教师的 教学情况,可以广泛应用于其他领域的评估工作。关键词多元回归分析;Logistic回归分析;影响分析;聚类分析;流量预报 AbstractIn this paDer,we mainly discussed the practical application of the multiple regression analysis method belonged part,we mainly used the influencetothe linear regression method and Logisticregression analysis method belonged to the non.1inear regression method.In the firstanalysis,theclusteringanalysis andthe multipleregression analysisofmethodandmerge these methods together to forecast the runoffthe耽Qiangxi reservoir.By analyzing the daily precipitation and flow data of 22HunanYuanshui valley including Hexi.Fengtan.on usehydrology observation stations of Pushi.we firstthe statistical method of influence analysismass observationdata to filtrate.and then employ the clustering method to the mainly influence factor founded after removing the abnormal spot.At last.the multiple regression method is adopted sorted data to build mathematical modeI to forecast of the three models the second part,weanalysisonthe runoff of the reaches up toWu Qiangxi reservoir.The accuracy ratio 90%and gets a preferably predicting result.Inapply the Logistic regression analysis way to conduct the research teachers’comments mutually,higher authority teacher,students’appraises to thecombined诚thleaders’(or experts’)appraises to the teacher.We propose an overall appraisal model tocanevaluate the teacher’S teaching quality by using the SAS software.111iS model appraise the teacher scientifically and be used widely.Key words:multiple regression analysis;Logistic regression analysis;influenceanalysis;clusteringanalysis;flowforecastingII 学位论文独创性声明本人郑重声明: 1、坚持以“求实、创新"的科学精神从事研究工作。 2、本论文是我个人在导师指导下进行的研究工作和取得的研究成果。3、本论文中除引文外,所有实验、数据和有关材料均是真实的。 4、本论文中除引文和致谢的内容外,不包含其他人或其它机构 已经发表或撰写过的研究成果。 5、其他同志对本研究所做的贡献均已在论文中作了声明并表示 了谢意。彳.、作者签名:固!当k善日 期:≯弘乒.,.;一学位论文使用授权声明本人完全了解南京信息工程大学有关保留、使用学位论文的规 定,学校有权保留学位论文并向国家主管部门或其指定机构送交论 文的电子版和纸质版;有权将学位论文用于非赢利目的的少量复制 并允许论文进入学校图书馆被查阅:有权将学位论文的内容编入有 关数据库进行检索:有权将学位论文的标题和摘要汇编出版。保密 的学位论文在解密后适用本规定。作者签名:拯妊覃日期:丝£生 第一部分五强溪水库上游流量的预报研究 第一章绪论1.1研究目的与意义在当今社会,随着科技的发展,我们已经人为的尽量减少自然灾害造成破坏。在各种自然灾难中,洪水造成死亡的人口占全部因自然灾难死亡人口的 75%,经济损失占到的40%。更加严重的是,洪水总是在人口稠密、农业垦殖度 高、江河湖泊集中、降雨充沛的地方,如北半球暖温带、亚热带。中国、孟加 拉国是世界上水灾最频繁、肆虐的地方,美国、日本、印度和欧洲也较严重。 在我国,20世纪死亡人数超过10万的水灾多数发生在这里,1931年长江发生重 大洪水,淹没7省205县,受灾人口达2860万,死亡14.5万人,随之而来的饥饿、 瘟疫致使300万人惨死。而号称“黄河之水天上来”的中华母亲河黄河,曾在历史 上决口1500次,重大改道26次,淹死数百万人。1998年中国的“世纪洪水”,在中国大地到处肆虐,29个省受灾,农田受灾面积3.18亿亩,成灾面积1.96亿亩,受灾人C12.23亿人,死亡3千多人,房屋倒塌497万间,经济损失达1666亿元。水库是为解决水患和蓄水备用而出现和发展起来的。在水流量较大或发洪水时,水库可以起到蓄水拦洪削峰的作用,而在干旱的时候放水灌溉,解决部 分地区水资源不足的情况。我们通过长时间的观测某一区域的雨量与流量,并 通过分析这些观测数据来预报流入水库的流量,这对于水库合理调度是非常重 要的。在灾害洪水频繁发生时,提前对洪水流量进行准确的预测并及时发出预警对于减灾抗灾意义重大,关系到当地人民群众的生命安全与财产安全。综上所述,对影响分析、聚类分析和多元回归分析的研究,特别是在对水库流量预测的应用研究,具有重大的社会经济意义,也具有重要的学术和科研意义。 1.2研究背景五强溪水库位于沅水下游沅陵县境内,于1995年建成。水库控制集雨面积83800平方公里,占沅水流域总面积的93%,坝址年平均降雨量1724毫米,年平 均流量2040秒立米,年径流总量643亿立方米。水库总库容为42亿立米,正常水 位108米以下预留防洪库容13.6亿立米,库容系数0.031,为季调节水库。五强 溪水电站则是沅水梯级开发的骨干工程,枢纽工程主要由左岸三级船闸、河床 溢流坝段、右岸引水坝段及坝后厂房组成。随着气候的异常变化以及江湖关系 的逐渐恶化,进入90年代,沅水流域连续几年发生特大洪水,五强溪坝下游洪 涝灾害损失惨重。关于洪水预报的研究工作从20世纪70年代开始,随着大型计 算机的应用以及一些新的理论如控制理论的实时预报技术大量被引入洪水预报 中,洪水预报的研究工作在我国迅速发展。【lJ1.2.1聚类分析的研究及应用聚类分析是将一批样本或变量,按照它们在性质上的亲疏程度进行分类的一种多元统计方法。它能很好地解决在没有先验知识的情况下样本或指标的分类问题。这一方法被广泛应用于金融、电信、医药、制造等各个领域。在研究 对金融发展与经济发展的联系中,美国经济学家Gold Smith[21曾详细论述了金融发展与经济发展的关系,并开拓了用定量方法描述金融发展的先河,揭示了 各国金融发展的规律性趋势。国内一些学者也对金融发展进行了一定的研究, 中央财经大学的冯颖洲、曲炳洋【3】运用系统聚类的方法对我国31个省区的金融 发展水平进行了比较分析,但是只采用了2000年的数据,结论也只基于2000年 一个时间段。田霖H对区域金融综合竞争力进行了聚类分析。冯碉【5J等也对我国 区域经济发展进行了聚类分析。随着股票在人们生活中所占的比重越来越大, 李敏【6】等也将聚类分析应用在证券投资基本分析中,通过分析比较出有成长潜 力的股票,为投资者特别是中小投资者提供理性的长期投资的参考数据。另外 聚类分析在统计分组中也被广泛适用,在统计分组理论中,为了深入地揭示所 研究现象的特征,往往要同时选择若干个标志进行复合分组。然而由此却产生 了一个问题,由于组数过多导致总体单位的分布过于分散,从而不利于揭示总 体的分布特征,为此往往引进聚类分析方法。比如在研究人口问题、国民经济 等问题中,往往都会遇到分组分类的问题。李福平【_7】等将聚类分析方法应用在 统计分组中,并通过实例证明所得结果符合统计分组的要求。1.2.2影响分析的研究及应用在线性回归分析中,为了分析某组数据对参数估计,预测,模型等得影响 大小,找出那些所谓的强影响点,人们从不同角度提出了衡量一组数据是否为 强影响点的度量,即影响分析。 从目前来看,影响分析的内容大致可分为两个方面: (1)全局影响分析法。在定义度量影响的统计量后,用影响统计量来刻划2 了删除一个或多个数据点对回归分析影响的大小,这是影响分析初期研究的重 点,也是最有实用价值的内容。这种分析法一般基于影响函数的统计量,如 CooKl81统计量。 (2)局部影响分析法。局部影响分析法是由CooKl91(1986)首次提出的 一种新方法,其思想是在某种扰动模式下,用基于似然替换的影响图的正则曲 率以及相应的最大响应方向以识别数据中的影响点。这种方法使用灵活,可以 分析数据中的联合影响,进而识别数据中的Masking效应,因而得到了广泛的 应用。在此之后,许多新的方法逐渐发展起来,如基于广义影响函数和广义CooKuJ 统计量的局部影响分析(如CooK(1986),Lesaffre(1998),Escobar and MeckerII等),Bayes局部影响分析等(如韦博成【ll】等(1991)),以发展和完善局部影响分析的理论和思想。 从某种意义上讲,影响分析是统计推断关于数据的稳定性问题。因此,对 其他统计问题,它同样是必要的。实际上在判别分析,广义线性模型,主成分 分析等方面都有一些研究成果。 在实际应用中,这一方法也被用于各种领域,朱仲义【12】等研究了半参数非 线性回归模型的局部影响分析,并且所得结果与线性模型分析的结果一致。张 春丽【”】等也应用该方法研究了单纯形分布非线性模型的局部影响分析,并通过 实例证明了这一方法的应用价值。石磊【14】等应用局部影响分析方法,讨论了主 因子模型中影响点的识别方法,并将这一方法用于地质数据中,以识别特殊地 质数据及结构。1.2.3多元回归分析的研究及应用回归分析是一种通过一组预测变量(自变量)来预测一个或多个响应变量 (因变量)的统计方法。它也可用于评估预测变量对响应变量的效果lI副。在大 多数的实际问题中,影响因变量的因素不是一个而是多个,一般称这类问题为 多元回归分析问题。它是多元统计分析的各种方法中应用最广泛的一种。多元 回归分析,是经济预测中常用的一种方法,通过建立经济变量与解释变量之间 的数学模型,对建立的数学模型进行R检验,F检验,t检验,在符合判定条件 的情况下把给定的解释变量的数值代入回归模型,从而计算出经济变量的未来 值即预测值。【16l在实际应用中,采取将预报因子和预报量按一定标准分为多级,用分级尺度代换较大的数字,更能揭示预报因子与预报量的关系,预报效果比采用数值统计方法有明显的提高,在实际应用中具有一定现实意义。 多元回归方法因其实用性及有效性,在现今社会越来越多的领域得到广泛 应用。早在1986年,郑钟光【17】就将多元回归分析应用在矿石体重测定中,并用 实践证明了这一方法具有较大的优越性。苑玉风【l列应用多元回归分析和逐步回 归分析,研究某种汽车发动机用球墨铸铁活塞环球化率的影响因素,并建立了 相关关系。李金海【19】在多元回归数学模型基础上,提出了多元回归方法的应用 步骤。另外这一方法也被广泛的应用于预报各种气象参数,牛桂萍,黄祖英唧J 用多元回归分析做暴雨的长期预报,虽然误差较大,但他们同时指出有待于因 子本身作进一步的改进。林祖享,梁舜华[2H运用多元回归方程,绘制出赤潮生 物的变化趋势图,并预报是否可能发生赤潮。此外,多元回归分析方法也被越来越多的应用于预报各种自然灾害,王震掣22】等将这一方法用于滑坡预报,并用实例证明了能在一定程度上解决滑坡的预报问题。刘昌蓉123J等采用多元线性 回归分析方法,建立地质灾害危险级别的评价模型,按照计算结果综合反映出 的地质灾害活跃程度的高低,对该区域进行有效防治,从而有利于地质灾害的 减轻减少。袁宇【24】运用多元回归分析法,建立了化学污染面积,纵身与诸条件 的关系,快速估算预测出突出性化学污染危害,并提前做出防范措施。索南仁 欠【25】也提出了水质污染的多元回归分析方法,这一方法的建立有助于我们更好 加直观地了解水质的最显著污染因素及在具体治污过程中,更有针对性地实施 合理治污方案。对于最近太湖大面积的蓝藻事件,如果我们也应用这一方法, 提前预测并做好防范工作,那污染所带来的危害及经济损失一定会有所减少。 而本文也是利用这一方法通过预报水库流量并及时发出预警,以便提前做好防 范工作。 1.3本文主要研究内容如今,面对数字科技的进步和信息社会的发展,我们在科学研究与工作中都会遇到成千上万的统计数据,如何从中挖掘出对我们有用的信息并利用这些 数据来对我们的研究发挥启示性的作用或者在我们的实际工作中起到指导作 用,这成了我们研究的重点。很多科研工作中要处理的数据量非常之大,于是 我们想到把数据先分类然后再做分析。数据分类是指按照分析对象的属性、特 征,建立不同的组类来描述事物。数据分类是数据挖掘的主要内容之一。数据 分类过程一般分两个步骤。第1步:建立一个模型,描述给定的数据类集或概 念集。通过分析由属性描述的数据库元组来构造模型。第2步:使用模型对数 据进行分类。包括评估模型的分类准确性以及对类标号未知的元组按模型进行4 分类。在本文中主要研究了影响分析、聚类分析与回归预报及其应用,并在实际 问题预报湖南沅水流域的五强溪水库流量中应用此种方法,对水库上流各水文 站的近十年的观测数据做聚类分析及影响分析,并对分类数据分别建立多元回归模型,从而得到优良的预报结果。 第二章2.1资料和方法资料说明本文所使用的具体资料数据由南京水利所提供,其中主要为湖南沅水流域部分区间1996-2003年的日雨量、流量资料,包括河溪、风滩、浦市等22个水文 观测站的记录数据。 2.2理论和方法说明若某次观测严重偏离回归模型,则称它是野点(outlier)或异常点。分析每次观测数据对估计出的参数的影响,进而判断是否存在野点,并找出野点的统 计分析称为影响分析(influence analysis)[261。 影响分析通过计算影响统计量,从而查找野点。影响分析的两种常用方法 是数据删除模型(Casedeletionmodel.CDM)和均值漂移模型(Meanshift outliermodel.MSOM)。在本文中我们采取数据删除模型。 数据删除模型是将某次观测删去,分析删去某次观测后所算出的结果与不 删除观测所算出结果的差异,例如对模型y 5b。+6lxl+…+6mx珊+£用观测值硝1…xl朋 y1xHl…x"1Y”拟合一次,再用用观测值xl】…而Ⅲ乃xt一1。1 xf+1,1…xi.1∞ …x“1,肘lyi―I Yi+lXnl…xnlY月拟合一次,比较两次计算的结果。 由于影响统计量一般都是随机变量,其分布一般不易得到,只能给出经验 准则,用以判别影响统计量是否异常。而某个影响统计量表现异常,不一定相 应观测值就是野点。6 由影响统计量怀疑第1个观测是野点的经验准则(1)%>2p/n(2)库克距离口>1(3)ld够ts,I>2、/p/n(4)Irstudent,l>2 (5)Icovratio,一lf>3p/n(6)]dfbetask,_>2/4n在SAS的REG过程中,model语句中加上选项influence后,计算机就会 计算rstudent(学生化残差),covratio(协方差比),dffits,dfbetas。[27】聚类分析(clusteranalysi s)也称群分析,是一种新兴的多元统计方法,是当代分类学与多元分析的结合,聚类分析方法较为粗糙,理论上还不够完善, 正处于发展阶段,但由于该方法应用方便,分类效果较好,因此越来越为人们 所重视。聚类分析是一组分类方法的统称,是对变量或观察个体进行归类的统计 方法,即把相似的变量或观察个体归为一类,也称为一个集群(cluster),而 有较大差异的则归到不同的类别根据聚类对象(变量或观察个体)的不同,聚 类分析可分为变量聚类(clusteringfor forvariables)和样品聚类(clusteringindividuals)。具体说就是根据已知数据,计算各观察个体或变量之间亲疏关系的统计量(距离或相关系数),再根据某种准则(最短距离法、最长距 离法、中间距离法、重心法等)将观察个体或变量进行合并,使同一类内的差 别较小,而类与类之间的差别较大,最终将观察个体或变量分为若干类别。聚 类分析的分类过程完全依赖于数据自身,而不依赖任何已经存在的或外来的分 类标准。 聚类分析与判别分析同属于分类方法的范畴。所不同的是,聚类分析的对 象的分类情况是未知的,事先没有可供参考的分类依据,面判别分析的对象必 须是有事先存在已知的分类,每类的若干样品或分类依据。聚类分析的结果主 要是经验性的,使用不同的聚类分析方法可能产生各不相同的结果,对所得出 的结果重复性也较差,而从统计学理论上也难以判断某一个分类结果是否正确 或接近正确的程度大小。聚类分析结果与真实情况的接近程度还取决于分析变 量的选择,因此,聚类分析之前应尽量应用专业知识剔除对分类不起作用的变 量,以减少聚类分析时无关变量对分类结果的干扰。【28j 由于聚类分析技术所需的计算量比较庞大,所以一般都需要借助于专业的 统计分析软件中的聚类分析模块来执行聚类分析。SAS软件中有关聚类分析的过 程有cluster、fastclus、varclus、tree、aceclus过程等。Fastclus过程常用 于大样本数据的聚类分析,它以系统聚类(disjoint clustering)的方法执行 聚类分析的过程,聚类所依据的同样是以若干个数值型变量经特定计算所得出 的某种距离,经fastclus过程分析的观测(样品)最终将被分到若干个互不相 容的类别中。若要对大样本的数据进行系统聚类,可先调用fastclus过程进行 分析以确定样品的初始分类,再将输出的结果作为输入数据调用cluster过程进 行聚类分析。默认情况下,fastclus过程以欧氏距离作为分类的判断标准。lz9j 回归分析是对客观事物数量依存关系的分析,是一种重要的统计分析方法,广泛地应用于各类社会现象变量之间的影响因素和关联的研究。poJ由于客观事物的联系错综复杂,很多现象的变化往往受到两个或多个因素的影响。为了全 面揭示这种复杂的依存关系,准确的测定现象之间的数量变动,提高预测和控 制的准确度,就要建立多元回归模型进入深入、系统的分析。多元回归分析是 研究多个自变量与某个应变量之间相关关系的一种常用统计方法。同时根据贝 叶斯统计学理论,我们还要研究流量本身在连续时间上的影响,考虑时间序列 模型,在回归中引入自回归。 多元回归分析是根据统计资料建立预报公式(经验公式)的统计方法。【27J 例如统计若干人身高与脚长数据,从而建立由脚长预测身高的预报公式。又如 统计若干棵松树的胸径与材积(可利用木材体积),建立由胸径预报材积公式。 都用到回归分析方法。当然回归分析不只是建立预报公式,还要对预报误差的 大小,预报公式的合理性等问题讨论,有着非常丰富的内容。回归分析在自然 科学,社会科学和应用技术中都有重要应用。现实世界中大量存在相关关系, 具有相关关系的变量间不能完全确定。具有相关关系的变量间,由一些变量可 以大体预报其它变量。前者称为解释变量,也叫做自变量或预报因子。回归分 析的目的是,得到由解释变量预报响应变量的公式,以便通过解释变量去预测 或控制响应变量。对于回归模型中的解释变量,有两种处理方法:一种当作确 定性变量处理,另一种当作随机变量处理,所得计算公式式相同。本文采用前 一种处理方法。 回归分析是建立预报公式的一种方法。其一般步骤是:首先取得解释变量 和响应变量的多次观测值,这些观测值可能是实验得到的,也可能是调查出的; 然后根据这些数据确定经验公式的类型,建立数学模型,列出待估参数;再用 这些数据进行拟合;最后作统计分析。数据拟合是计算方法的内容,它也能解 决回归分析中的数据拟合,但回归分析与计算方法的数据拟合不同,计算方法 的数据拟合只估计未知参数,而回归分析不仅仅估计参数,而且要对拟合的结 果作统计分析。13JJ 一般地,我们有 定义1.1Y=bo+匆t+…+bx+£(1。1)称为多元线性回归模型,其中Ee=O,D6=盯2;60,岛,..石,,t72是未知参数。‰称为常数项或截距,五,...,X。是解释变量,本文中把它们作为确定变量;Y是响应 变量,为了区别,称(1.1)为理论回归模型。132j 实际上,定义1.1中应补充条件:不同次观测的误差互不相关,以与线性模 型等区别,也即是说定义1.2更准确。 为了确定线性回规模型的未知参数,必须配有解释变量和响应变量的若干 次观测值。MX¨:、●●兑.m 定义1.2一.厂● ● ,、 ● ,● 一,以X叭 :、●●X胁咒=既+历t+¨●+玩t孵+ £. ●一 一虬(1.2)=既+反■十¨●+6m 石。哪+gH称为整体回归模型,其中附有假设(Gauss.Markov条件)9 Ee,=0i=1,2,…n蝌以(1.2)式可简写成矩阵形式以利公式推演, 令Yl … y=●●●boS11 ,X2Xll…毛。,卢=bl…… …S月ynbm1xHl…X月m则(1.2)可写为Y=即+s定义1.2(1.3)Y=即+s附有假设Ee=0ft附(s):口2,称为整体线性回归模型,其中x称为回归设计矩阵,通常简称为设计矩阵。[27110 第三章3.1沅水流域水库流量预报引言五强溪水库位于沅水下游,控制集雨面积83800亿m3,占沅水流域面积93%。五强溪水库总库容42亿m3,防洪库容13.6亿m3,它的防洪和发电作用在湖南省 具有十分重要的地位ll J。因此,对流入水库的流量进行较为准确地预报具有重 大经济意义和政治意义。为使预报更加准确,运用聚类分析,把所有的观测数 据分类,并找出分类的依据和各类数据之间的关系,分别对他们进行建模,通 过回归的方法预报水库流量。 同时根据时间序列分析理论,我们还要研究流量本身在连续时间上的影 响,考虑时间序列模型,在回归中引入自回归。本文通过五强溪上游各个水文 观测站的观测数据,运用现代统计方法对流入五强溪水库的流量进行预报实践, 为和谐社会建设提供科学依据。 3.2分析观测数据和预建模首先我们对原始数据进行分析,总共有河溪、浦市等22个站点从1996年1月2日到2004年8月10日的雨量观测数据,还有10个水文观测站包括五强溪 水库的流量观测数据,总的来说一年中无雨的情况较多,降雨期主要在春夏季, 另外,在观测数据中还存在不少误差,这些都是我们需要加以注意的。其次我们选取一个小区域进行建模,对夺希一矮寨一三拱桥一兴隆场一河溪这一区域进行分析,考虑连续4天的观测数据,通过夺希、矮寨、三拱桥、 兴隆场、河溪的雨量,再加上河溪的流量建立河溪流量自回归的预报模型,画 出如下预报图(见图1),图中黑色小加号代表实际值,红色小星号代表预报值。 漉t(锭疗柬,秒)图l 3.3河溪流量自回归预报图模型存在的问题在对运行结果进行分析后我们发现在雨量较大时预报比较接近,但总体上误差还是较大。由于雨量的不连续性,并考虑到第二天的流量不仅跟当天的雨 量有关,跟前一天的流量也有关系。在用四天的数据建模时发现前几天的雨量 与流量影响不大,而有几个观测数据可能是观测或者记录中存在一些操作失误, 数据不符合实际情况,所以需要相应的对模型进行改进,并对有些错误的数据 进行处理。 第四章4.1模型改进分析数据做聚类分析我们考虑先作影响分析,去除异常点,然后用聚类分析的方法对数据进行分类,并对主要影响因素加上权重后再做自回归分析,这样得出的结果更为科 学合理,更加准确,从而使预报效果得到进一步改进。【33J 野点出现的原因很多,例如:记录该次数据时存在误差,可能记录因变量 或自变量时,小数点错了;某次观测中,试验条件改变了;未考虑到的其它解 释变量在该次观测起作用了;误差项的绝对值特别大…。野点会使估计出的的^ ^ A回归系数‰,bl,..。Dm有很大计算误差,从而预报值也有很大误差。 为了预报五强溪水库的流量,我们可以根据河溪以上区域站点的雨量和流 入五强溪水库的站点流量进行建模。根据当地的地理情况,上游的水流经过一 天左右的时间就能流到水库,故而只需要考虑各地前一天的雨量,所观测的站 点包括双滩、清水坪、大合坪、浦市、河溪、丹青、阮陵、泸溪、坳坪、张家 坪、草龙潭、筒车坪、沅古坪、七甲坪、清浪、官庄、马底驿、棋坪、四都坪, 此外还有浦市、河溪、五强溪的流量。 每个观测站都有3 145次观测值,为减少观测误差所带来的影响,我们先做 影响分析,去除异常点并且找出主要影响因子之后再对数据作聚类分析。通过 SAS编程,以所有雨量站连续两天的降雨量为自变量,采用快速聚类法 (fastcluster)分类,分为12类,其分类情况如表1所示: 表1CIuster各站雨量聚类分析表Frequen cyRMS StdDeviatI Onfrom Seed toNearest CIusterDi stance Between Cluster(类)(频数)(标准离 差)Observat j on(最近的 类)Centroids(与凝聚点 的距离)(类中心间 的距离)831 22 23551.1 605.51 223.4 1 048.710473.7 8424.5 8424.5 4602.2 2345.0 4408.6 5696.1 2345.0 961 7.7 4408.611 597.43 4 56 72986.3 3857.1 41 36.1 3569.0 4262.15000.7 1 801.426 875 9574 11 2057863.5 545.6 1 263.511 83.11010 589253.31 040.02 917 68 41 011 12895.43287.8O211086.951 76.151 90.O4.2根据分类情况做回归预报第1类的两个数据都是异常点应舍去,其余几类按照数据的特点合并成3种情况:第1种情况取第8类的数据,各水文观测点基本无雨;第2种情况取 第5类数据,部分地区有降雨,总体雨量不大;第3种情况把余下的几类数据 合并,各站降雨量较大,降雨分布面积也较广。分别对每一种情况的数据作回 归分析。其中Y代表五强溪的流量,yt代表五强溪前一天的流量,t代表双滩, 清水,大合,浦市,河溪,丹青,阮陵,泸溪,坳坪,张家坪,草龙,筒车,14 沅古,七甲,清浪,官庄,马底,棋坪,四都各站当天雨量之和,m代表提前 一天各站的雨量之和,X20代表浦市的流量,x2l代表河溪的流量,X20t和x2lt各 代表其前一天的流量【341。 第1种情况的模型为Y=-384.66+0.667幸只+2.971枣r+O.109幸m+O.752奉x20+3.727事x2l一0.347幸x20,一1.869木xzl,预报图(图2)如下所示,预测值与真实值误差在20%以内的达到了总预测量 的92.06%。[35】溢量e谨劣棠川睁’图2 第2种情况模型为第1种模型预报图Y=62.817+O.583幸只+3.021木f一0.058}m+O.639毒x20+O.86奉x2l一0.286+恐们一0.309奉x2I,预报图(图3)如下所示,预测值与真实值误差在20%以内的达到了总预测量 的91.64%。15 巍曩(讶米,移)图3第2种模型预报图第3种情况的模型为Y=2049.476+0.272奉只+3.256}t+O.32木m+O.684水x20-0.246木x2l-0.184木x20f+0.462}x2lf预报图(图4)如下所示,预测值与真实值误差在20%以内的达到了总预测量的92.97%。16 嚣重(它彦米,移》图4第3种模型预报图从以上预报图可以看出,在雨量较大的第3种模型中预报准确率最高,可 以在今后实际工作中加以运用,可有效地提高洪灾的预报准确度。而第1、第2 种模型的预报准确率也都在90%以上,这充分验证了模型的可靠性。4.3模型的不足在本文中我们首先运用影响分析去除了数据中存在的异常点,找出主要的影响因子然后使用快速聚类的方法对数据进行分类,在此过程中由于聚类分析 方法本身的特性,使用不同的聚类方法所得出的结论可能各不相同,因此我们 在选择聚类方法的过程中经过初步比较确定了快速聚类法,但并未对其他几种 聚类方法所产生的结果进行深入研究,几种聚类方法之间的横向比较及应用还 待在今后做进一步的研究。对分类方法的选用还有待进一步的验证。模型还不 能实现实时数据自动分析,各步骤之间还需要我们进行分析之后才能进入下一 个步骤。17 第二部分Logistic回归模型 在高校教师教学质量评估中的应用 第五章绪论5.1研究目的与意义一个科学合理的评估体系是保证教育体制改革顺利进行的有力措施,也有利于师资队伍的优化,提高教学质量,提升办学水平。如何对高校教师的教学工作进行综合测评,建立定量的科学的评判标准,是十分重要的。目前有一些定量的评判标准,其构成带有很大的主观成分。本文提出的Logistic回归分析 的方法则可以避免主观性,把科学的考察和专家的意见综合起来,从而得到较 为客观公正的评判结果。5.2研究背景Logistic回归分析作为一种有效的数据处理方法被广泛应用,尤其在医学、社会调查、生物信息处理等领域。在国内,对Logistic回归的研究主要集中在 应用方面。近年来,Logistic回归的应用研究在继续拓展。国外开始进行将其 应用于多实例标签包(1abeledbag ofinstances)分类问题的研究。[361国内也开始 注意应用累积Logistic回归尤其是多分类累积Logistic回归分析和处理的相关问 题。吴兆奇运用Logistic分析建立了学生考试成绩与招生类型之间的关系。[37】 王全众,针对具有相关关系的分类数据的统计分析,介绍了两类Logistic回归模 型,并分析了它们的联系与区别。【38】邹志红基于Logistic回归方法建立了一种 水质级别预测模型,利用长江流域的水质监测数据,进行水质建模,对水质级别做 出预测。研究结果表明利用Logistic回归进行水质分析,具有良好的拟合和预测 效果。[39】陈广等在医学研究中介绍引进了Logistic回归分析,并应用于判别分 析时取得了较高的准确性和较好的预测效果。[40118 第六章Logistic回归分析介绍Logistic回归属于概率型非线性回归,假设在自变量五,恐,…,‰作用 下,某事件的发生概率为P,则该事件不发生的概率就为1一P,发生概率与不发生概率之比为―L,记作“优势”(odds),对odds取自然对数,即得逻辑斯1‘’P缔(Logistic)函数。Logit(p)=In(odds)=Jn(―L)称为P的Losit变换,则Logistic回归模型为Logit(p)=砌(了!『-)=卢o+JBl墨+应x2+…+成‰+s(1)式(1)中成为常数项,卢。,卢:,…卢。称为回归系数,误差项s是随机变量,均值 为零,方差存在。并且从中可以看出,当P在(O,1)之间变化时,对应的Logit(p)在(砌,佃)之间变化,这样,自变量五,x2,…,靠可在任意范围内取值。首先将评判对象划为若干等级,即等级Y=I,2,...k,Y是有向属性变量, 等级越高,对教师评价越好。对教师考察定量指标而,而,…,‰。令P,=P(y≥f)(江1,2…,七)。建立多等级的Logistic回归模型。lIl(了羔L)=屈o+卢l五+…卢。Xm+s,(,=1,2…,k)对若干教师考察其定量指标五,x2,…,‰,再由专家对这些教师等级Y 打分。由这些典型数据得到回归系数卢mpr.卢。的估计值卢Ⅲ卢P.卢肼。对每一 个待判教师, 由他的而,而,…,‰值,通过In(_L)=卢。。+卢。xl+…卢。石脚判他为概率最大的等级。f=1,2…k,算出他达到每一等级的概率,19 第七章7.1评估高校教师教学质量确定主要影响因子并建立模型以某高校数理学院的24位任课老师为评估对象建立模型。对高校教师一学期工作情况的评价大致可以分为四个方面:任课总课时数,科研课题完成状况 (或发表论文篇数),是否参与编辑教材和同学对老师的评价。我们分别对两个 班78名同学做了不计名的问卷调查,主要针对教学内容、课堂规范、思路拓展和语言表达这几点让他们给这24位老师打分,除去一些不符合规范的问卷,得到每位老师的平均得分(x5),若在4分以下的用1表示,在4―4.5分的用2表示, 在4.5分以上的用3表示。 接着我们又调查了一下24位老师的其他几项数据,其中年龄(x1)在30-40 岁之间的我们用1表示,在40.50之间的用2表示,在50.60之间的用3表示;一学期任课的总课时数(x2)在100课时以下的用1表示,在100.150之间的用2表示,在150以上的用3表示;一学期在核心杂志上发表的论文数量或完成的 子课题数(x3);参与编辑教材(X4),是用1表示,否用0表示。 在这里我们把对老师的评价分为优秀犁,称职型和有待改进型三个等级。 综合由院系领导评分、评估专家评分和教职工互评这三方面,得到一个比较客 观全面的结果,设为Y,优秀型用3表示,标准型用2表示,有待改进型用l 来表示。另外预留两位(即25,26号)没有评定等级老师的数据,通过模型进 行预测检验。具体数据如表2所示: 表2 综合评测表 年龄Xl。\轷分\内容\1 2 3 4 5 6总课时 课题(论文) 编辑教材X2 X3 X4学生评分 总体评估X5教师\y1 2 2 3 2 l3 3 3 1 2 20 O 1 3 2 1O O O O 1 01 2 l 3 2 2l 1 2 3 2120 7 893 l 212 O 2l3 2 33323 32O13 3 2 2l 110 1l 12 13 14 15 16 17 18 19 20 21 22232 ll3 l 2O0 0 O O O OO O 0 O3 3 323 2 222 l 1 12 1O 1 l 3O3 3 3 2 2 3 3 3 3 3 2 32 3 2 22 32 22 131 I1 3l2 330l22 122 l 2 l1lOO 02l24 25 26OO2120O12在此模型中,应变量Y是分类变量,且是一个有序变量,总共有三个水平。 我们采用Logistic回归模型来做,XI,X2,X3,X4,X5都是自变量。 当Y取3时:In(_里L)=卢3。+卢lxl+p2x2+卢4X4+卢5x5+s3I―p3当Y取2时: In(_兰生一)=卢2。+卢lxl+卢2x2+卢4x4+卢525+s21一p22l 当Y取l时:Pl=lP(】,=3)=P,,P(Y---2)=P:一P,,P(r=1)=l―P:我们用SAS软件编程,用最大似然估计法计算。计算分两大步:(1)是否所有自变量都有意义?(2)估计回归系数卢Ⅲp卜.卢,。(1)采用逐步筛选法选择自变量,结果X3.X5,X4.X2被选入模型,Xl不被 选入,这是符合实际的:年龄不影响对教师的评价。 (2)计算结果是:卢20=-15.4076,卢2=2.1827,卢3=3.2152,卢4=6.2465, 卢5=4.41 16,卢30=一25.2321。 由此可得回归方程如下:In(粤)一25.2321+2.1827x2+3.2152x3+6.2465x4“4116x5111(})=一15.4076+2.1827x2+3.2152x3+6.2465x4+4.41l一仍16x5将24位教师的原始资料回代上述两个回归方程,有18位教师判别正确,4 位教师接近正确,若我们设定一个阀值为0.1,如果某个等级概率值比其它概率 大0.1(相差超过阀值0.1),那么我们取概率最大的那一个等级;如果某两个 等级概率值比其它概率大,但两者相差不超过阀值O。1,那么我们取得分较高的 那个等级。这样我们得到的预测结果有21位教师预测正确,正确率达到了87.5%。最后我们来看一下对两位未评分老师的预测情况:由输出表格: 表3The SAS System0bs 41 42 43 44 45 46 47 48 4950 51xl1x2x31 1 1x4 11x5 2 2 2 21Y―.LEVEL_ 3 3 22yhat3 3 3 3 3 3 3 32 23 2 320.40153 0.99992 0.001 30 0.96003 0。00002 0.22570 0.00005 0.49091 0.00000 0.001 320.001 301 2 2 2 2 110 0 0 0 0 0 0 0 0 01 111 1 2 2.321 220 0 0 01 1322 21 1113 2 3 2.3 32 2.52.0.96003可见第一位教师P3=P(y≥3)=O,P2=P(y≥2)=O.00132,从而 e(y=2)=0.00132―0=0.00132,P(y=1)=1-0.00132=O.99868,判该教师为等级 1。第二位教师P3=P(y≥3)=0.00130,P2=P(y≥2)^0.96003,从而 P(y=2)=0.96003-0.00130=0.95873,P(y=1)=1-0.96003=O.03997,判该教师 为等级2。 7.2预测结果及分析第一位中年教师带课不多,没有课题或论文发表,也没有参加教材编辑,学生打分较低,,各项都差,他属于需要改进型(Y=1)是自然的。第二位年轻教 师带课较多,发表了一篇论文,没有参加教材编辑,学生评分中等,他属于称 职型(y=2)也是合理的。可见,模型很符合实际情况。 本部分运用LOGISTIC回归模型评估高校教师的教学质量,得出了比较科 学客观的评估结果。此模型也可用于各单位科技人员考察、干部评估等等,有 较广泛的实用性。 第八章本文总结与讨论8.1研究内容总结(1)我国地域广大,水旱灾害频发,这是中国的基本国情。洪水灾害不仅对国家造成巨大的经济损失,也给人民生命财产安全带来严重威胁。本文根据 大量的观测数据,运用影响分析和聚类分析先对数据进行分类,再采取多元回 归的方法对进入水库的流量进行预报,可以大幅度提高五强溪水库流量的预报 效果,为我国沅水流域的防灾减灾事业提供重要的科学依据。同时,此方法也 可广泛应用于工农业投资、电信、医药和经济决策,以及城乡雨量预报等等。 (2)现阶段对高校教育质量的要求越来越高,而如何对师资水平、教学质 量等各方面进行科学合理的评估也愈发重要。本文应用Logistic回归分析的方 法,把科学的考察和专家的意见综合起来,尽量避免主观因素的影响,从而得 到较为客观公正的评判结果。 8.2本文特色创新(1)在之前的许多研究与应用中,大都是单纯的使用一种方法来进行考虑和分析,在本文中充分的结合聚类分析、影响分析及多元回归分析的特点,建 立了相应的模型,为作出科学有效的预报夯实了基础,并运用在解决预报水库 流量的实际问题中,得到了很好的效果。 面对大量的观测数据,应用SAS软件编程实现聚类分析、影响分析中繁杂 的计算,保证了分类结果的稳定性,在对不同分类情况分别编程建立多元回归 模型,提高了预报的准确率与科学性。 (2)一般的评估方法其构成带有很大的主观成分,无标准的判别方法。本 文提出的Logistic回归分析的方法则可以避免主观性,把科学的考察和专家的 意见综合起来,从而得到较为客观公正的评判结果。 8.3研究展望本文第一部分研究了影响分析、聚类分析及多元回归分析的应用,在第二部分中研究了Logistic回归分析的应用,但这只是一个初步的应用,还有以下 几个方面的问题需要进一步的研究和探讨:(1)如何准确运用影响分析来找出所有的异常点,跟其他方法之间的横向比较?分析对模型产生的影响,并用程序进行检验。 (2)进一步研究聚类分析的理论,能否借助SAS软件做检验分析?并对 不同的聚类方法进行比较研究,是否存在一种可广泛应用的标准的聚类方法? (3)多元回归分析在自然科学,社会科学和应用技术中都有重要应用,回 归分析不只是建立预报公式,还要对预报误差的大小,预报公式的合理性等问 题讨论,这些都是重要的科研问题,具有重要科研和经济价值。 (4)线性回归分析与非线性回归分析之间的比较,以及在实践中的应用 范围等等。 致谢本文是在导师李刚教授和吴诚鸥教授的精心指导和严格要求之下完成的。 在研究生三年的学习和研究中,他们严谨的研究作风、丰富渊博的学识水平、 一丝不苟的治学精神和循循善诱的教导方式使我在科研工作和论文写作中大受 裨益;他们乐观的人生态度、高尚的人格魅力和平易近人的态度使我受益终身。 值此论文完成之际,我特别地向这两位导师表示衷心的敬意和无限的感激! 在论文的完成过程中,同门任康、王会、胡丹妮,同学王颖、曹舒娅在程 序、绘图和论文写作方面给与了热情的指导和帮助,在此谨向他们表示诚挚的 谢意。 此外,感谢数理学院的夏大峰教授、门可佩教授、吕红老师、来鹏老师、 翟国红老师、陈艳老师、李纯成老师和已退休的张翠英老师以及校研究生部的 邱新法教授、葛苏放老师、马革兰老师、何亚群老师、岳爱武老师和龚敬瑜老 师在学习和生活中给我的关怀与照顾。研究生这三年的学习和生活中还得到了 团委金自康书记等多位老师以及校研会同学和班上各位同学的关心和帮助,在 此谨向他们表示真诚的感谢。 最后,还要感谢我的父母和亲人朋友,他们的关爱点点滴滴都在心头,给 了我莫大的精神鼓励,也是我前进的动力。有了他们的支持、关心和鼓励,使 我能安心地进行论文写作,顺利完成学业。26 参考文献 [1]汪国平,陈文平.五强溪建库后对沅水下游的防洪影响及治理对策[J].湖 南水利水电,2000,(2).[2]Goldsmith,R.FinancialUniversity Press,t969. Structure andDevelopment[M].NewHaven:Yale[3]冯颖洲,曲炳洋.从统计的视角看金融中心的选择【J】.北京统计,2004,(3):4―5.[4]田霖.科技力与区域金融综合竞争力的模糊曲线分析川.重庆大学学报(社会科学版),2005,(4):44-48 [5]冯碉,王如渊.对我国区域金融发展的聚类分析.统计与决策(理论版), 2007,(1). [6]李敏,何理.聚类分析在证券投资基本分析中的应用.辽宁师范大学学报 (自然科学版),2006(6):第29卷第2期 [7]李福平,姜亚玲,姜成志.聚类分析方法在统计分组中的应用.税务与经济 [J],1993,(01). [8]CookR D,Weisberg S.Residual and Influence in Regression.New York:Chapman and Hal l,1982[9]CookRD.Assessmentof Localinfluence(with discussion).J.R.statist,SOC.(series B),1986,48:133―169 [10]EscobarL A,MeckerW Q.AssessingInfluence in RegressionAnalysis谢thCensord Data.Biometric,1992,48:507―508【ll】WeiBC,LuoGB,ShiJQ,.Introductionof SmtiSticsDiagnostic.Nanjing:Pressof EastSouthUniversity(in chinese)[12]朱仲义,韦博成.半参数非线性模型的统计诊断与影响分析[J].应用数学学 报,2001(10) [13]张春丽,韦博成.单纯性分布非线性模型的局部影响分析及其应用[J].高 校应用数学学报A辑,2006,21(2):148―156 [14]石磊,崔健福,周汝良,王铭. 中的应用[J]. [15]Richard 主因子模型的局部影响分析及其在地址云南大学学报(自然科学版),2004(03)A Johnson,Deanw.Wichem,陆璇译.实用多元统计分析[M].清华大学出版社,2001.27 [163高惠璇.应用多元统计分析[M]北京,北京大学出版社,2005. [17]郑钟光。多元回归分析在矿石体重测定中的应用[J].地质与勘探,1986(8):[183苑玉风.多元回归分析的应用研究[J].汽车科技,1996(4)[19]李金海.多元回归分析在预测中的应用[J].河北工业大学学报,1996,(3): 第15卷 [20]牛桂萍,黄祖英.用多元回归分析作暴雨的长期预报阴.陕西气象,1996(1).[21]林祖享,梁舜华.探讨运用多元回归分析预报赤潮[J].海洋环境科学, 21卷第3期 [22]王震字、孟陆波,滑坡预报的多元回归分析方法[J].中国地质灾害与防治 学报,2003(9) [23]刘昌蓉,何政伟,黄爽兵.多元回归分析在地质灾害危险性评价中的应用一以天山公路G217沿线为例[J]。环保科技,科技,2002(03)2008(01)[24]袁宇,多元回归分析法在突发性事故污染预测中的应用[J].辽宁城乡环境[25]索南仁欠,多元回归分析在水污染评价中的应用[J].青海师范大学学报 (自然科学版),2000(4) [26]朱道元,吴诚鸥,秦伟良.多元统计分析与软件SAS[M3.南京:东南大学 出版社,1999. [27]吴诚鸥,秦伟良等.近代实用多元统计分析[M].北京:气象出版社,2007 年8月第一版 [28]薛富波,张文彤,田晓燕.SAS 8.2统计应用教程[M].北京:兵器工业出 版社,2004. [29]岳朝龙,黄永兴,严忠.SAS系统与经济统计分析[M].合肥:中国科技大 学出版社,2003. [30]包风达、翁心真.多元回归分析的软件求解和案例分析[J].数理统计与管 理,2000,(9):20―5 [31]张尧庭、方开泰.多元统计分析引论[M].科学出版社,1982. [32]李金海.多元回归分析在预测中的应用[J].河北工业大学学报,1996,(3). [33]顾岚、安鸿志.自回归模型的精细结构与统计分析[J].应用数学学报, 1985,(10).[34]熊金泉,郑萍,刘翌,古和今.江西省修河流域洪水预报系统[J].江西科 学,2004,(4). [35]刘景泰,张克仁,郑颖.概率论与数理统计[M].上海,上海科学技术出版社,1991.[36]吴兆奇,关蓬莱,吴晓明.统计与决策[J].2007(3):21―22 [37]XUof X,FRANK E.Logistic regression and boosting for labeled bags in Computer Science,2004,3 056:272-281.instances[J].Lecture Notes[38]王全众.统计研究[J].2007(2),第24卷第2期 [39]邹志红,云逸,王惠文,孙靖南.数学的实践与认识[J].2008(1)[40]陈广,陈景武.医学数学模型探讨[J].2007(3),20 多元回归分析与Logistic回归分析的应用研究作者: 学位授予单位: 孙振宇 南京信息工程大学本文链接:http://d..cn/Thesis_Y1257528.aspx
更多搜索:
All rights reserved Powered by
文档资料库内容来自网络,如有侵犯请联系客服。

我要回帖

更多关于 多元回归分析t检验 的文章

 

随机推荐