大2统计学基础 麻烦求过程

第二节 统计学基础的研究对象和研究方法

一、社会经济统计学基础的研究对象

统计学基础的研究对象是指统计研究所要认识的客体只有明确了研究对象,才可能根据它嘚性质特点指出相应的研究方法达到认识对象客体规律性的目的。由统计学基础的发展史可知统计学基础是从研究社会经济现象的数量开始的,随着统计方法的不断完善统计学基础得以不断发展。因此统计学基础的研究对象为大量现象的数量方面。而社会经济统计學基础的研究对象是在质和量的辩证统一过程中研究大量社会经济现象总体的数量方面。

所谓数量方面是指现象总体的数量特征、数量關系及数量界限通过对这些数量方面的研究,表明所研究现象的规模、水平、速度、比例和效益等以反映社会经济现象发展变化的规律性,反映现象的本质统计学基础和统计工作是理论和实践的关系,它们所要认识的研究对象是一致的

社会经济现象包括自然现象以外的社会的政治、经济、文化、人民生活等领域的各种现象。比如国民财富与资产、人口与劳动力资源、生产与消费、财政与金融、教育与科技发展状况、城乡人民物质文化生活水平等。通过对这些基本的社会经济现象的数量方面的认识达到对整个社会的基本认识。

社會经济统计学基础虽然不研究自然现象与科学技术本身但是社会、经济和自然、技术总是密切联系,相互影响的社会经济统计学基础吔研究自然技术因素对社会生活变化的影响,研究社会生产发展对社会生活自然条件的影响例如,研究资源条件和技术条件的变化对于社会生产生活的影响程度研究社会生产的发展引起自然条件的变化等等。

下面举例说明如何根据统计数据说明社会经济现象的数量特征、数量关系及数量界限

[例1] 我国历次人口普查的总人口情况。

表1-1描述的统计数据反映了不同时间我国总人口的规模,显示了我国人口基數过大、人口增长速度过快的基本国情所以控制人口增长、提高人口素质,就成了我国20世纪70年代以来的一项基本国策

2002年,我国接待人境旅游者达到9791万人次比上年增长10%。旅游业总收人5566亿元人民币比上年增长11.4%,其中国际旅游收人1688亿元人民币增长14.6%,国内旅游收人3878亿元人囻币增长10.1%。2003年我国旅游业虽然受到非典疫情的严重影响,但全年人境旅游者仍达到9166万人次这些统计数据具体地描述了我国旅游业的發展势头,说明我国旅游业作为国民经济新的增长点正在进人全面加速发展期,发展势头非常强劲

2003年,全年全国城镇居民人均可支配收入8472元扣除物价上涨因素,实际增长9.0%;农村居民人均纯收入2622元实际增长4.3%。居民家庭恩格尔系数(即居民家庭食品消费支出占家庭消费总支絀的比重)城市为37.1%,比上年降低0.6个百分点;农村为45.6%降低0.6个百分点。年末全国私人轿车拥有量已达489万辆比上年末增加146万辆。这些统计数据充分说明我国居民生活继续改善和提高

从以上例子中可以看到,利用各种统计数据说明社会经济现象的发展状况发扬成绩,揭露矛盾预测未来,不仅生动形象而且具有较强的说服力。所以在我们国家各行各业都离不开统计。要用好统计便要学习统计。

请思考:降雨量是否属于社会经济现象?降雨量与农作物的产量有关风调雨顺的时候,农作物的产量是否一定就高?为什么?农作物的产量受降雨童的影响又是否属于社会经济现象呢?

二、社会经济统计学基础的研究特点

社会经济统计学基础研究社会经济现象的数量方面时,具有自己独竝的思维形式和研究特点表现如下:

社会经济统计学基础基本的研究特点就是以数字为语言,用数字说话具体地说,是用规模、水平、速度、结构和比例关系等去描述和分析社会经济现象的数量表现、数量关系和数量变化,揭示事物的本质反映事物发展的规律,推測事物发展的前景

但应注意,统计学基础研究现象的数量方面不同于数学上研究的纯数量,它不是抽象的数量它是以现象质的规定性为基础的,是带有一定具体内容的数量因为任何事物都是质和量的辨证统一,没有质也就没有量

例如:要了解哈尔滨市重工业产值,首先要明确什么是重工业所谓重工业是为国民经济各部门提供技术装备、动力和原材料的工业,包括采掘工业、原材料工业和制造工業然后要确定重工业产值的含义和统计口径以及哈尔滨市哪些企业属于重工业企业,这些都是质的规定在此基础上,还要解决怎样搜集、整理和汇总重工业产值资料后才能得到哈尔滨市重工业产值的具体数值。

总体性又称大量性或综合性统计研究的着眼点是大量社會经济现象总体,而不是少量或个别现象它是通过对个别事物大量观察,占有丰富材料加以分析综合,来反映现象总体的数量特征揭示现象的本质和规律性。例如2004年全年居民消费价格总水平比上年上涨3.9%,这个数量反映的是550多种消费商品及服务项目价格总的平均上涨沝平而不是指哪一种具体消费商品或服务项目的价格上涨水平。而要对这550多种消费商品及服务项目的价格上涨情况进行调查就必须先對每一种个别消费商品及服务项目的价格情况进行调查,然后进行汇总综合从而达到对550多种消费商品及服务项目价格的总体认识。

统计研究并不排除从个别现象入手但统计研究个体是为了综合个体而认识总体,是手段而不是目的其终目的是要认识总体。例如2000年11月1日進行的第五次全国人口普查,逐一登记了全国大陆31个省、自治区、直辖市(不包括香港特别行政区、澳门特别行政区、台湾省)的每个人的性別、年龄等特征但人口普查的目的并不是要了解关于某个人的特征,而是为了通过对全国人口情况进行汇总计算得出关于我国人口总體的特征资料,从而达到对全国人口现象总体的认识汇总后结果显示, 祖国大陆31个省、自治区、直辖市(不包括福建省的金门、马祖等岛嶼下同)和现役军人的人口共126583万人。同第四次全国人口普查1990年7月1日0时的113368万人相比十年零四个月共增加了13215万人,增长11.66%平均每年增加1279万人,年平均增长率为1.07%同1990年第四次全国人口普查相比,0-14岁人口的比重下降了4.80个百分点65岁及以上人口的比重上升了1.39 个百分点。从总体着眼從个体入手,体现了统计工作中总体和个体之间的辨证关系

社会经济统计学基础通过研究大量社会经济现象总体的数量方面,来认识人類社会活动的条件、过程和结果反映物质资料的占有关系、分配关系、交换关系以及其他的社会关系。其定量研究是以定性分析为前提嘚而定性使其在客观上就有了社会关系的内涵。社会经济现象与自然科学技术问题是不同的对于同一社会经济现象,站在不同的立场持有不同的观点,运用不同的方法可以得出差别较大的结论。这些都体现出社会经济统计活动的社会性

又称差异性。统计研究同类現象总体的数量特征它的前提是总体各单位的特征表现存在着差异,而且这些差异并不是由某种固定的原因事先给定的例如一个地区嘚居民人口有多有少,居民的文化程度有高有低住户的生活消费水平有升有降等等,正是各单位之间这种差异的存在才需要研究地区嘚人口总数、居民文化结构、住户平均生活消费水平等统计指标。如果各单位不存在这些差异也就无需进行统计,如果各单位之间的差異是按已知条件事先可以推定的也就无需进行统计调查研究。

统计研究的总体数量是一个有具体时间、具体地点、具体条件限定的数量如利润额800万元,在团结看来它只是一个毫无意义的抽象数量。如果说2004年12月某企业利润额800万元这就是统计中所说的具体数量了。可见具体性就是指在时间、地点、条件三方面有着明确的规定性

统计工作虽然是研究具体的数量,但为了进行复杂的定量分析还需要借助抽象的数学模型和数理统计方法,遵循一定的数学规则以抽象方法为手段,以具体数量为目的体现了统计研究中具体和抽象的辨证关系。

请思考:统计研究的总体性排斥对个别典型事物的深入研究吗?

统计数据与数学中的数字有什么区别?

统计学基础作为一门方法论科学具有自己完善的方法体系。统计研究的具体方法有很多这将在后续课程中学习,而从大的方面看其基本研究方法有:

这是统计活动过程中搜集数据资料阶段(即统计调查阶段)的基本方法:即要对所研究现象总体中的足够多数的个体进行观察和研究,以期认识具有规律性的總体数量特征大量观察法的数理依据是大数定律,大数定律是指虽然每个个体受偶然因素的影响作用不同而在数量上几存有差异但对總体而言可以相互抵消而呈现出稳定的规律性,因此只有对足够多数的个体进行观察观察值的综合结果才会趋向稳定,建立在大量观察法基础上的数据资料才会给出一般的结论统计学基础的各种调查方法都属于大量观察法。

由于所研究现象本身的复杂性、差异性及多层佽性需要我们对所研究现象进行分组或分类研究,以期在同质的基础上探求不同组或类之间的差异性统计分组在整个统计活动过程中嘟占有重要地位,在统计调查阶段可通过统计分组法来搜集不同类的资料并可使抽样调查的样本代表性得以提高(即分层抽样方式);在统计整理阶段可以通过统计分组法使各种数据资料得到分门别类的加工处理和储存,并为编制分布数列提供基础;在统计分析阶段则可以通过统計分组法来划分现象类型、研究总体内在结构、比较不同类或组之间的差异(显著性检验)和分析不同变量之间的相关关系统计学基础中的統计分组法有传统分组法、判别分析法和聚类分析法等。

统计研究现象的数量方面的特征是通过统计综合指标来反映的所谓综合指标,昰指用来从总体上反映所研究现象数量特征和数量关系的范畴及其数值常见的有总量指标、相对指标,平均指标和标志变异指标等综匼指标法在统计学基础、尤其是社会经济统计学基础中占有十分重要的地位,是描述统计学基础的核心内容如何真实客观地记录、描述囷反映所研究现象的数量特征和数量关系,是统计指标理论研究的一大课题

在以统计指标来反映所研究现象的数量特征的同时,我们还經常需要对相关现象之间的数量变动关系进行定量研究以了解某一(些)现象数量变动与另一(些)现象数量变动之间的关系及变动的影响程度。在研究这种数量变动关系时需要根据具体的研究对象和一定的假定条件,用合适的数学方程来进行模拟这种方法就叫做统计模型法。

在统计认识活动中我们所观察的往往只是所研究现象总体中的一部分单位,掌握的只是具有随机性的样本观察数据而认识总体数量特征是统计研究的目的,这就需要我们根据概率论和样本分布理论运用参数估计或假设检验的方法,由样本观测数据来推断总体数量特征这种由样本来推断总体的方法就叫统计推断法。统计推断法已在统计研究的许多领域得到应用除了常见的总体指标推断外,统计模型参数的估计和检验、统计预测中原时间序列的估计和检验等也都属于统计推断的范畴,都存在着误差和置信度的问题在实践中这是┅种有效又经济的方法,其应用范围很广泛发展很快,统计推断法已成为现代统计学基础的基本方法

上述各种方法之间是相互联系、互相配合的,共同组成了统计学基础方法体系

请思考:这些方法中你以前运用过哪几种呢?

四、统计的职能与工作任务

统计是在质的规定嘚前提下,对客观事物进行量的研究它既可以观察量的活动范围,又可以研究质的数量界限还可以观察现象之间相互影响的数量关系。因此统计具有信息、咨询、监督三大职能。

统计信息职能是指统计具有信息服务的功能也就是统计通过系统地搜集、整理和分析,嘚到统计资料在统计资料的基础上再经过反复提炼筛选,提供大量有价值的、以数量描述为基本特征的统计信息为社会服务。

统计咨詢职能是指统计具有提供咨询建议和对策方案的服务功能也就是指统计部门利用所掌握的大量的统计信息资源,经过进一步的分析、综匼、判断为宏观和微观决策,为科学管理提供咨询建议和对策方案统计咨询分为有偿咨询和无偿咨询两种。统计咨询应更多地走向市場

统计监督职能是指统计具有揭示社会经济运行中的偏差,促使社会经济运行不偏离正常轨道的功能也就是统计部门以定量检查、经濟监测、预警指标体系等为手段,揭示社会经济决策及其执行过程中的偏差使社会经济决策及其执行过程按客观规律的要求进行。

统计信息职能是统计基本的职能是统计咨询和统计监督职能能够发挥作用的保证,反过来统计咨询和统计监督职能的强化又会促进统计信息職能的强化统计的三种功能相辅相成,相互作用构成了一个有机整体,故又称为整体功能

请思考:试从统计职能的角度说明统计的現实意义。

(二)、统计工作的任务

统计的职能决定了统计工作的任务《中华人民共和国统计法》章第二条规定:“统计的基本任务是对国囻经济和社会发展情况进行统计调查,统计分析提供统计资料和统计咨询,实行统计监督”与其相适应的具体任务是:调查、整理社會经济活动的各种数字资料;在此基础上,对社会经济活动过程极其结果进行主观与客观、横向与纵向、静态与报考的综合分析提供信息產品;判断社会经济活动的运行状态,提出相应的咨询意见监督社会经济活动的运行过程,为国民经济宏观调控、企业经营管理和科学研究提供客观依据为了完成上述任务,统计工作必须做到“准确、公正、及时、方便”这是衡量统计工作质量的重要标准。

统计工作是對社会经济现象进行调查研究以认识其本质和规律性的一种工作作为人类认识客观世界的一种活动,统计工作是无止境的但就一次具體的统计活动而言,一个完整的统计工作过程一般要经过统计设计、统计调查、统计整理和统计分析四个阶段才能完成由定性认识到定量认识再到定性认识与定量认识相结合这一完整过程,从而使人类的认识得到升华

统计设计是对统计活动各个方面和各个环节所作的通盤考虑和合理安排。如确定调查对象、设计指标体系、编制分类目录、制订调查、整理和分析方案等优良的统计设计是科学、有效地组織统计活动的前提。

统计调查就是根据一定的目的通过科学的调查方法,搜集社会经济现象的实际资料的活动从统计工作的全过程来看,统计调查是搜集资料获得感性认识的阶段它既是认识客观经济现象的起点,也是统计整理和统计分析的基础环节

统计整理是对调查来的大量统计资料加工整理、汇总、列表的过程。通过统计调查取得的原始资料只能反映总体各单位的具体情况是分散的、零碎的、表面的,而且精粗并存真伪混杂,不能说明事物的全貌要说明总体情况,揭示出总体的特征还需要对这些资料进行去粗取精、去伪存真、由此及彼、由表及里的加工整理,以便对总体做出概括性的说明统计整理处于统计工作过程的中间环节,起着承前启后的作用

統计分析是将加工整理好的统计资料加以分析研究,采用各种分析方法计算各种分析指标,来揭示社会经济过程的本质及其发展变化的規律性通过统计分析阶段,对事物由感性认识上升到理性认识

统计工作过程的四个阶段并不是孤立、截然分开的,它们是紧密联系的┅个整体其中各个环节常常是交叉进行的。例如小规模的调查,常把调查和整理结合起来;在统计调查过程中就有对事物的初步分析;在整理和分析过程中仍须进一步调查

统计学基础原理计算题1.某单位40洺职工业务考核成绩分别为单位规定60分以下为不及格,60─70分为及格,70─80分为中,80─90分为良,90─100分为优要求1将参加考试的职工按考核成绩分为不及格、及格、中、良、优五组并编制一张考核成绩次数分配表;(2)指出分组标志及类型及采用的分组方法;(3)分析本单位职工业务考核凊况。解(1)(2)分组标志为“成绩“,其类型为“数量标志“;分组方法为变量分组中的开放组距式分组,组限表示方法是重叠组限;3本单位的职工考核成绩的分布呈两头小,中间大的“正态分布“的形态说明大多数职工对业务知识的掌握达到了该单位的要求。2.2004年某月份甲、乙两农贸市场农产品价格和成交量、成交额资料如下品种价格(元/斤)甲市场成交额(万元)乙市场成交量(万斤)甲乙丙211合计554成绩职笁人数频率60分以下合计40100试问哪一个市场农产品的平均价格较高并说明原因解甲市场乙市场成交额成交量成交量成交额品种价格(元)XMM/XFXF甲乙丙合计554453解先分别计算两个市场的平均价格如下甲市场平均价格(元/斤)??37514/???XMX乙市场平均价格(元/斤)2F说明两个市场销售单价是相哃的,销售总量也是相同的影响到两个市场平均价格高低不同的原因就在于各种价格的农产品在两个市场的成交量不同。3.某车间有甲、乙两个生产组甲组平均每个工人的日产量为36件,标准差为96件;乙组工人日产量资料如下日产量(件)工人数(人)3413要求⑴计算乙组平均每个工人的日产量和标准差;⑵比较甲、乙两生产小组哪个组的日产量更有代表性解(1)(件)25???????FXX(件)9862????FXX?(2)利用标准差系数进行判断2703V甲5986?X?乙因为故甲组工人的平均日产量更有代表性4.某工厂有1500个工人,用简单随机重复抽样的方法抽出50个工人莋为样本调查其月平均产量水平,资料如下日产量(件)工人数(人)要求(1)计算样本平均数和抽样平均误差(重复与不重复)(2)鉯9545的可靠性估计该厂工人的月平均产量和总产量的区间解(1)样本平均数50??FXX样本标准差132??F?重复抽样5940?NX?不重复抽样103122???NX?(2)抽样极限误差2459918件XT??总体月平均产量的区间下限△件X上限△件?X总体总产量的区间(230件;569。件)5.采用简单随机重复抽样的方法在2000件产品中抽查200件,其中合格品190件要求(1)计算合格品率及其抽样平均误差(2)以9545的概率保证程度(T2)对合格品率和合格品数量进行区间估计(3)如果极限误差为231,则其概率保证程度是多少解1样本合格率PN1/N190/20095抽样平均误差154NPP1???2抽样极限误差ΔPTΜP2154308下限△PX上限△P?则总体合格品率區间()总体合格品数量区间(件件)3当极限误差为231时则概率保证程度为8664TΔ/Μ6.某企业上半年产品产量与单位成本资料如下月份产量(千件)单位成本(元)要求(1)计算相关系数,说明两个变量相关的密切程度。(2)配合回归方程,指出产量每增加1000件时,单位成夲平均变动多少(3)假定产量为6000件时单位成本为多少元解计算相关系数时,两个变量都是随机变量不须区分自变量和因变量。考虑箌要配和合回归方程所以这里设产量为自变量(X),单位成本为因变量(Y)月份N产量(千件)X单位成本(元)Y2XYXY340合计1481(1)计算相关系数????????2222YNXNY?4??说明产量和单位成本之间存在高度负相关0???(2)配合回归方程Y=A+BX182?22XNYB7737YA??回归方程为Y=7737-182X产量每增加1000件时,单位成本平均减少182元(3)当产量为6000件时即X=6,代入回归方程Y=7737-1826=6645(元)7.根据企业产品销售额万元和销售利润率资料计算出如下数据N8?XY?XY?X要求1确定以利润率为因变量嘚直线回归方程2解释式中回归系数的经济含义3当销售额为500万元时,利润率为多少解(1)配合直线回归方程Y=A+BXB00365????22XNY??A541??BYY则囙归直线方程为YCX(2)回归系数B的经济意义当销售额每增加一万元销售利润率增加00365(3)计算预测值当X500万元时YC0?8.某商店两种商品的销售资料如下销售量单价(元)商品单位基期计算期基期计算期甲乙件公斤21014要求(1)计算两种商品销售额指数及销售额变动的绝对额;(2)计算兩种商品销售量总指数及由于销售量变动影响销售额的绝对额;(3)计算两种商品销售价格总指数及由于价格变动影响销售额的绝对额。解(1)商品销售额指数0?????QP1销售额变动的绝对额元??????????(2)两种商品销售量总指数??QP1销售量变动影响销售额的絕对额元?????????(3)商品销售价格总指数????????????QP1价格变动影响销售额的绝对额元???????9.某商店两种商品的销售额和销售价格的变化情况如下销售额(万元)商品单位1995年1996年1996年比1995年销售价格提高()甲乙米件12要求1计算两种商品销售价格总指数和由于价格变动对销售额的影响绝对额2计算销售量总指数,计算由于销售量变动,消费者增加(减少)的支出金额解(1)商品銷售价格总指数????QPK由于价格变动对销售额的影响绝对额万元676??11QP(2)计算销售量总指数商品销售价格总指数?10101QPPQK而从资料和前面的计算中得知6?32510所以商品销售量总指数,93150?QP由于销售量变动消费者增加减少的支出金额?1QP???QP10.已知两种商品的销售资料如表销售额(万え)品名单位2001年2002年2002年比2001年销售量增长()电视自行车台辆4200237合计要求(1)计算销售量总指数;2)计算由于销售量变动,消费者增加(减少)嘚支出金额3计算两种商品销售价格总指数和由于价格变动对销售额的影响绝对额。解1销售量总指数???0QP?????????????2甴于销售量变动消费者多支付金额万元???(3)计算两种商品销售价格总指数和由于价格变动对销售额的影响绝对额参见上题的思路。通过质量指标综合指数与调和平均数指数公式之间的关系来得到所需数据11.某地区1984年平均人口数为150万人,1995年人口变动情况如下月份1369次姩1月月初人数184计算(1)1995年平均人口数(2)年该地区人口的平均增长速度解(1)1995年平均人口数??????FFAAFANN112312?18138万人(2)年该地区人口的平均增长速度???NAX12.某地区年粮食产量资料如下年份1995年1996年1997年1998年1999年粮食产量(万斤)618要求(1)计算各年的逐期增长量、累积增长量、环比发展速度、定基发展速度;(2)计算1995年1999年该地区粮食产量的年平均增长量和粮食产量的年平均发展速度;(3)如果从1999年以后该地区的粮食产量按8的增长速度发展2005年该地区的粮食产量将达到什么水平解(1)年份1995年1996年1997年1998年1999年粮食产量(万斤)环比发展速度定基发展速度逐期增长量累积增长量.76108..32118..18134.5.82142.4034184平均增长量(万斤)461580??NA(万斤)463843??逐期增长量个数逐期增长量之和平均增长量(2)平均发展速度(3)??NAX98069(万斤)601?NA13、甲生产车间30名工人日加工零件数(件)如下要求(1)根据以上资料分成如下几组25-30,30-3535-40,40-4545-50计算出各组的频数和頻率,整理编制次数分布表(2)根据整理表计算工人生产该零件的平均日产量和标准差。解(1)次数分配表如下按加工零件数分人数(囚)比率().6713.33合计30100(2)??FX()/303817(件)???F2?588(件)14.2004年某月份甲、乙两农贸市场农产品价格和成交量、成交额资料如下品种价格(元/斤)甲市场成交额(万元)乙市场成交量(万斤)甲乙丙211合计554试问哪一个市场农产品的平均价格较高并说明原因解甲市场的平均价格??XM55/41375(元/斤)乙市场的平均价格F53/41325(元/斤)原因甲市场价格高的成交量大,影响了平均价格偏高这是权数在这里起到权衡轻重的作用。15.某车间有甲、乙两个生产组甲组平均每个工人的日产量为36件,标准差为96件;乙组工人日产量资料如下日产量(件)工人数(人)要求⑴计算乙组平均每个工人的日产量和标准差;⑵比较甲、乙两生产小组哪个组的日产量更有代表性解乙小组的平均日产量??FX(件/人)乙尛组的标准差???F2?898(件/人)乙小组XV?913/2873046甲小组XV??96/362667所以标准差系数较小的甲小组工人的平均日产量更具有代表性16.某工厂有1500个工人,鼡简单随机抽样的方法抽出50个工人作为样本调查其月平均产量水平,资料如下日产量(件)工人数(人)要求(1)计算样本平均数和抽樣平均误差(重复和不重复)(2)以9545的可靠性估计该厂工人的月平均产量和总产量的区间解(1)平均日产量??FX560(件/人)标准差?????FX2?3245(件/人)重复抽样抽样误差NX??459件/人不重复抽样抽样误差????????NX12451件/人(2)极限误差XT??、T2;估计范围??XXXX???????,该厂月平均产量区间范围分别为和该厂总产量范围分别为770和53017.采用简单随机重复抽样的方法,在2000件产品中抽查200件其中合格品190件要求(1)计算合格品率95及其抽样平均误差。(2)以9545的概率保证程度(T2)对合格品率和合格品数量进行区间估计解(1)P95,??NPP??1?154(2)PT?、T2;??PPPP?????,合格品率范围合格品数量范围.某企业上半年产品产量与单位成本资料如下月份产量(千件)单位成本(元)要求(1)计算相关系数,说明两个变量相关的密切程度(2)配合回归方程,指出产量每增加1000件时单位成本平均变动多少(3)假定产量为6000件时,单位成本为多少元解(1)设产量为自变量X单位成本为因变量Y,产量(千件)X单位成本(元)Y2XYXY合计1481所需合计数如下?XY?2Y??????2222???NNY?-0909为高度负相关。(2)①建立直线回归方程令YABX;②所以22,?XYBXYAB-182A7736元;③回归方程为Y7736-182X当产量每增加1000件时单位成本平均减少182元。(3)预测产量为6000件时单位成本Y7736-元19.某企业生产两种产品的资料如下产量单位成本(元)产品单位基期计算期基期计算期甲乙件公斤21014要求(1)计算两种产品总成本指数及总成本变动的绝对额;(2)计算两种产品产量总指数及由于产量变动影响总成本的绝对额;(3)计算两种產品单位成本总指数及由于单位成本影响总成本的绝对额解(1)总成本指数??01QPK12909,?01QP6402产量总指数01Q10909,010200(3)单位成本总指数?10QPK11833?101QP44020、某企业生產三种产品的有关资料如下总生产费用(万元)报告期比基期产量增长()产品名称基期报告期甲乙丙15125试计算三种产品的产量总指数及由於产量变动而增加的总生产费用。解产量总指数??0QPKKQ2,由于产量变动而增加的总生产费用?0QP154(万元)21、某工业企业资料如下指标六月七月八朤九月工业总产值万元月末工人数人试计算1第三季度月平均劳动生产率2第三季度平均劳动生产率解(1)三季度月平均劳动生产率550/(万元/囚)(2)三季度平均劳动生产率(万元/人)22、某百货公司各月商品销售额及月末库存资料如下3月4月5月6月销售额库存额计算第二季度平均每朤商品流转次数和第二季度商品流转次数。解(1)二季度月平均商品流转次数836/181462(次)(2)二季度平均商品流转次数(次)23.某地区1984年平均囚口数为150万人1995年人口变动情况如下月份1369次年1月月初人数184计算(1)1995年平均人口数(2)年该地区人口的平均增长速度解(1)?????NNNFFFAAFA??18121(万人)(2)50/80?NAX17324.某地区历年粮食产量资料如下年份1995年1996年1997年1998年1999年粮食产量(万斤)700N2B2BAAC10????N2B2BAAC10????要求(1)计算各年的逐期增长量、累積增长量、环比发展速度、定基发展速度;(2)计算1995年1999年该地区粮食产量的年平均增长量和粮食产量的年平均发展速度;(3)如果从1999年以後该地区的粮食产量按8的增长速度发展,2005年该地区的粮食产量将达到什么水平解(1)年份粮食产量0增长量逐期累积环比3615556发展速度(%)定基023333(2)年平均增长量(700300)/4100(万斤)平均发展速度4037?NA12359(3)602581??XA111081(万斤)25.根据所给资料分组并计算出各组的频数和频率编制次数分布表;根据整理表计算算术平均数。如某生产车间40名工人日加工零件数(件)如下要求(1)根据以上资料分成如下几组25303035,35404045,4550计算各组的频數和频率,编制次数分布表(2)根据整理表计算工人的平均日产零件数。解(1)将原始资料由低到高排列编制变量数列按日产量分组(件)工人数(人)各组工人所占比重()50150合计401000(2)平均日产量375(件/人)工人人数总产量FX?8275?????26.根据资料计算算术平均数指标、计算变异指标比较平均指标的代表性如某车间有甲、乙两个生产组,甲组平均每个工人的日产量为36件标准差为96件;乙组工人日产量资料洳下日产量(件)工人数(人)3413要求(1)计算乙组平均每个工人的日产量和标准差;(2)比较甲、乙两生产小组哪个组的平均日产量更有玳表性解(1)(件)25???????FXX(件)96?F?(2)利用标准差系数进行判断2703?XV甲598乙因为故甲组工人的平均日产量更有代表性。27.采用简單重复抽样的方法计算平均数(成数)的抽样平均误差;根据要求进行平均数(成数)的区间估计如第一种例题某工厂有1500个工人,用简單随机重复抽样的方法抽出50个工人作为样本调查其月平均产量水平,资料如下日产量(件)工人数(人)要求(1)计算样本平均数和抽樣平均误差(重复与不重复)(2)以9545的可靠性估计该厂工人的月平均产量和总产量的区间。解(1)样本平均日产量560(件)XF?重复抽样(件)594032??NX??不重复抽样451(件)???15012NX(2)以9545的可靠性估计T196抽样极限误差1964599(件)XT???月平均产量的区间下限△5609551(件)?上限△5609569(件)?X鉯9545的可靠性估计总产量的区间(5511500=826500件;5691500=853500件)第二种例题采用简单随机重复抽样的方法在2000件产品中抽查200件,其中合格品190件要求(1)计算合格品率及其抽样平均误差(2)以9545的概率保证程度(T2)对合格品率和合格品数量进行区间估计。(3)如果极限误差为231则其概率保证程喥是多少解(1)样本合格率PN1/N190/20095抽样平均误差154NPP1???(2)抽样极限误差ΔPTΜP2154308下限△PX上限△P?则总体合格品率区间()总体合格品数量区间(件件)(3)当极限误差为231时,则概率保证程度为8664TΔ/Μ28.计算相关系数;建立直线回归方程并指出回归系数的含义;利用建立的方程预測因变量的估计值如某企业今年上半年产品产量与单位成本资料如下月份产量(千件)单位成本(元)要求(1)计算相关系数,说明两個变量相关的密切程度(2)配合回归方程,指出产量每增加1000件时单位成本平均变动多少(3)假定产量为6000件时,单位成本为多少元解计算相关系数时两个变量都是随机变量,不须区分自变量和因变量考虑到要配和合回归方程,所以这里设产量为自变量(X)单位成夲为因变量(Y)月份N产量(千件)X单位成本(元)Y2XYXY340合计1481(1)计算相关系数????????2222YNXNY????794?????说明产量囷单位成本之间存在高度负相关。0?(2)配合回归方程Y=A+BX182?22XNYB7737YA??回归方程为Y=7737-182X产量每增加1000件时单位荿本平均减少182元(3)当产量为6000件时,即X=6代入回归方程Y=7737-1826=6645(元)29.计算总指数、数量指数及质量指数并同时指出变动绝对值、计算平均数指数。如某商店两种商品的销售额和销售价格的变化情况如下销售额(万元)商品单位2004年2005年2005年比2004年销售价格提高()甲乙米件12要求(1)计算两种商品销售价格总指数和由于价格变动对销售额的影响绝对额(2)计算銷售量总指数,计算由于销售量变动,消费者增加(减少)的支出金额解(1)商品销售价格总指数????QPK由于价格变动对销售额的影响絕对额(万元)76??11QP(2)计算销售量总指数商品销售价格总指数?1010QPPQK1而从资料和前面的计算中得知(万元)6?(万元)32510?Q所以商品销售量总指数590P由于销售量变动,消费者增加减少的支出金额=?1QP(万元)????QP30根据资料计算各种发展速度(环比、定基)及平均增长量指标;根据资料利用平均发展速度指标公式计算期末水平如某地区历年粮食产量资料如下年份2001年2002年2003年2004年2005年粮食产量(万斤)618要求(1)计算各年嘚逐期增长量、累积增长量、环比发展速度、定基发展速度;(2)计算2001年2005年该地区粮食产量的年平均增长量和粮食产量的年平均发展速度;(3)如果从2005年以后该地区的粮食产量按8的增长速度发展,2011年该地区的粮食产量将达到什么水平解(1)年份2001年2002年2003年2004年2005年粮食产量(万斤)環比发展速度(%)定基发展速度(%)逐期增长量(万斤)累积增长量(万斤)0平均增长量(万斤)461580??NA(万斤)463843??逐期增长量个数逐期增长量之和平均增长量(2)平均发展速度(3)??NAX98069(万斤)0168??NNA31.某单位40名职工业务考核成绩分别为单位规定60分以下为不及格,60─70分为忣格,70─80分为中,80─90分为良,90─100分为优要求(1)将参加考试的职工按考核成绩分为不及格、及格、中、良、优五组并编制一张考核成绩次数分配表;(2)指出分组标志及类型及采用的分组方法;(3)分析本单位职工业务考核情况。解(1)(2)分组标志为“成绩“,其类型为“数量標志“;分组方法为变量分组中的开放组距式分组,组限表示方法是重叠组限;(3)本单位的职工考核成绩的分布呈两头小,中间大的“正态汾布“的形态说明大多数职工对业务知识的掌握达到了该单位的要求。32某自行车公司下属20个企业2005年甲种车的单位成本分组资料如下甲種车单位成本(元/辆)企业数(个)各组产量占总产量的比重()200-220220-240240-5试计算该公司2005年甲种自行车的平均单位成本。解甲种车单位成本(元/辆)组中值(X)(元/辆)企业数(个)各组产量占总产量的比重()F/∑FXF/∑F(元/辆)200-220220-240240-合计平均单位成本225(元/辆)总产量总成本FX?33某月某企业按工人劳动生产率高低分组的生产班组数和产量资料如下按工人劳动生产率分组(件/人)组中值(X)(件/人)产量M(件)809090鉯上501520试计算该企业工人平均劳动生产率解列计算表如下成绩职工人数频率60分以下00合计401000按工人劳动生产率分组(件/人)组中值(X)(件/人)产量M(件)人数M/X(人)809090以上703016合计工人平均劳动生产率(件/人)632407???XM34.2006年6月份甲、乙两农贸市场农产品价格和成交量、成交额资料如下品种价格(元/斤)甲市场成交额(万元)乙市场成交量(万斤)甲乙丙211合计554试问哪一个市场农产品的平均价格较高并说明原因。解甲市场乙市场成交额成交量成交量成交额品种价格(元)XMM/XFXF甲乙丙合计554453解先分别计算两个市场的平均价格如下甲市场平均价格(元/斤)??3751/???XMX乙市场平均价格(元/斤)24F说明两个市场销售单价是相同的销售总量也是相同的,影响到两个市场平均价格高低不同的原因就在于各种价格的农产品在两个市场的成交量不同价格较低的甲品种,乙市场成交量是甲市场的2倍价格较高的乙品种,甲市场成交量是乙市場的2倍所以甲市场平均价格比乙市场平均价格高。35.从某年级学生中按简单随机抽样方式抽取40名学生对统计学基础原理课的考试成绩進行检查,得知其平均分数为78.75分样本标准差为12.13分,试以95.45的概率保证程度推断全年级学生考试成绩的区间范围如果其它条件不变,将允许误差缩小一半应抽取多少名学生解N=40X=7856Σ=1213T2(1)(分)NX???921403△X=TΜX=2192=384(分)全年级学生考试成绩的区间范围是X△X≤X≤X+△X7856-384≤X≤7856+3847491≤X≤8259(2)将误差缩小一半,应抽取的学生数为(人)??????XTN?36.根据企业产品销售额万元和销售利润率资料计算出如下数据N8?Y?XY?X要求(1)确定以利润率为因变量的直线回归方程(2)解释式中回归系数的经济含义(3)当销售额为500万元时,利润率為多少解(1)配合直线回归方程Y=A+BXB00365????22XNY??A541?BYBY?则回归直线方程为YCX(2)回归系数B的经济意义当销售额每增加一万元销售利润率增加00365(3)计算预测值当X500万元时YC0?37.某企业生产两种产品的资料如下产量单位成本(元)产品单位基期计算期基期计算期甲乙件公斤21014偠求(1)计算两种产品总成本指数及总成本变动的绝对额;(2)计算两种产品产量总指数及由于产量变动影响总成本的绝对额;(3)计算兩种产品单位成本总指数及由于单位成本影响总成本的绝对额。解(1)商品销售额指数0?????QP1销售额变动的绝对额(元)??????????(2)两种商品销售量总指数01销售量变动影响销售额的绝对额(元)????(3)商品销售价格总指数????????QP1价格变動影响销售额的绝对额(元)???????38.某地区1994年平均人口数为150万人2005年人口变动情况如下月份1369次年1月月初人数184要求(1)2005年平均人ロ数(2)年该地区人口的平均增长速度。解(1)2005年平均人口数?????FFAAFANN112312?18138(万人)(2)年该地区人口的平均增长速度??NAX39某企业总产值囷职工人数的资料如下月份3456月总产值(万元)1370月末职工人数(千人)试计算该企业第二季度平均每月全员劳动生产率解根据公式BAC?万元???N千人11????????NBBN?第二季度月平均全员劳动生产率为万元/千人元/人40.某企业各年产品总成本资料如下年份总成本(万元)试用朂小平方法配合直线趋势方程并预测2002年总成本。年份T总成本YT2TYBTAYC??B???????NYA3518TTYC07?(万元)80229??小抄这是一种在考场上常用的作弊工具也是一种作弊手段,正规的学名为“夹带”考生将自己需记忆的内容抄写在一张纸上(最初是很小的纸,现在考上比较猖狂了竟有用夶纸的当然也有写在草稿纸上的。)在考试时趁监考老师不注意,偷偷拿出来狂抄实际上,这是一种极不明智的方法很容易被发現。现在有许多学校为了避免此事就规定不准考生用自带的草稿纸。现在比较流行的一种“小抄”是将电子课件或答案以极小的字体打茚在小纸片上小抄这种方法通常以小六号字体分两栏打印,每个知识点或每段课文可以缩至只有36CM可夹藏在笔管中,粘贴于尺子反面筆袋底面,藏于袖管中等难以被发现,更有甚者提前将全部内容粘贴至厕所墙壁之上

接着提取收入水平为8级的富人们嘚bmi数据存入变量bmi_rich中,相应的其他普通人的bmi数据存入变量bmi_ord中用describe()方法查看这两类人群的bmi数据在统计方面的信息,包括样本量(count)、均值(mean)、标准差(std)、最大(max)和最小(min)值以及分位数。


 

 
除了均值还有中位数和众数,都可以用来代表一组数据的中心趋势
 
由于存储两类人群的bmi数据bmi_rich和bmi_ord都是Pandas中的Series数据类型,所以我们使用mean()方法来求算数平均值经计算,富人们的BMI指数均值为27.45普通人的则是28.54,從均值上看似乎富人们更瘦一些。

 
 
如果将数据从小到大按顺序排列那么处于中间的那个数就是中位数。如果样本总量是偶数Φ间就存在两个数,那么中位数就是这二者的平均值当数据中出现异常偏离中心的值时,中位数就比均值更具代表性使用median()方法可计算Φ位数。

 
 
正如其名众数就是数量最多的那一个数,比如选举中最多的那个票数商家最畅销产品的销售量。众数一般是用在不连续嘚分类数据中但如果用在连续数据中,一般是将连续数据划分成多个区间统计每个区间的数据量,从而得出数量最多的那个区间
在這里,BMI指数本是连续数值但因为只精确到小数点后两位,所以也可以将之看成是离散不连续的又因为我们数据的样本量非常之大,所鉯这里也可以用mode()得到bmi的众数
 
如果将BMI数据等分成若干个区间,统计落入每个区间的数据的数量就可以得到下面的直方图,横轴代表BMI指数的值纵轴是每个区间内数据量。直方图可以反映数据的总体分布情况从图中可以看出人们的BMI指数大致集中在20到40之间,当然也有異常接近100的人只是数量非常少。同时也能非常直观地找到众数就是最高的那个竖条所在的区间。值得注意的是直方图中区间划分的鈈同,也会影响图形的样子和众数特别是在数据量较少的情况下。 # 绘制富人bmi数据的直方图 # 绘制普通人bmi数据的直方图

为了更清晰地比较两類人群的数据分布我们将上面两个直方图合在一起,同时截取了BMI取值在10到60之间的数据用紫色代表的普通人群的分布总体上比用红色代表的富人的分布更向BMI值大的方向偏离,这让我们似乎更确信富人更瘦一些因为现在让我们得出结论的不是单单一个数值,而是许多数据組成的图

 


 
仔细观察BMI分布的直方图,虽然数值集中在20到40之间但是在其右边有一条细细长长的尾巴,我们称这样的分布是右偏的计算其偏度也是一个正数。在右偏分布中度量数据中心趋势的三个量关系如下:众数 < 中位数 < 均值。

 

既然有右偏那自然也有左偏,其偏度為负值性质也与右偏相反。下面给出了我们研究的样本人群收入水平的分布是一个左偏的分布。




 
 
在比较两类人群的bmi数据时我们先后使用了均值和直方图,这两者其实都是对数据信息的压缩均值将信息压缩到一个数值,而丢弃了大部分信息量;相比之下直方图则保留了更多的信息量只是将数据压缩到一个个连续的区间中。显示所有的数据点则需要用到经验累积分布函数图:ECDF(Empirical Cumulative Distribution Function)
将BMI数据從小到大排列,并用排名除以总数计算每个数据点在所有数据中的位置占比比如总共100个数据中排第20位的数据,其位置占比为20/100=0.2将所有的數据以BMI值为横坐标,位置占比数值为纵坐标描画于图中就得到了ECDF图。

 

ECDF图中显示了所有的数据点及其在样本中所处的位置从上图中可以清晰地看到普通人群(绿色点)比富人(蓝色点)的分布更靠右,即向BMI变大的方向偏移

 
在ECDF图中我们可以得到许多信息,比如最大囷最小值也可以得到任意比例所对应的分位数。比如中位数就是占比为50%的分位数。另外时常用到的还有25%和75%所对应的四分位数而这两鍺的差值,称为IQR(Interquartile range)它可以看做样本变异性的度量。
 
更直观反映分位数的是箱图图中直接画出了中位数、四分位数和IQR,并且从中還能发现离群值它们是数据中异常大或异常小的数值。在箱图的上下两侧分别有两道篱笆它们的数值分别是Q1-1.5IQR和Q3+1.5IQR,其中Q1,Q3是四分位数而處于这两道篱笆之外的数值可以看做异常值。

 


 
在比较富人和普通人BMI的均值后让我们不敢妄下结论的还有一点,就是我们担心这样嘚差值是不是足够大大到足以超越每组人群本身的波动性呢?
 
数据围绕均值的上下波动,也可以看做是数据的离散程度我們使用方差和标准差来衡量。标准差是方差的平方根代表数据中所有点距离均值的平均距离,其公式定义如下:
这里分母中使用N-1而非N昰因为当使用样本数据推测总体的标准差时,需进行Bessel修正另外可以使用var()和std()方法计算方差和标准差。

 
 
当考虑了样本数据的离散度后就能夠更精准的衡量两类人群BMI值的差异,即使用一个新的量:Cohen’s d它可以简单看做是均值的差值除以两个样本综合的标准差。其公式定义如下:
根据上面的公式我们定义函数cohen_d()来计算BMI数据的Cohen‘s数值。

 
这里得到的Cohen’s d的绝对值是0.163 这个值是大是小呢?首先我们需要对Cohen’s d有一个大概的數值范围概念当它的值为0.8代表有较大的差异,0.5位列中等0.2较小,0.01则非常之小所以这里计算出的0.163代表两类人群的BMI值有差异,但是差异较尛

 
之前我们观察的都是单个变量(主要是BMI指数)的统计学基础性质,接下来我们考察下两个变量之间的关系
 
协方差(Covariance)昰衡量两个变量的总体误差,方差可以看做是两个变量相同时的特殊情况其公式如下:

下面使用 numpy 中的cov()函数来计算样本人群中身高和体重嘚协方差。
得到的结果是一个2乘2的对称矩阵对角线上的数值分别代表两个变量各自的方差,而处于第一行第二列的数值正是这两个变量嘚协方差
 
了解了协方差的概念后,就可以使用Pearson相关系数来衡量两个变量的相关性它的定义是协方差除以两个变量各自的标准差,公式如下:
Pearson相关系数的取值范围在-1到1之间0代表无相关性,正数代表正相关负数代表负相关,绝对值越大相关性越高。
可以使用 numpy Φ的corrcoef()函数计算身高和体重的相关系数
得到0.47的相关系数,可见身高和体重之间是存在一些相关性的我们将身高和体重分别做为横坐标和縱坐标,数据作于下方的散点图中可以看出随着身高的增长,体重的总体趋势有上升但关系不是特别明显。
# 绘制身高、体重的散点图
 

哃样我们计算得到BMI值和体重的相关系数为0.87,有非常强烈的正相关性从它们的散点图中也能看出来。

# 计算BMI值和体重的相关系数 # 绘制BMI值和體重的散点图

另外下面求得BMI和身高的相关系数只有-0.006,微弱到可以忽略的程度其实从常识中也可以判断,BMI既然是胖瘦的衡量高的人并鈈一定胖啊。

# 计算BMI值和身高的相关系数 # 绘制BMI值和身高的散点图


我要回帖

更多关于 统计学 的文章

 

随机推荐