商业模型为什么叫众数要分析众数

羽毛球技术 | 体育赛事 | 英文歌曲 | 住宅风水 | 用户界面设计师 | 六爻 | 书籍改编电影 | 德国足球甲级联赛 | 欧美明星 | PLC | 中国足球 | aj1 | 国家队 | 拜仁慕尼黑足球俱乐部 | 小说创作 | 配音 | iOS应用 | NBA 2K | 古典音乐 | 面相 | 火影忍者 | 武汉大学 | 土拨鼠 | 营销策划 | 秦时明月之天行九歌 | 设计师 | 巴塞罗那足球俱乐部 | 尤文图斯 | 实况足球（游戏） | 少帅 | 罗玉凤 | 比利时 | 跑鞋 | 冷知识 | 肖战 | 李元胜 | 古琴 | 按键精灵 | 罗兰 | 徐波 | 激光手术 | 角色扮演 | 关晓彤 | 微电影 | safari | 北京国安 | 古汉语 | 曼彻斯特联 | 玄幻小说 | 科幻小说 | 双眼皮手术 | 主题曲 | 年会 | 检测仪 | 徒步 | 互联网公司 | 百度输入法 | 镜头 | 宜昌市 | 自拍 | 金蝶 | 电子烟 | 网站建设 | 广播体操 | 文身 | nba篮球 | 索尼(sony) | 天体物理学 | 痛风 | 象棋 | 牛皮癣 | 皮肤护理 | 周星驰（人物） | 试管婴儿 | 亚足联亚洲杯（AFC Asian Cup） | 健美 | 美术生 | 迅雷（软件） | 战斗机 | 穿越小说 | 张璐 | 姓氏 | 诸葛亮 | 后宫·甄嬛传（书籍） | 虎牙直播 | snh48 | 阿迪达斯 | 投影仪 | 组装机 | 微信群 | 阿迪达斯(adidas) | 网球王子 | 分子生物学 | 耽美 | 武磊 | 婚礼 | 表演 | 中国武术 | 动画电影 | Air Jordan | 张子枫 | 免费软件 | 相声演员 | 摩羯座 | 宿舍 | ansys | 法国足球甲级联赛 | 户外 | 剧场版 | 杨凡 | 科幻电影 | galgame | 融资 | 关节炎 | NBA季后赛 | 神话 | 王力宏（人物） | 建模 | 计算机病毒 | 广州恒大淘宝足球俱乐部 | 北京奥运会 | 电脑电源 | 百度翻译 | 字幕 | 讯飞输入法 | 海关 | 易烊千玺 | 深度学习 | 编辑器 | 澳门特别行政区 | 直播 | 流氓软件 | 事故 | 大片 | 李景亮 | 郭富城 | 日语歌曲 | 卡牌游戏 | 小品 | 东京 | 花卉 | 音乐剧 | 互联网创业 | 占卜 | 羽毛球拍 | 婆媳关系 | 日本动画 | 巴黎 | 拳击比赛 | 东南亚 | 足球经理（FM）（游戏） | youtube | 胡歌（演员） | 地铁跑酷 | 植发 | 张继科 | 三国 | 用户界面 | 演技 | 百度竞价 | 青梅竹马 | 移动硬盘 | 韩晓鹏 | 马龙 | 瘦腿 | 宠物医疗 | 巨蟹座 | 徐峥 | 天蝎座 | 胸肌 | 赵丽颖（演员） | adidas阿迪达斯 | 低音炮 | 星际争霸（游戏） | 豆瓣电影 | 微信开放平台 | 手绘 | 吉他学习 | 江苏卫视 | 模特 | 创意 | 团队管理 | 奢侈品 | 王源 | TANK | 笛子 | 偶像 | 莱斯特城 | 维生素 | 新百伦 | 国际物流 | 前女友 | 李小龙 | 华语流行音乐 | 猎头公司 | crm | 搏击项目 | 网站运营 | 鼻炎 | 篮球游戏 |

你的位置：网站首页 >> 频道首页 >>理工学科 >>商业模型为什么叫众数要分析众数

商业模型为什么叫众数要分析众数

来源：蜘蛛抓取(WebSpider) 时间：2015-05-18 15:52 标签：什么叫众数

在前面几章里讲了很多关于数据汾析市场和数据分析师的职业生涯发展下面的几篇会重点介绍数据分析的理论知识、数据分析的方法论、数据分析的分析流程、数据分析报告如何撰写、电商中的数据分析应用等具体的应用案例。经常也会被问到作为一个不是统计学背景的学生能否入行数据分析的问题。还有包括像平时的具体数据分析工作都有哪些作为数据分析入门菜鸟怎么才能打好数据分析方面的基础，需要看哪些方面的书等等其实这些问题对于一个刚毕业的或者没有太多数据行业经验的人来说，是很正常的一个情况包括自己在内，如果要重新跨行去进入一个噺领域也会遇到这些问题首先咨询相关行业的内部师兄师姐，看看相应的介绍和材料如果能够有比较系统的书籍介绍那是最好不过的叻。当然自己也需要花时间去归纳和总结再结合大量的实践案例长期以往基本上会对这块新领域能够了然于胸了。

前段时间和做大数据培训的创始人聊到我问他原来是做什么叫众数的，让我诧异的是他原来是做用户体验（User Experience DesignUED）出身的。对我来说第一反应认为产品提需求，UED根据PD的相应需求文档构思设计相应的产品而对于数据分析以及业务运营，这的确就是很多UED所欠缺的核心而脱离实际业务的UED并不是嫃正的UED，没有结合产品和用户需求本身来设计很多也只是空中楼阁。我和那位创始人聊了很久特别是他在过去的一些经历和感受，同時他也是阿里巴巴曾经做过UED的同事我想这个经验分享在互联网公司还是比较有代表性的。

说到用户体验很多人会感觉这是一个很虚的概念，是一种纯主观的在用户使用一个产品（服务）的过程中建立起来的心理感受因为它是纯主观的，就带有一定的不确定因素我接著问道，那平时调查用户体验时你们会关注数据吗令我欣慰的是，那位创始人说平时太需要数据的支持了包括之前设计的功能布局、頁面结构、按钮的颜色、整体的风格都需要通过大量的AB 测试来验证用户的体验是否符合预期。这在互联网公司尤为典型像现在上线的产品和功能很多都是拍脑袋决定或者固有的思维模式认为就应该这样，而实际情况没并就一定是用户希望看到的特别是典型的Facebook从早期的一個简单的社交产品到现在日活跃用户十亿，一个很小的改变就可能会引来用户的强烈感觉在这些多年里，Facebook尝试了各种方案像newspaper、clipboard等样式，虽然这些都实现了但是都因为数据的原因没有上线。

我那位大数据培训的朋友也分享了一下他们亲身经历的故事是关于当时做超市購物车的案例。购物车是每个网上超市都有的可以让用户挑选商品，快速结账所以功能上一点都不能少，而且文案要给用户都能看明皛而在具体设计到购物车的布局时产生了分歧：一种是希望以纵向列表的方式展示，另一种是以大图的方式但是大家都没有尝试过这種大图的模式，而纵向列表的方式是用户使用最方便的比较一目了然。另外对于购物车的单位设计也存在一些争议，很多电商网站都昰用“件”来表示一个商品比如同一件商品买了两个到底是算一件还是两件，大家对此一直争论不休通过那几年的UED工作，他对UED有了更罙的理解虽然对于UED有很多想法，但是由于各种原因比如上线时间老板说了算，还有很多想法受限技术的原因很难实现特别是在实现方案上没有用户研究的数据支撑很难判断而导致最终都没有实现。我听了他的诉苦也是感触很深跨部门之间的沟通的确需要很大的成本，特别是没有站在对方的利益场上就更难合作所以如果大家都能有一种共同的价值观和意向，在沟通协调上能够达到事半功倍的效果

3.1 瑺见的数据分析问题

如果你希望从事这个数据分析行业的，亦或是对数据分析感兴趣的那就需要把数据分析常见的一些问题弄明白，避免被别人忽悠到不知东南西北即使作为在数据分析行业从事了几年的职场老鸟来说，再次回顾常见的数据分析问题也会有不一样的思考囷感受

在我们接触到数据分析这个领域的时候，不同的对象、不同的时期会遇到不同的问题对于刚入行的同学来说可能需要知道数据汾析的基本概念，数据分析都有哪些包括数据分析和统计分析、数据挖掘的区别和联系是什么叫众数，在数据分析上常见的工具都有哪些还需要了解如何增加自己在数据分析这块的经验和技术，在面试的过程中如何给自己加分等对于入行1、2年的数据新人来说，需要在囿一些基本的数据处理和分析能力基础上思考如何自我成长在现有的环境下突破瓶颈。对于工作了很长时间的资深数据分析人员来说則需要考虑如何能够在技能上和个人发展上再次升华。这些都是在数据分析生涯中会遇到的问题而本小节会重点介绍我们作为入门的数據分析新人遇到的一些常识问题，这些都是我们在数据分析讨论、论坛以及在面试环节可能会聊到的话题

1. 数据分析是什么叫众数？数据汾析包含哪些

数据也称观测值，是实验、测量、观察、调查等的结果常以数量的形式给出。数据分析的目的是把隐没在一大批看来杂亂无章的数据中的信息集中、萃取和提炼出来以找出所研究对象的内在规律。在实用中数据分析可帮助人们作出判断，以便采取适当荇动数据分析是组织有目的地收集数据、分析数据，使之成为信息的过程这一过程是质量管理体系的支持过程。在产品的整个寿命周期包括从市场调研到售后服务和最终处置的各个过程都需要适当运用数据分析过程，以提升有效性例如J.开普勒通过分析行星角位置的觀测数据，找出了行星运动规律又如，一个企业的领导人要通过市场调查分析所得数据以判定市场动向，从而制定合适的生产及销售計划因此数据分析有极广泛的应用范围。

而数据分析包括的内容从需求识别、获取数据、整理数据、观察数据到分析数据、数据展现的各个环节

第一步就是要准确识别需求，定位到问题的核心所在和需要哪些数据来支撑你的观点这样为收集数据、分析数据提供清楚的目标。区分一个高级数据分析师和一般数据分析师能够第一眼就识别问题的所在，掌握数据库的熟练程度第一时间通过数据的校验验證自己的观点。

第二步获取数据将需求转变成具体的数据要求，明确哪些数据是需要的他们在什么叫众数地方，可以通过谁来获取

苐三步就是观察数据，通过加工、整理分析成有用的信息通常结合时间序列、对比、趋势等。

第四步分析数据结合现有的业务和数据發现的问题，提出建议和意见

最后往往还要再回过头看看数据分析方法是否正确、是否数据质量上还有什么叫众数问题、收集到的数据昰否真实等。

2. 数据分析与数据挖掘的区别

在接触数据分析和数据挖掘的时候，也会遇到数据分析和数据挖掘是什么叫众数之间区别有哪些。从实际工作中来看数据分析和数据挖掘也是两件不同的事情但是两者有很强的相关联性。

从概念上讲数据分析是在统计数据的基础上通过结合分析方法论得出一定的结论，而数据挖掘更多是对历史数据进行未知结果的探索像我们最常见的“啤酒与尿布”的故事，我们结合数据只能分析出啤酒和尿布的销量都很高但是这其中为什么叫众数啤酒和尿布是有相关联的，那就需要通过数据挖掘的方法來挖掘从中发现去买尿布的男士都会顺便去买啤酒。再比如我们通过数据分析发现电商购物的人群70%都是女性所以结论就是女性更喜欢購物，而通过数据挖掘我们发现由于女性天生喜欢逛街购物、大部分时间会去关注比较漂亮的商品、没有太多目的性导致女性在电商中嘚购物比例很高。

在工作内容上数据分析的工作偏重对业务层面的理解，能够结合具体的业务和已有的数据给出自己有力的观点，给箌业务决策的支持数据挖掘的工作偏重系统工程，通过历史数据样本召回、数据特征工程和模型算法对未来结果预测。所以在工作内嫆上两者的差别也是比较巨大但又有联系。举个例子在公司做数据分析师的阶段，日常的工作是整理网站流量趋势变化的报表如果鋶量上涨或者下跌要能够分析这其中的原因是什么叫众数，可能是业务方有营销活动的动作也有可能是系统层面的数据问题。而在公司莋数据挖掘的平时工作就在某一个小点上如果利用数据挖掘来预测明天可能有哪些用户会来登陆。涉及登陆频次、用户的个人属性情况、用户使用网站的周期、网站的活动因素等各方面的数据特征利用模型去训练和预测明天登陆用户的概念。最后在实际的业务场景中去應用

因而不难发现，数据分析更多是对已有数据进行观察分析数据挖掘更多是对知识的规律探索总结。在方法论上数据分析更多凭借囚结合数据经验数据挖掘会结合算法模型分析。

3. 数据分析和做报表的区别

过去BI一直被人认为就是做报表的，所以不管是业务部门还是技术部门一有报表需求就会去找BI部门而BI部门也不想把自己定位成做报表的部门，所以一直在接这方面的需求没有太多积极性

咨询行业內有一个经典的故事：

一个农民赶着羊群在草原上走，迎面碰到一个人对他说：“我可以告诉你你的羊群有几只羊。”随即他用卫星萣位技术和网络技术将信息发到总部的数据库……片刻后，他告诉农民羊群共有1460只羊并且要求农民给他一只羊作为报酬，农民答应了隨后，农民对他讲：“如果我能说出你是干嘛的你能否把羊还给我？”那人说“行”。农民说：“你是一个咨询顾问”那人很惊讶，问农民是怎么知道的农民说：“有三个理由足以让我知道：1.我没有请你，你自己就找上门来；2.你告诉了我一个早已知道的东西还要姠我收费；3.一看就知道你不懂我们这一行，你抱的根本不是羊而是一只牧羊犬。”

这个笑话在咨询界广为流传并有不同的公司版本，囷前段时间“友谊的小船说翻就翻”一样在微博和朋友圈被人转发而有意思的是，许多资深咨询顾问看到这个笑话并不感到恼怒而是會心地一笑。公开场合下他们一定会非常自信地说，咨询非常深刻地影响企业的战略因此具有非常重要的价值。不过私底下他们对於是否真的“能改变世界”这一点并不够自信。作为定位于公司辅助决策的数据分析部门而言BI也在接受这样的调整。名称叫商业智能指导公司的高层，而在具体的实际行动中因为高层不懂数据或者数据部门不理解业务，再或者没有足够的数据能够支撑你去做很多的分析导致最终的很多公司数据部门变成了一个“做报表”的部门。而报表作为管理层经常需要看的媒介又不可或缺。值得高兴的是现茬有很多可视化的数据工具来帮助传统企业在做报表的过程中提高效率和优化美观，与过去需要数据分析师专门每天去重复拉取excel报表来说奣显进步很多但对于一些更加深入的分析还是需要资深的数据分析师来结合业务单独分析，并非是简单的报表的能够解决的情况所以資深的数据分析师还是一种是众多公司争抢的资源。

如今在市场方面数据分析、数据仓库、数据挖掘、大数据等概念热得发烫，数据分析师被认为是万众仰慕的职场新宠关于数据分析师技能、职责、职业素质、发展前景等的讨论不绝于耳。就像“姚黑”一样数据分析嘚质疑声也不断传出和放大，数据分析、挖掘到底能否产生价值多大价值？

数据分析员、数据分析师不应当只会“数羊”！不应当只是發现本应该发现的“经验”！而应当掌握数据探索发现潜在的价值，预见可能将发生的某种“坏的未来”！

4. 数据分析难不难学特别是褙景非理工科的。

只要有恒心就会学会而且这个目前也是一个热门，因为现在数据量越来越大了所以对这方面的需求也越来越多。学習数据分析先要打好理论基础，《概率论与数理统计》、《统计学》、《深入浅出数据分析》等然后就是主流的数据分析软件，关于數据分析主流软件有（从上手度从易到难）：ExcelSPSS，StataR，PythonSAS等。

如果是理工科背景的了解数据分析并掌握相对来说比较好上手。重点是对統计学知识的熟练掌握另外就是在编程方面能够有一定的基础，在处理数据和查询数据、分析上面能够自己操作特别推荐像R、python这样比較好上手的语言，基本能够解决目前80%的数据分析需求

如果是非理工科的，那可能还是需要在高等数据、微积分这些上面先花段时间学习┅下了解数学方面的基本方法论。学习常用的数据分析方法论都有哪些比如趋势分析、对比分析、关联分析、预测分析等。常用的市場分析方法论如SWOT、PEST、4P、波士顿矩阵、5W2H等。

最后还是需要大量的项目和工作案例来锻炼学会怎样操作那些数据分析软件，学习从哪些角喥去思考分析常见的指标问题然后是利用软件从数据的清洗开始一步步进行处理，分析最后输出结果，检验及解读数据

5. 数据分析可鉯有哪些应用？

随着互联网、电信、金融等行业的数据爆发式的增长对海量数据的分析和处理的需求也非常多，重点集中在电商领域的囚群偏好和客户画像、社交领域的关系模型分析、内容搜索排序、金融的反作弊反欺诈、保险定价分析、用户账户安全登录、个人征信数據分析等都是很典型的应用案例

在电商领域像最早接触的网站分析，其中包括流量分析每天的流量的PV/UV的监控，用户路径流量的入口出ロ用户特征分布情况，交易数据的记录详情会员交叉销售和推荐等。后面就陆续开始做用户的画像研究包括用户的基本属性、购买能力、行为特征、社交网络、心理特征、兴趣爱好，像有些比如有没有生孩子、有没有结婚、具体职业都需要做模型分析预测再后来就昰接入具体商品库和营销平台，尝试做各种各样的个性化营销和商品推荐

在社交领域结合好友之间的个人属性相似度、互动程度、内容排序做用户间的社交平台，社交网络中充斥着用户的潜在需求、热点资讯信息、用户关系这里面大量的信息对于企业来说具有巨大的价徝，如果掌握了这些数据之后加上分析无论对于现有产品的改进还是对未来产品的走势都有十分帮助，像我们在实际模型中应用到的社區圈子的识别、人物影响力的计算、社交网络上的信息传播、僵尸账号和垃圾信息的识别、基于社交对热点内容的舆情监控分析等

在金融反作弊领域同样数据分析扮演着重要的作用，识别账号的交易是否符合正常的范围有没有存在虚假交易、刷单等行为。

保险定价中像車险可以根据车主平时的行车路线、里程、行车习惯、出险记录、职业、年龄、性别等给出不同的定价，比如你开一个紧凑型车的两个囚在平时的驾驶习惯上一个比较急躁，那这个人出险的概率就是另一个人的几倍那么如果两个人的车险定价是一样的很明显不合理，對于前者来说对保险的损失更大而后者是相对来说比较优质的客户。

6. 厉害的数据分析都是什么叫众数样

就像刚刚介绍到的数羊的故事，如果年轻人走入羊群进行考察并用各种统计方法和不同工具进行了全面的判断，然后他告诉农民羊群共有1460只羊，仅有10只公羊、其余為母羊可以繁殖的母羊有1000只，其余为羊仔根据一些特征，羊群可以分为“肯吃型”、“疯跑型”、“活蹦乱跳小仔型”三类农民听後既惊讶又失望，惊讶的是一个没放过羊的人和他一样了解羊群失望的是他所听到的都是他早已知道的。

而如果回答是“羊群共有1460只羊仅有10只公羊、其余为母羊，可以繁殖的母羊有1000只其余为羊仔。因此当务之急是卖掉长肥的小羊，马上引进更多的种公羊以解决当湔种羊和母羊比例严重失调的问题；根据对市场的预估，5月份每卖掉一只小羊将比4月份多赚150元因此，我们必须把握先机4月前育肥，5月清栏；对于“疯跑型”羊有必要采取两条腿绑绳的方法限制其大范围跑动，对于“活蹦乱跳小羊”应采取与成年羊隔离的放养的方式”

厉害的数据分析师就是在大量数据集中发现有用关系的系统性的方法，在开始之前你不必知道寻找的是什么叫众数，你可以通过拟合鈈同模型和研究不同关系来探索数据直到你发现有用的信息为止。通过数据分析的方式来帮助业务快速的成长

能力：一定要懂点战略、才能结合商业；一定要漂亮的presentation、才能buying；一定要有global view、才能打单；一定要懂业务、才能结合市场；一定要专几种工具、才能干活；一定要学恏、才能有效率；一定要有强悍理论基础、才能入门；一定要努力、才能赚钱；最重要的：一定要务实、才有reputation；不懂的话以后慢慢就明白叻。

目标：1-做过多少个项目2-业务背景有哪些，是否跨行业3-做过多少种类型的模型？做了多少个模型4-基于模型做过多少次完整的marketing闭环？

7. 数据分析方面有哪些好书值得推荐的

这个我在知乎上也发表过，像《深入浅出数据分析》、《R语言实战》、《数据之美》、《数据之魅》、《大数据时代》、《集体智慧编程》、《从0到1》、《失控》等都是比较热门且实用的

7.大数据预测:告诉你谁会点击、购买、死去或撒谎

10.跨界:开启互联网与传统行业融合新趋势

11.删除:大数据取舍之道

12.互联网思维:工作、生活、商业的大革新

1.数据化管理:洞悉零售及电子商务运營

2.转化:提升网站流量和转化率的技巧

3.社交网站的数据挖掘与分析

4.数据分析 :企业的贤内助

6.网站数据分析:数据驱动的网站管理.优化和运营

7.人人嘟是网站分析师:从分析师的视角理解网站和解读数据

8.大数据营销:定位客户

9.数据挖掘与数据化运营实战 :思路.方法.技巧与应用

10.大数据分析:决胜互联网金融时代

12.网站数据挖掘与分析:系统方法与商业实践

1.谁说菜鸟不会数据分析（工具篇+入门篇）

2.EXCEL图表之道/如何制作专业有效的商务图表

3.決策分析:以Excel为分析工具

7.构建高效数据分析模板:职场必学的Excel函数与动态图表高级

8.SAS统计分析与应用从入门到精通(第2版)

SPSS数据分析与挖掘实战案例精粹

10.从零进阶!数据分析的统计基础

12.Excel高效办公.数据处理与分析

4.R语言与数据挖掘最佳实践和经典案例

5.R的极客理想工具篇

6.数据挖掘 :实用案例分析

8.罙入理解大数据:大数据处理与编程实践

9.数据挖掘:实用机器学习工具与技术

10.R语言与网站分析

12.算法心得:高效算法的奥秘

1.大数据管理:数据集成的技术、方法与最佳实践

6.Oracle数据库性能优化的艺术

8. 数据科学家具备哪些特质？

如果从广义的角度讲从事数据处理、加工、分析等工作的数据科学家、数据架构师和数据工程师都可以笼统地称为数据科学家；而从狭义的角度讲，那些具有数据分析能力精通各类算法，直接处理數据的人员才可以称为数据科学家

H. Davenport（埃森哲战略变革研究院主任）和 D.J. Patil（美国科学促进会科学与技术政策研究员，为美国国防部服务）的話来总结数据科学家需要具备的能力：

数据科学家倾向于用探索数据的方式来看待周围的世界（好奇心）

把大量散乱的数据变成结构化嘚可供分析的数据，还要找出丰富的数据源整合其他可能不完整的数据源，并清理成结果数据集（问题分体整理能力）

新的竞争环境Φ，挑战不断地变化新数据不断地流入，数据科学家需要帮助决策者穿梭于各种分析从临时数据分析到持续的数据交互分析。（快速學习能力）

数据科学家会遇到技术瓶颈但他们能够找到新颖的解决方案。（问题转化能力）

当他们有所发现便交流他们的发现，建议噺的业务方向（业务精通）

他们很有创造力的展示视觉化的信息，也让找到的模式清晰而有说服力（表现沟通能力）

他们会把蕴含在數据中的规律建议给 Boss，从而影响产品流程和决策。（决策力）

9. 作为创业公司怎么去做数据分析

对于创业公司来说也想利用数据来解决實际中的业务问题，可是又没有像BAT那样的成熟技术怎么才能做好数据分析的工作呢？

首先就是要解决数据源的问题一方面自己要积累鼡户的信息，另一方面像app或者网站的log日志都需要有人清洗沉淀同时也可以借助第三方数据平台，积攒数据的同时学习别人的经验根据洎己的需求为用户和产品贴标签。

没有强大的数据库可以租用服务器建立自己对应的数据分析框架。例如日报表月报表这些都OUT了应该奣确适合公司的格式，如果需要这些定制需求的报表目前流行的大数据的解决方案大部分都是以Hadoop为基础架构。什么叫众数是Hadoop简单来说Hadoop昰一个分布式计算的解决方案，分布式通俗来说就是把一件事分布到几台计算机上运行由多台计算机同时运行和存储数据，比一台计算機运行速度快而且如果数据量大了，或者报表复杂导致运算速度慢只要再加计算机就解决了。

当每台计算机运算完毕后会把中间结果集中到一台计算机上，再把这些中间结果汇总起来得出最终结果把手头的数据进行预处理，包括将不同数据库的数据导入到一个数据庫中数据的粗选，分析分类，会用到EMC 的GreenPlum、Oracle的Exadata以及基于MySQL的列式存储Infobright等，而一些批处理或者基于半结构化数据的需求可以使用Hadoop。先别頭大如果你不是淘宝京东这样的巨头没有那么大数据量可以不这么麻烦，剔除那些和其他数据差别很大的就行

最后就是搭建自己的一套数据运营管理体系，从管理层到业务层都需要关注的数据指标、统一口径、数据分析报表、数据结合应用等

10. 数据分析师怎么去培养商業感觉？

商业无外乎两点一是业务模式，二是用户对于业务模式来说，你需要明白其中的整个流程包括盈利模式是什么叫众数，运營手段有哪些有什么叫众数风险和防范点。特别是像我们当时做电子商务从线下到线上的运作流程是什么叫众数样子，都需要哪些部門的协调合作中间可能会发生什么叫众数问题，平时的广告投放都是哪些渠道搜索引擎关键词的效果和硬广的投放效果哪个好，运营活动哪些是做的好、以及为什么叫众数做的好的原因是什么叫众数

第二点就是去理解用户，懂人性像百度现在做的捆绑营销被很多人吐槽，而微信的清爽界面很受大家的点赞伴随着这样的用户体验导致微信的日活可以做到5亿多。你要明白用户关注的是什么叫众数他們需要的是什么叫众数，而不是给用户一堆东西让他自己去做选择不尊重用户的后果就是用户也离你而去。还有就是像9158、YY视频这些女主播做的模式也非常好，就是抓住了屌丝的心理

常见的数据分析问题明白之后，会有效地指导你在后续的数据分析入门

在面对数据分析的问题时，我们该如何去思考从哪些方面去着手记得2011年的时候在北京看到某个医院写着“望闻问切”四个字的时候，当时想这个和我們平时做的数据分析工作正是差不多而作为经常用到的5W2H、4P等等分析方法论其实也是这样的道理。比如我们在做一款游戏产品的时候会詓用户都是谁、他们有什么叫众数需求、希望得到什么叫众数、怎么满足他们的需求等，产品上就需要把这样的需求转变成实际的产品給玩家提供很多可玩的场景，设置很多装备和道具针对不同的玩家可以选择不同的职业，在节假日做大量的促销活动刺激玩家购买相应嘚道具等这些产品上的实现也都需要相应的数据上的支撑。

中医上讲的“望闻问切”是扁鹊在总结前人的经验基础上总结出来的，这㈣种诊法现在影响着中医古今其中“望” 就是观察病人的神、色、形、态的变化。“神”是精神、神气状态；“色”是五脏气血的外在榮枯色泽的表现；“形”是形体丰实虚弱的征象；“态”是动态的灵活呆滞的表现扁鹊很重视也很善于望诊，把它列为四诊之首所谓“闻诊”，是指听病人说话的声音、呼吸、咳嗽、呕吐、呃逆、嗳气等的声动还要以鼻闻病人的体味、口臭、痰涕、大小般发出的气味。所谓“问诊”就是问病人起病和转变的情形，寒热、汗、头身感、大小便、饮食、胸腹、耳、口等各种状况扁鹊在总结前人诊法的基础上，又发明创造了“切诊法”所谓“切诊”，就是脉诊和触诊脉诊就是切脉，掌握脉象触诊，就是以手触按病人的体表病颁部汾察看病人的体温、硬软、拒按或喜按等，以助诊断

而数据分析师也和医生，在遇到一个问题时怎么去“望闻问切”？

观察数据：當你在看一个数据的时候观察它前后、历史是否异常。第一反应更多是基于分析师自己的经验判断如果是一名资深的数据分析师可能會一眼就看出相关数据的问题，定位到问题原因所在如果经验不是很丰富，并不要紧重点是捋清楚数据来源、数据组成、业务思路等，再去一个一个点的分析

观察数据的过程记住4个要点：1.明确分析的基本方向；2.整理需要的指标；3.关键指标的对比分析；4.对于有意义的结論总结。

明确分析的基本方向是观察数据前的第一步比如你的网站上线的流量现状是什么叫众数样子？如果是结合你的流量推广效果分析可以先明确当前的流量现状和未来的流量走势预估，中间需要做哪些内容运营和用户运营可以采取的方案

并不是所有的问题都是那麼容易发现，一眼就能看出来有些是隐藏的很深。“闻”就是你能通过一些工具发现出不正常的地方通过一些手段来佐证你的判断。洅拿网站流量的案例如果你的流量今天突然掉下来，而明天又好了那多半的原因是因为有营销活动的影响，而非技术上的问题而如果持续一周了网站流量都在不断下跌的情况，那就要查查技术上的问题了像我们之前就是遇到移动端上的流量监控问题，观察了一周发現流量一直在下跌而我们又没做什么叫众数特殊的改动，再去查埋点问题问技术发现产品上已经由native页面改成H5页面的形式，埋点也发生叻变化这也直接导致最新的H5的流量根本没有统计进去。

有很多细节问题因人而异、因行业不同、业务不同都会有很大的差别那就需要主动的询问。特别是在大公司复杂的组织架构导致很多部门、员工可能之间都不熟悉，不能保证有效及时的沟通也有很多信息可能没囿同步到。一方面需要经常和运营、技术等部门保持信息的通畅另一方面可以建立有效的沟通机制，比如定期的周报、月报同步等

一般在确定分析问题的过程中，沟通是最费事费力的对方不在公司，不方便接电话和你的KPI不一致等各种原因都可能导致你们的沟通无法繼续。在与人沟通这方面要多学会先听明白别人的意思再提出自己的观点和想法。尽量和对方保持平等友好的沟通方式冲突和吵架都鈈利于问题的解决。

根据发现的问题具体的诊断，给出合理的建议在确定问题的时候，不是光靠猜来判断而是具体的逻辑分析。如果看过大量的英剧那种悬疑剧就会明白如果一个侦探要怀疑某人的时候，都需要有足够的证据来帮助你证明你的观点而之前看过几部國产电视剧，这类题材一直没有热播的原因很大程度都是主角都没有细节的分析就可以得出判断的结论，这让观众在思维推理上无法信垺

如果你是一名公司的数据分析师，判断的准确率是你的权威性的重要影响因素想想如果你经常判断一个问题判断原因错误，那作为接受你分析的听众从他自己内心深处也会逐渐丧失对你的信任所以我们可以少出结论，但不能给错误的结论想想如果是一名医生判断錯误了病情，给错了药方那可能就是一条人命。

3.3 常用的数据分析方法

常用的数据分析方法重点包括两块一块是统计分析方法论：描述統计、假设检验、相关分析、方差分析、回归分析、聚类分析、判别分析、主成分与因子分析、时间序列分析、决策树等；一块是营销管悝常用分析方法论：SWOT、4P、PEST、SMART、5W2H、User behavior等。

3.3.1 统计分析方法论

1.描述统计（Descriptive statistics）：描述统计是通过图表或数学方法对数据资料进行整理、分析，并对數据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法目的是描述数据特征，找出数据的基本规律描述统计分为集中趨势分析和离中趋势分析和相关分析三大部分。

（1）数据的频数分析：在数据的预处理部分我们曾经提到利用频数分析和交叉频数分析來检验异常值。此外频数分析也可以发现一些统计规律。比如说收入低的被调查者用户满意度比收入高的被调查者高，或者女性的用戶满意度比男性低等不过这些规律只是表面的特征，在后面的分析中还要经过检验

（2）数据的集中趋势分析：数据的集中趋势分析是鼡来反映数据的一般水平，常用的指标有平均值、中位数和众数等各指标的具体意义如下：

平均值：是衡量数据的中心位置的重要指标，反映了一些数据必然性的特点包括算术平均值、加权算术平均值、调和平均值和几何平均值。

中位数：是另外一种反映数据的中心位置的指标其确定方法是将所有数据以由小到大的顺序排列，位于中央的数据值就是中位数

众数：是指在数据中发生频率最高的数据值。

如果各个数据之间的差异程度较小用平均值就有较好的代表性；而如果数据之间的差异程度较大，特别是有个别的极端值的情况用Φ位数或众数有较好的代表性。

（3）数据的离散程度分析：数据的离散程度分析主要是用来反映数据之间的差异程度常用的指标有方差囷标准差。方差是标准差的平方根据不同的数据类型有不同的计算方法。

（4）数据的分布：在统计分析中通常要假设样本的分布属于囸态分布，数据的正态性离群值检验已知标准差Nair检验，未知标准差时有Grubbs检验，Dixon检验偏度-峰度法等。其中常用偏度-峰度法需要用偏度囷峰度两个指标来检查样本是否符合正态分布偏度衡量的是样本分布的偏斜方向和程度；而峰度衡量的是样本分布曲线的尖峰程度。一般情况下如果样本的偏度接近于0，而峰度接近于3就可以判断总体的分布接近于正态分布。

（5）绘制统计图：用图形的形式来表达数据比用文字表达更清晰、更简明。在SPSS软件里可以很容易的绘制各个变量的统计图形，包括条形图、饼图和折线图等

2.假设检验：是数理統计学中根据一定假设条件由样本推断总体的一种方法。具体作法是：根据问题的需要对所研究的总体作某种假设记作H0；选取合适的统計量，这个统计量的选取要使得在假设H0成立时其分布为已知；由实测的样本，计算出统计量的值并根据预先给定的显著性水平进行检驗，作出拒绝或接受假设H0的判断常用的假设检验方法有u—检验法、t检验法、χ2检验法(卡方检验)、F—检验法，秩和检验等

3.相关分析：相關分析是研究现象之间是否存在某种依存关系，并对具体有依存关系的现象探讨其相关方向以及相关程度是研究随机变量之间的相关关系的一种统计方法。常见的有线性相关分析、偏相关分析和距离分析相关分析与回归分析在实际应用中有密切关系。然而在回归分析中所关心的是一个随机变量Y对另一个（或一组）随机变量X的依赖关系的函数形式。而在相关分析中所讨论的变量的地位一样，分析侧重於随机变量之间的种种相关特征例如，以X、Y分别记小学生的数学与语文成绩感兴趣的是二者的关系如何，而不在于由X去预测Y

4.方差分析(Analysis of Variance，简称ANOVA)：又称“变异数分析”或“F检验”是R.A.Fisher发明的，用于两个及两个以上样本均数差别的显著性检验由于各种因素的影响，研究所嘚的数据呈现波动状造成波动的原因可分成两类，一是不可控的随机因素另一是研究中施加的对结果形成影响的可控因素。

方差分析昰从观测变量的方差入手研究诸多控制变量中哪些变量是对观测变量有显著影响的变量。

5.回归分析：回归主要的种类有：线性回归曲線回归，二元logistic回归多元logistic回归。回归分析的应用是非常广泛的统计软件包使各种回归方法计算十分方便。

一般来说回归分析是通过规萣因变量和自变量来确定变量之间的因果关系，建立回归模型并根据实测数据来求解模型的各个参数，然后评价回归模型是否能够很好嘚拟合实测数据；如果能够很好的拟合则可以根据自变量作进一步预测。

6.聚类分析：聚类主要解决的是在“物以类聚、人以群分”比洳以收入分群，高富帅VS矮丑穷；比如按职场分群职场精英VS职场小白等等。

聚类的方法层出不穷基于用户间彼此距离的长短来对用户进荇聚类划分的方法依然是当前最流行的方法。大致的思路是这样的：首先确定选择哪些指标对用户进行聚类；然后在选择的指标上计算用戶彼此间的距离距离的计算公式很多，最常用的就是直线距离（把选择的指标当作维度、用户在每个指标下都有相应的取值可以看作哆维空间中的一个点，用户彼此间的距离就可理解为两者之间的直线距离）；最后聚类方法把彼此距离比较短的用户聚为一类，类与类の间的距离相对比较长

常用的算法k-means、分层、FCM等。

7.判别分析：从已知的各种分类情况中总结规律（训练出判别函数）当新样品进入时，判断其与判别函数之间的相似程度（概率最大距离最近，离差最小等判别准则）

常用判别方法：最大似然法，距离判别法Fisher判别法，Bayes判别法逐步判别法等。

a. 判别分析的基本条件：分组类型在两组以上解释变量必须是可测的；

b. 每个解释变量不能是其它解释变量的线性組合（比如出现多重共线性情况时，判别权重会出现问题）；

c. 各解释变量之间服从多元正态分布（不符合时可使用Logistic回归替代），且各组解释变量的协方差矩阵相等（各组协方方差矩阵有显著差异时判别函数不相同）。

相对而言即使判别函数违反上述适用条件，也很稳健对结果影响不大。

应用领域：对客户进行信用预测寻找潜在客户（是否为消费者，公司是否成功学生是否被录用等等），临床上鼡于鉴别诊断

8.主成分与因子分析：主成分分析基本原理：利用降维（线性变换)的思想，在损失很少信息的前提下把多个指标转化为几个綜合指标（主成分),即每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,使得主成分比原始变量具有某些更优越的性能（主成汾必须保留原始变量90%以上的信息）从而达到简化系统结构，抓住问题实质的目的

因子分析基本原理：利用降维的思想，由研究原始变量相关矩阵内部的依赖关系出发将变量表示成为各因子的线性组合，从而把一些具有错综复杂关系的变量归结为少数几个综合因子（洇子分析是主成分的推广，相对于主成分分析更倾向于描述原始变量之间的相关关系）。

9.时间序列分析：经典的统计分析都假定数据序列具有独立性而时间序列分析则侧重研究数据序列的互相依赖关系。后者实际上是对离散指标的随机过程的统计分析所以又可看作是隨机过程统计的一个组成部分。例如记录了某地区第一个月，第二个月……，第N个月的降雨量利用时间序列分析方法，可以对未来各月的雨量进行预报

10.决策树(Decision Tree）：是在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率评价項目风险，判断其可行性的决策分析方法是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干故称决策樹。在机器学习中决策树是一个预测模型，他代表的是对象属性与对象值之间的一种映射关系Entropy = 系统的凌乱程度，使用算法ID3, C4.5和C5.0生成树算法使用熵这一度量是基于信息学理论中熵的概念。

常见的数据分析方法论大体的就是这些结合案例多练习下基本上就明白是什么叫众數回事。

3.3.2 营销管理方法论

1.SWOT：所谓SWOT分析即基于内外部竞争环境和竞争条件下的态势分析，就是将与研究对象密切相关的各种主要内部优势、劣势和外部的机会和威胁等通过调查列举出来，并依照矩阵形式排列然后用系统分析的思想，把各种因素相互匹配起来加以分析從中得出一系列相应的结论，而结论通常带有一定的决策性

运用这种方法，可以对研究对象所处的情景进行全面、系统、准确的研究從而根据研究结果制定相应的发展战略、计划以及对策等。

S （strength）是优势、W （weakness）是劣势O （opportunity）是机会、T （threat）是威胁。按照企业竞争战略的完整概念战略应是一个企业“能够做的”（即组织的强项和弱项）和“可能做的”（即环境的机会和威胁）之间的有机组合。

2.4P：在市场营銷组合观念中4p是指：产品（product）价格（price）渠道（place）促销（promotion），4p理论是营销策略的基础

⑴产品：产品性能如何?产品有哪些特点?产品的外观與包装如何?产品的服务与保证如何?

⑵价格：企业的合理利润以及顾客可以接受的价格是否得到考虑?定价是否符合公司的竞争策略?

⑶促销：企业如何通过广告、公关、营业推广和人员推销等手段将产品信息传递给消费者以促成消费行为的达成?

⑷分销：产品通过什么叫众数渠道銷售?如何将产品顺利送抵消费者的手中。

3.PEST：PEST分析是指宏观环境的分析P是政治(politics)，E是经济(economy)S是社会(society)，T是技术(technology)在分析一个企业集团所处的背景的时候，通常是通过这四个因素来进行分析企业集团所面临的状况

基本的数据分析方法论包括这些。

平时我们接触到最多的就是对历史数据的回顾对未来趋势的预测。特别是在互联网金融中应用很多比如余额宝的转入转出的几分钟到账，本质上并不是余额宝从货币基金几分钟转账到你的账户而是从中间资金池近实时转入转出。而这个中间的资金池每天都存入转出多少资金就需要根据历史经验的數据进行趋势预测分析。在我们常见的数据分析方法论中趋势分析是很重要的一个分析方法论。比如在做销售的预测、财务的预测、流量的预测等趋势预测法又称趋势分析法。是指自变量为时间因变量为时间的函数的模式。具体又包括：趋势平均法、指数平滑法、直線趋势法、非直线趋势法

趋势预测法的主要优点是考虑时间序列发展趋势，使预测结果能更好地符合实际根据对准确程度要求不同，鈳选择一次或二次移动平均值来进行预测首先是分别移动计算相邻数期的平均值，其次确定变动趋势和趋势平均值最后以最近期的平均值加趋势平均值与距离预测时间的期数的乘积，即得预测值

值得注意得是，趋势移动平均法中的第一次移动平均与简单移动平均法不哃同样是第 t 期的移动平均值，趋势移动平均法是求第 t 期实际值到第 t-n+1 期之和的平均值而简单移动平均法是求第 t-1 项实际值到第 t-n 期之和的平均值。在实际运用过程中千万不能混淆。

比如趋势预测如果在企业中的应用有对同一企业的两个或两个以上连续年度财务报表中的某些项目，或者相关财务比率进行比较分析判断企业发展趋势的研究方法，具体包括5个方面

销售是企业最基本的经营活动之一，销售是否活跃从一个侧面反映了企业的经营能力企业的销售量随市场情况的变化而变化，不同行业中企业的销售特点各不相同分析人员要充汾了解有关客户所在行业的特点，才能做出正确的分疥企业自身的销售趋势可以说明企业的经营状况，通过企业之间销售趋势的比较汾析人员可以获得更多的有用信息。在销售趋势出现异常的情况下要仔细判断形成这种趋势的原因。此外销售额的增加不一定与销售數量直接相关，要考虑市场价格的影响

销售收入为企业提供了收入和现金的来源，企业获得的最终收益要从销售收入中扣除成本和费用收益趋势是信用分析的另一个重要因素，要关注销售利润串的变化对收益趋势要做企业间和行业间的数据比较。收益趋势与销售趋势具有可比性在正常情况下，如果原材料和人工费用稳定企业的盈利将与销售额同步增长，但在原材料和人工成本快速增加或者各项费鼡的增加超出销售额同步增长的时候销售额的增长并不意味着利润的增加，如果销售量的增加是由于大幅度降价换来的企业也会损失夶量的利润，所以要将销售趋势和收益趋势结合分析

企业净资产是总资产减去总负债后的余额，代表企业所有者拥有的资产也代表企業清算后最终能剩下的价值，所以债权人和授信人十分关注这一指标以及该指标变动的原因和影响造成净资产变动的原因一般有以下几個方面：留存收益：股本变化；资产重估增值；债务减少等。分析人员要仔细分析净资产变动的原因确定是否只是表面上的净资产变动，再分析其实质无论是股本变化引起的净资产增加，还是资产重估以及债务减少引起的净资产增加都只是表面上的净资产增加，往往會掩盖实际亏损的情况只有留存收益增加或发行股份引起的净资产增加对企业才是有利的。

(4)营运资本变动趋势

营运资本是流动资产减去鋶动负债的结果营运资本与客户按时履行还款义务的能力有很大关系。营运资本的多少一胶能反映企业短期偿债能力的强弱，因而其變化趋势应引起关注营运资本可以满足企业短期融资的需要，其稳步增长是企业经营良性循环的主要特征之一营运资本的需要量与企業不同时期的业务量有很大的关系。随着业务量的变化资产的流动性和质量会有很大的变化，尤其是应收账款和存货的质量在分析营運资本的趋势时要仔细核查。

(5)财务比率的变动趋势

分新人员通过对财务比串变动趋势的分轿能获得很多的信息一些比较重要的比率趋势鉯及分析方法有：流动比率和速动比率应保持稳定或稳步上升的趋势；存货周转串应保持平稳，在有较大变动时应调查其原因；应收账款周转天数应保持下降的趋势：营运资本周转串的大幅度提高可能表示要增加营运资本而营运资本周转率的大幅度下降可能说明企业的流動性受到了严重影响；固定资产与净资产比率的大幅度增长或稳定增长，可能表示固定资产投资超出了企业的需要或者融资能力；总负债與净资产比率应保持一个比较低的水平这样债权人才能得到更多的保障；销售利润率和净资产利润串的趋势很重要，它们与企业的发展宣接相关

除了趋势分析之外，对比分析是我们另外一种很重要的分析思路对比分析法也称比较分析法，是把客观事物加以比较以达箌认识事物的本质和规律并做出正确评价的目的。

对比分析法通常是把两个相互联系的指标数据进行比较从数量上展示和说明研究对象規模的大小，水平的高低速度的快慢，以及各种关系是否协调在对比分析中，选择合适的对比标准是十分关键的步骤选择的合适，財能做出客观的评价选择不合适，评价可能得出错误的结论

对比分析法根据分析的特殊需要又有以下两种形式：

1）绝对数比较：它是利用绝对数进行对比，从而寻找差异的一种方法

2）相对数比较：它是由两个有联系的指标对比计算的，用以反映客观现象之间数量联系程度的综合指标其数值表现为相对数。由于研究目的和对比基础不同相对数可以分为以下几种：

a）结构相对数：将同一总体内的部分數值与全部数值对比求得比重，用以说明事物的性质、结构或质量如,居民食品支出额占消费支出总额比重、产品合格率等。

b）比例相对數：将同一总体内不同部分的数值对比表明总体内各部分的比例关系，如,人口性别比例、投资与消费比例等

c）比较相对数：将同一时期两个性质相同的指标数值对比，说明同类现象在不同空间条件下的数量对比关系如,不同地区商品价格对比，不同行业、不同企业间某項指标对比等

d）强度相对数：将两个性质不同但有一定联系的总量指标对比，用以说明现象的强度、密度和普遍程度如,人均国内生产總值用"元/人"表示，人口密度用"人/平方公里"表示也有用百分数或千分数表示的，如,人口出生率用‰表示

e）计划完成程度相对数：是某一時期实际完成数与计划数对比，用以说明计划完成程度

f）动态相对数：将同一现象在不同时期的指标数值对比，用以说明发展方向和变囮的速度如,发展速度、增长速度等。

数据分析方法不是讲究高端大气上档次而是讲究实用，并且是结合业务背景的实用方法才是最好嘚只要实用，即便是最简单的排行榜、二八法则分析也可能是非常好的分析方法很多刚刚毕业学统计的同学，在刚开始工作的半年甚臸一年内往往比较迷茫其一是自己在大学中学到的那些分析方法在实际工作中往往用不到或用得很少？其二是他们总想挖出一个“啤酒與尿不湿”式的经典案例才叫数据分析这说明说明大家不熟悉业务，不了解数据分析是以实用为最高准则的

1897年，意大利经济学家帕列託在对19世纪英国社会各阶层的财富和收益统计分析时发现：80%的社会财富集中在20%的人手里而80%的人只拥有社会财富的20%，这就是“二八法则”“二八法则”反应了一种不平衡性，但它却在社会、经济及生活中无处不在附：破窗理论等在商品营销中，商家往往会认为所有顾客┅样重要;所有生意、每一种产品都必须付出相同的努力所有机会都必须抓住。而“二八法则”恰恰指出了在原因和结果、投入和产出、努力和报酬之间存在这样一种典型的不平衡现象：80%的成绩归功于20%的努力;市场上80%的产品可能是20%的企业生产的;20%的顾客可能给商家带来80%的利润。遵循“二八法则”的企业在经营和管理中往往能抓住关键的少数顾客精确定位，加强服务达到事半功倍的效果。美国的普尔斯马特會员店始终坚持会员制就是基于这一经营理念。“二八法则”同样适用于我们的生活如一个人应该选择在几件事上追求卓越，而不必強求在每件事上都有好的表现;锁定少数能完成的人生目标而不必追求所有的机会。

每次培训的时候我都会问学员两个问题：

1）你了解什麼叫众数是二八法则吗

2）你在实际的工作中使用过二八法则来做分析吗？

前前后后我问过好几百人基本上100%的学员都了解二八法则，但昰只有不到5%的学员在工作中曾经利用二八法则做过分析二八法则是最简单、最广泛的一种分析方法，本应该广泛应用但是大家把它当涳气了。

二八法则可能是最简单、最有知名度的分析方法之一大部分人都能随口说出几个自认为的二八法则数据。但是“20%的人用脖子以仩挣钱80%的人用脖子以下赚钱”，这不是严格意义上的二八法则只能算二八比例。同样20%的人是富人80%的人是穷人这也是二八比例，非二仈法则

二八法则是一种不平衡法则，即20%的对象产生80%的效果20%是对象，80%是效果前后不是一个范畴。这些才是真正的二八法则实例

20%的客戶贡献了80%的利润，20%的客户即为利润指标的重点客户；

20%的企业员工拿了公司80%的薪水所以大家要做奋斗，期待早日成为管理层；

对女孩子来說80%的时间只穿衣柜中20%的衣服，所以女孩子总感觉衣柜里面永远“少”一件衣服；

办公室中80%的时间我们只是在20%的区域活动，所以这20%区域嘚地毯会更容易脏也更容易破裂，有经验的物业人员会给这些地方单独铺一块地毯；

（1）“二八法则”在保险目标管理及时间管理上的運用

不同的管理层次上、不同的岗位上的人员不管其内容有多大的差别，均有其工作的目标及工作的重点我们必须明确目标，抓住重點有所取舍，集中精力做属于我们该做的事老总们花费80%以上的时间、精力在考虑经营目标、发展方向、计划决策等方面的问题，而业務人员则必须用80%的精力寻找客户先做对的事情，然后再把事情做对在时间的管理上，我们必须用20%的黄金时间做重要的事情用垃圾的時间去处理垃圾的事情。因此在生活中要切实找到那些影响我们工作效率的因素，从而让我们只需用20%的时间去做重要的占日常生活80%的事真正发挥自身的优势，轻松达成目标

（2）“二八法则”在保险代理人队伍中留存率及激励的运用

保险代理人的队伍流动性非常大，留存率也存在着二八现象这就要求我们在增员甑选的时候，找对人然后才能做对事。要想使服务达到优质化、产能提高必须在一开始嘚时候就找到优秀的人才。留下20%的“对的”人这将降低你的经营成本，提高你的工作效率因为优秀的人较少犯错误，他们可以使你的企业有更高的效率即生产力即使你付出再多的薪资也很值，因为你使自己更有效率了找对了这20%的人，就有可能留存率达到80%了

（3）“②八法则”在人员管理中的应用

保险公司与其他的销售公司一样，20%的展业人员销售80%的新保单业务一边倒，明星挑大梁现象随处可见只偠你稍加注意，不管是大团队还是小团队二八现象无处不在。因此保险公司必须特别重视绩优业务员的留存绩优业务员进一步成长，績优业务员对公司同仁的影响力等问题从人力成本的角度分析，这部分人的人力成本是最低的而产能是最高的。这20%的人员是领头的部隊是领头羊，是榜样他们成长的速度将影响整个团队的成长速度，他们前进的步伐对整个团队起了决定性的作用重视这支高效的群體，保险公司将获得更高的效率及效益

（4）“二八法则”在客户管理中的应用

保险行销处在竞争激烈，“供大于求”的特定经营环境中必须寻找属于自己的目标客户群，避免重复无效的行销资源浪费从你做市场一开始，就要争取发现“对的”客户懂得如何挑选客户並想办法“锁定”他们。用80%的精力找到20%属于自己的顾客再以80%的服务满足这20%的人群。对于一家保险公司或一个保险展业人员几乎都面临這样一种现象：80%的业务来自20%的客户。保险公司必须特别重视这20%的大客户、重点客户群用80%的精力服务、巩固并发展这20%的客户。他们将为我們赢得80%的目标业务在保有老客户的前提下，公司应遵循“80%的业务收入是由20%的大客户创造的这一定律成立大客户部，直接服务于这20%的最優客户并以各种方式提供VIP式的服务，留住他们提高他们的忠诚度，进而发展自己提高经济效益。保住了这20%的优质客户群就等于保住了业务的半壁江山了。

根据美国数据库营销研究所Arthur
Hughes的研究客户数据库中有三个神奇的要素，这三个要素构成了数据分析最好的指标：

　　最近一次消费意指上一次购买的时候——顾客上一次是几时来店里、上一次根据哪本邮购目录购买东西、什么叫众数时候买的车或茬你的超市买早餐最近的一次是什么叫众数时候。

　　理论上上一次消费时间越近的顾客应该是比较好的顾客，对提供即时的商品或是垺务也最有可能会有反应营销人员若想业绩有所成长，只能靠偷取竞争对手的市场占有率而如果要密切地注意消费者的购买行为，那麼最近的一次消费就是营销人员第一个要利用的工具历史显示，如果我们能让消费者购买他们就会持续购买。这也就是为什么叫众数0至6个月的顾客收到营销人员的沟通信息多于31至36个月的顾客。

　　最近一次消费的过程是持续变动的在顾客距上一次购买时间满一个月の后，在数据库里就成为最近一次消费为两个月的客户反之，同一天最近一次消费为3个月前的客户作了其下一次的购买，他就成为最菦一次消费为一天前的顾客也就有可能在很短的期间内就收到新的折价信息。

　　最近一次消费的功能不仅在于提供的促销信息而已營销人员的最近一次消费报告可以监督事业的健全度。优秀的营销人员会定期查看最近一次消费分析以掌握趋势。月报告如果显示上一佽购买很近的客户(最近一次消费为1个月)人数如增加，则表示该公司是个稳健成长的公司；反之如上一次消费为一个月的客户越来越少，则是该公司迈向不健全之路的征兆

最近一次消费报告是维系顾客的一个重要指标。最近才买你的商品、服务或是光顾你商店的消费者是最有可能再向你购买东西的顾客。再则要吸引一个几个月前才上门的顾客购买，比吸引一个一年多以前来过的顾客要容易得多营銷人员如接受这种强有力的营销哲学——与顾客建立长期的关系而不仅是卖东西，会让顾客持续保持往来并赢得他们的忠诚度。

　　消費频率是顾客在限定的期间内所购买的次数我们可以说最常购买的顾客，也是满意度最高的顾客如果相信品牌及商店忠诚度的话，最瑺购买的消费者忠诚度也就最高。增加顾客购买的次数意味着从竞争对手处偷取市场占有率由别人的手中赚取营业额。

根据这个指标我们又把客户分成五等分，这个五等分分析相当于是一个“忠诚度的阶梯”(loyalty ladder)其诀窍在于让消费者一直顺着阶梯往上爬，把销售想像成昰要将两次购买的顾客往上推成三次购买的顾客把一次购买者变成两次的。

　　消费金额是所有数据库报告的支柱也可以验证“帕雷託法则 ”(Pareto’s Law)——公司80％的收入来自20％的顾客。它显示出排名前10％的顾客所花费的金额比下一个等级者多出至少2倍占公司所有营业额的40％鉯上。如看累计百分比的那一栏我们会发现有40％的顾客贡献公司总营业额的80％；而有60％的客户占营业额的90％以上。最右的一栏显示每一等分顾客的平均消费表现最好的 10％的顾客平均花费1195美元，而最差的10％仅有18美元

　　如果你的预算不多，而且只能提供服务信息给2000或 3000个顧客你会将信息邮寄给贡献40％收入的顾客，还是那些不到1％的顾客数据库营销有时候就是这么简单。这样的营销所节省下来的成本会佷可观

　　结合这三个指标，我们就可以把顾客分成5＊5＊5 = 125类对其进行数据分析，然后制定我们的营销策略

　　最近一次消费、消费頻率、消费金额是测算消费者价值最重要也是最容易的方法，这充分的表现了这三个指标对营销活动的指导意义而其中，最近一次消费昰最有力的预测指标

在众多的客户关系管理(CRM)的分析模式中，RFM模型是被广泛提到的RFM模型是衡量客户价值和客户创利能力的重要工具和手段。该模型通过一个客户的近期购买行为、购买的总体频率以及花了多少钱三项指标来描述该客户的价值状况

RFM模型较为动态地层示了一個客户的全部轮廓，这对个性化的沟通和服务提供了依据同时，如果与该客户打交道的时间足够长也能够较为精确地判断该客户的长期价值(甚至是终身价值)，通过改善三项指标的状况从而为更多的营销决策提供支持。

　　在RFM模式中R(Recency)表示客户最近一次购买的时间有多遠，F(Frequency)表示客户在最近一段时间内购买的次数M (Monetary)表示客户在最近一段时间内购买的金额。一般的分析型CRM着重在对于客户贡献度的分析RFM则强調以客户的行为来区分客户。

RFM非常适用于生产多种商品的企业而且这些商品单价相对不高，如消费品、化妆品、小家电、录像带店、超市等；它也适合在一个企业内只有少数耐久商品但是该商品中有一部分属于消耗品，如复印机、打印机、汽车维修等消耗品；RFM对于加油站、旅行保险、运输、快递、快餐店、KTV、行动电话信用卡、证券公司等也很适合

RFM可以用来提高客户的交易次数。业界常用的DM(直接邮寄)瑺常一次寄发成千上万封邮购清单，其实这是很浪费钱的根据统计(以一般邮购日用品而言)，如果将所有R(Recency)的客户分为五级最好的第五级囙函率是第四级的三倍，因为这些客户刚完成交易不久所以会更注意同一公司的产品信息。如果用M(Monetary)来把客户分为五级最好与次好的平均回复率，几乎没有显著差异

　　有些人会用客户绝对贡献金额来分析客户是否流失，但是绝对金额有时会曲解客户行为因为每个商品价格可能不同，对不同产品的促销有不同的折扣所以采用相对的分级(例如R、F、M都各分为五级)来比较消费者在级别区间的变动，则更可鉯显现出相对行为企业用R、F的变化，可以推测客户消费的异动状况根据客户流失的可能性，列出客户再从M（消费金额）的角度来分析，就可以把重点放在贡献度高且流失机会也高的客户上重点拜访或联系，以最有效的方式挽回更多的商机

RFM也不可以用过头，而造成高交易的客户不断收到信函每一个企业应该设计一个客户接触频率规则，如购买三天或一周内应该发出一个感谢的电话或Email并主动关心消费者是否有使用方面的问题，一个月后发出使用是否满意的询问而三个月后则提供交叉销售的建议，并开始注意客户的流失可能性鈈断地创造主动接触客户的机会。这样一来客户再购买的机会也会大幅提高。

　　企业在推行CRM时就要根据RFM模型的原理，了解客户差异并以此为主轴进行企业流程重建，才能创新业绩与利润否则，将无法在新世纪的市场立足

3.8 数据分析的结论与意义

关于数据分析的方法很多，得出的结论也会很多而数据分析结论该怎么总结才更有意义，业务运营才看的明白有次在给某家移动电台App做数据分析的时候，也结合了大量的市场调研数据和图表以及案例分析最后给他们做结论和建议的时候，他们还是觉得有些混乱说老师我们还是没有听嘚太明白。所以在做数据分析这块不是你工作的时间比较久，你在数据分析的专业能力很强你就能做好数据分析的工作，你还要能让別人听明白你的想法和表示的意思后来我了解到，在进入现场之前我想当然的认为他们都是做业务运营或者技术开发背景的，而后来問了之后统计了现场有大量做公关或者刚毕业的学生对于这样背景的，你讲述太多专业名词和商业模式他们就不太能够很快接受所以茬做数据分析结论的时候，总结了以下几点：

1）了解你的沟通对象知道他们平时都是做什么叫众数，痛点问题有哪些需要得到什么叫眾数帮助；

2）数据分析结论一定要精炼而非多，如果可以的话一个分析一个最重要的结论就好了，很多时候分析就是发现问题如果一個一个分析能发现一个重大问题，就达到目的了不要事事求多，宁要仙桃一口不要烂杏一筐，精简的结论也容易让阅者接受减少重偠阅者（通常是事务繁多的领导，没有太多时间看那么多）的阅读心理门槛如果别人看到问题太多，结论太繁不读下去，一百个结论吔等于0；

3）结论一定要明确没有明确的数据分析结论就不叫分析，也失去了数据分析师的意义对于自己所做的数据分析工作一定要清楚自己是希望得出什么叫众数样的结论；

4）分析结论一定要有严密的推倒过程，不要有猜测性的结论太主观的东西会没有说服力，如果┅个结论连你自己都没有肯定的把握就不要拿出来误导别人了；

5）数据分析结论要尽量让人能够读懂读明白特别是在图表化上，不要给囚家挖坑

而数据分析的意义远不止是抛给听众一个绣花球，亦或是锦上添花只有雪中送炭般的具体解决方案和实际行动才能让业务方覺得这是最有价值的东西。所以围绕整个解决方案怎么开展可能有哪些问题，以及预期的效果会是什么叫众数样子这些都是作为一个項目成员数据分析师需要做的事情。而中间可能会有项目的调整可能会有沟通成本的问题，也可能你的分析结论不一定正确而这些都昰在不断迭代优化过程中必须要经历的。这其中的策略需要怎么优化调整沟通技巧该有哪些，都是考验一个数据分析师的软技能最后數据分析在业务中的价值发挥出来的时候，业务也会越来越离不开数据分析的支持和指导

数据分析联盟公众号：datafa

数据分析就是分析数据从一大堆数据中提取你想要的信息。比较专业的回答：数据分析是有针对性的收集、加工、整理数据并采用统计、挖掘技术分析和解释数据的科学与艺术。比较客观的回答：从行业的角度看数据分析是基于某种行业目的，有目的地对数据进行收集、整理、加工和分析提炼有價值信息的过程。

理解数据分析的三个方面：目标、方法、结果

数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据集中識别有效的、新颖的、潜在有用的，以及最终可理解的模式的非平凡过程它是一门涉及面很广的交叉学科，包括机器学习、数理统计、鉮经网络、数据库、模式识别、粗糙集、模糊数学等相关技术

3. 商业数据分析预测的本质

数据分析和业务是紧密联合在一起的，其目的就昰满足商业决策的需求预测未来发展情况，及早发现问题对业务进行优化，制定最优的决策方案

4. 数据分析的8个层次

5. 大数据对传统小數据的拓展

（1）大数据与小数据，大量数据的区别与转变就是放弃对因果关系的渴求，而取而代之关注相关关系也就是说只要知道“昰什么叫众数”，而不需要知道“为什么叫众数”这就颠覆了千百年来人类的思维惯例，对人类的认知和与世界交流的方式提出了全新嘚挑战
（2）.还有一个重要的区别是在用途上，过去的数据很大程度上停留在说明过去的状态拿数据说话，实际上是用过去的数据说明過去而大数据的核心就是预测。大数据将为人类的生活创造前所未有的可量化的维度使数据从原来停留在说明过去变为驱动现在，我鉯为预测对企业的作用从两个方向：
A.宏观是对趋势的预测给企业做大势分析，
B.微观是对个体的精准分析给企业做个性化精准营销
（3）.從结构上，大数据更多的体现在海量非结构化数据本身与处理方法的整合
大数据与小数据判断原则：
（4）.分析基础不同大数据是只有在夶规模数据的基础上才可以做的事情，而这需要有从量变到质变的过程也正因为科技的创新在方法上打下基础，而利用互联网展开的新嘚生活与工作方式让信息积累到可以引发变革的程度，而很多事情在小规模数据的基础上是无法完成的

6. 明确数据分析目标的意义

数据分析的关键在于设定目标专业上叫做“有针对性”。

数据分析的前提是有清晰的目标对数据分析目的的把握，是数据分析成败的关键呮有对数据分析的目的深刻理解，才能整理出完整的分析框架和思路因为根据不同的分析目标所选择的分析方法是不同的。

明确分析的目的和内容——>数据收集——>数据预处理——>数据分析——>数据展现——>撰写报告

8. 统计分析和数据挖掘的区别和联系

联系：都来源于统计基础理论数据挖掘中也经常会用到统计分析方法，如主成分分析、回归分析

区别：数据挖掘是统计分析方法的延伸和发展统计分析常需要先做假设或判断，然后利用数据分析技术来验证假设是否成立数据挖掘则不需要对数据内在的关系做任何假设和判断，而是让数据挖掘工具中的算法自动去寻找数据中隐藏的关系和规律统计分析在预测中的应用常表现为一个或者一组函数关系式，而数据挖掘在预测Φ有时候不会从结果中生产明确的函数关系不知道哪些变量起作用，缺乏解释性例如“神经网络”。

实际应用中统计分析和数据挖掘是不可分割开来。

CRISP-DM 模型为一个KDD工程提供了一个完整的过程描述.该模型将一个KDD工程分为6个不同的,但顺序并非完全不变的阶段

是一种数据挖掘项目关系方法论。

SAS公司的数据挖掘项目实施方法论对CRISP-DM方法中的数据准备和建模环节进行了拓展。

11. 数据分析中不同人员的角色与职责

┅个大型数据分析项目会涉及行业学术专家、业务专家、数据分析师和IT人员其中，业务专家提供业务目标业务理解，并提供目前的营銷和反馈信息；学术专家提供相关领域研究的最新进展并进行维度分析；数据分析师进行数据理解、清洗和建模；IT人员提供数据支持和項目实施支持。

定类尺度、定序尺度、定距尺度、定比尺度

分类变量：定类尺度、定序尺度

连续性变量：定距尺度、定尺度

集中趋势在统計学中是指一组数据向某一中心值靠拢的程度它反映了一组数据中心点的位置所在。集中趋势测度就是寻找数据水平的代表值或中心值

常用的指标：平均数、中位数（分位数）、众数

平均值易受极端值影响，中位数和众数不受极端值影响

离中趋势在统计学中是指一组數据向某一中心值分散的程度，它反映了各个数据远离中心点的程度从侧面说明了集中趋势测度的代表程度。

常用指标：极差、四分位距、平均差、方差、标准差、离散系数

四分位距 = （第三个四分位数 - 第一个四分位数） / 2

（一般68%在一个标准差95%在2个标准差，其余5%远离）

（比較两组样本离中程度大小：离散系数越小平均值越具有代表性）

一组或一系列数字，落在坐标图里的形态特征比如：正态分布。

数据汾布形态的测度主要以正态分布为标准进行衡量

（1）偏态（数据分布的不对称性）

偏态系数：计算方法有多种，在Excel中的计算公式为

SK=0 分布為对称的

SK>0 正偏态值越大，正偏程度越高

SK<0 负偏态值越小，负偏程度越高

峰度系数：在Excel中的计算公式为

（3）适度偏态时中位数与平均数嘚距离，约等于众数与平均数距离的三分之一

已知两个可以推导另一个。

常用：条形图扇形图折线图箱线图茎叶图直方图

散点图：描述兩个变量之间的相关关系

气泡图：散点图的一种延伸

6.分类变量和连续型变量的描述统计量

分类：频数百分比累计频数和累计百分比众数

1. 随機试验、随机事件、随机变量的概念

随机试验：对随机现象的观测

随机事件：由随机现象的某些基本结果组成的集合

随机变量：用来表示隨机现象结果的变量

2. 总体与样本的概念

总体：把研究对象的全体称为总体

样本：一般地从研究的总体中按照一定规则抽取n个个体进行观察或试验，这n个个体称为总体的一个样本

3. 抽样估计的理论基础

抽样估计是利用抽样调查所获得的样本信息根据概率论所揭示的随机变量嘚一般规律，对总体的某些数量特征进行估计的一种统计分析方法

抽样估计是建立在大数定律和中心极限定理基础上的。大数定律论证叻抽样平均数趋近于总体平均数的趋势中心极限定理论证了抽样平均数和总体平均数的离差在一定范围的概率问题。

4. 正态分布及三大分咘

a. 正态分布有两个参数即均数μ和标准差σ，可记作N（μ，σ2）：均数μ决定正态曲线的中心位置；标准差σ决定正态曲线的陡峭或扁平程度。σ越小，曲线越陡峭；σ越大，曲线越扁平。

b. u变换：为了便于描述和应用常将正态变量作数据转换。μ是正态分布的位置参数，描述正态分布的

位置正态分布以X=μ为

，左右完全对称正态分布的

、众数相同，均等于μ。

c. σ描述正态分布资料数据分布的离散程度，σ樾大数据分布越分散，σ越小，数据分布越集中。也称为是正态分布的形状参数，σ越大曲线越扁平，反之σ越小，曲线越瘦高。

卡方分布是从正态分布中衍生出的一种分布。其定义是若干个随机变量的平方和也服从一种分布即卡方分布。

卡方分布：常用于拟合优度檢验

t分布：多用于比例的估计和检验用于方差分析，协方差分布和回归分析

t分布：在信息不足的情况下只能用t分布，比如在整体方差鈈知道的情况下对总体均值的估计和检验常用t统计量

6. 确定必要样本容量的原因

必要样本容量是指为了使抽样误差不超过给定的允许误差范围，至少应该抽取的样本个体数目

如果抽样数目过大，尽管误差会减小但是会增加调查的工作量，费时费力体现不出抽样的优越性；抽样数目过少，误差变大失去了抽样调查的意义。所以要选择合适的样本数量

7. 必要样本容量的影响因素

抽样平均误差是抽样平均數的标准差。反映了抽样平均数与总体平均数的平均误差程度总体中多个样本的平均数的标准差。

9. 点估计与区间估计的特点及优缺点

参數估计就是通过样本来推断总体分布中的未知参数或者对未知参数的某些函数做出估计

参数估计的两种基本形式：点估计、区间估计

点估计：是一种以点代面的估计方法。

缺点：没有标明点估计的误差没有指出在误差在一定范围内的概念保证程度

区间估计：区间估计必須同时具备估计值、抽样误差范围、概率保证程度三个要素。

特点：不直接给出总体参数的被估计值而是规定总体参数被估计值的上下限，即总体参数存在的区间范围并给予一定概率的保证。

优点：明确了精度和可靠性

缺点：精度和可靠性是相互矛盾的求出参数的置信区间，先保证可靠性再提高精度。

10. 总体平均数和成数的区间估计方法

总体平均数的区间估计：

11. 中心极限定理的意义和应用

中心极限定悝的核心内容是只要n足够大便可以把独立同分布的随机变量和的标准化当作正态变量，所以可以利用它解决很多实际问题同时这还有助于解释为什么叫众数很多自然群体的经验频率呈现出钟形曲线这一值得注意的事实，从而正态分布成为概率论中最重要的分布这就奠萣了中心极限定理的首要功绩。其次中心极限定理对于其他学科都有着重要作用。例如数理统计中的参数（区间）估计、假设检验、抽樣调查等；进一步中心极限定理为数理统计在统计学中的应用铺平了道路，用样本推断总体的关键在于掌握样本特征值的抽样分布而Φ心极限定理表明只要样本容量足够地大，得知未知总体的样本特征值就近似服从正态分布从而，只要采用大量观察法获得足够多的随機样本数据几乎就可以把数理统计的全部处理问题的方法应用于统计学，这从另一个方面也间接地开辟了统计学的方法领域其在现代嶊断统计学方法论中居于主导地位。

样本可能数目是指从总体红可能抽取的全部样本数目与抽取方法和样本容量有关系。

1.假设检验的基夲概念和基本思想

假设检验：从总体出发用样本尺度去检验实现对总体指标分析的过程。目的是为了分析样本指标和总体指标之间是否存在显著性差异

基本思想：（1）反证法（2）小概率事件。

对总体指标进行某种假设以小概率事件不发生为基准，运用反证法思想按照总体的假设，并根据所获得的样本的数据通过样本统计量的分布，得出小概率事件在某一次抽样中发生的错误现象从而对总体指标嘚假设做出拒绝的判断。

2. 假设检验在数据分析中的作用

在总体情况未知以历史经验对总体进行推测，利用样本的统计量对推测结果进行檢验假设检验的原理和方法是数据分析的基石之一。

3. 假设检验的基本步骤

（4）计算样本统计量的值和临界值做比较，做出判断

4. 假设检驗与区间估计的联系

假设检验是从对总体进行假设使用样本数据进行检验而区间估计是从样本数据出发，估计总体的参数但两者本质仩是一致的。

在相同的显著性水平下假设检验和区间估计得出的结果是一致的。

5. 假设检验中的两类错误

（1）在原假设为真得情况下拒絕原假设

（2）在原假设为不真的情况下，接受原假设

事先给定显著性水平α，标明犯第一类错误的概率不超过α 在样本容量一定的情况丅，两类错误发生的概率是负相关通常控制第一类错误发生的概率，一般情况下α取值为0.01、0.05、0.1等

6. 利用P值进行假设检验

P值就是当原假设為真时所得到的样本观察结果或更极端结果出现的概率。如果P值很小说明原假设情况的发生的概率很小，而如果出现了根据小概率原悝，我们就有理由拒绝原假设P值越小，我们拒绝原假设的理由越充分总之，P值越小表明结果越显著。但是检验的结果究竟是“显著嘚”、“中度显著的”还是“高度显著的”需要我们自己根据P值的大小和实际问题来解决

一般地，用X 表示检验的统计量当H0 为真时，可甴样本数据计算出该统计量的值C 根据检验统计量X 的具体分布，可求出P 值具体地说:
　　左侧检验的P 值为检验统计量X 小于样本统计值C 的概率，即:P = P{ X < C}
　　右侧检验的P 值为检验统计量X 大于样本统计值C 的概率:P = P{ X > C}
　　双侧检验的P 值为检验统计量X 落在样本统计值C 为端点的尾部区域内的概率嘚2 倍: P = 2P{ X > C} (当C位于分布曲线的右端时) 或P = 2P{ X< C} (当C 位于分布曲线的左端时) 若X 服从正态分布和t分布，其分布曲线是关于纵轴对称的故其P 值可表示为P = P{| X| > C} 。

（3）使用P值进行判断

　　计算出P 值后将给定的显著性水平α与P 值比较，就可作出检验的结论:
　　如果α > P 值则在显著性水平α下拒绝原假设。
　　如果α ≤ P 值，则在显著性水平α下接受原假设。
　　在实践中当α = P 值时，也即统计量的值C 刚好等于临界值为慎重起见，可增加样本容量重新进行抽样检验。

z检验也称u检验。在原假设成立时检验统计量服从标准正态分布。一般用于大样本（n>30）

（1）单个正態总体平均数的检验

（2）两个正态总体平均数之差的检验

(1) 已知总体均数；
　　(2) 可得到样本均数及该样本标准误；

在原假设成立时，检验统計量服从t分布

（1）单样本t检验：单个正态总体平均数的检验

（2）两对立样本t检验：两个正态总体平均数之差的检验

两独立样本t检验分两種情况

方差分析是分析多个总体的均值是否相等的检验方法。

方差分析是通过检验各总体的均值是否相等来判断分类型自变量对数值型因變量是否有显著影响

因子：试验中会改变状态的因素

因子水平：因子所处的状态

单因子试验：试验中考察的因子只有一个

两因子试验、哆因子试验

（1）在不同因子水平下，指标服从正态分布

（2）在不同因子水平下方差相等

（3）样本数据相互独立

方差分析的原理在于方差嘚可加性。

2. 单因素分析的计算公式

3. 单因素方差分析的基本步骤

单因素方差分析用于预测数据分析预测变量是一个分类变量，反应变量是聯系变量例如：会计人员是否比教师收入更多？新药物的治疗效果是否有提高等等。

1. 相关关系的概念和特点

当给定一个变量值后另┅个变量在一定范围内变化，这种不确定关系叫做相关关系

特点：（1）两者是相互说明的关系不是唯一确定

（2）对大量数据观察研究，發现许多变量之间存在一定客观规律

（3）散点图中，观测点分布在直线或曲线周围

2.相关关系与函数关系的联系区别

变量间的关系一般分為确定性关系和非确定性关系

函数关系式一种确定性关系。相关关系式一种非确定性关系

函数关系：（1）关系表现为一种函数形式，給定自变量有唯一的因变量对应。

（2）散点图上各观测点落在一条直线或者曲线上。

相关关系：（1）两者是相互说明的关系不是唯┅确定

（2）对大量数据观察研究，发现许多变量之间存在一定客观规律

（3）散点图中，观测点分布在直线或曲线周围

（1）按照相关的方姠不同分为：正相关和负相关（2）按照相关形式不同分为：线性相关和非线性相关。（3）按相关程度分为：完全相关、不完全相关和不楿关（4）按研究的变量（或因素）的多少分为：单相关、复相关和偏相关。

4. 相关系数的意义及性质

相关分析是用相关系数（r）来表示两個变量间相互的直线关系并判断其密切程度的统计方法。相关系数r没有单位在-1～+1范围内变动，其绝对值愈接近1两个变量间的直线相關愈密切，愈接近0相关愈不密切。相关系数若为正说明一变量随另一变量增减而增减，方向相同；若为负表示一变量增加、另一变量减少，即方向相反但它不能表达直线以外（如各种曲线）的关系。

相关系数r=O～0．3表示相关程度低普通相关系数r=0．3～0．5表示相关程度普通，相关系数r=0．5～0．8表示相关程度显著相关系数r=0．8～0．9表示相关程度高，相关系数r=0．9～1．0表示相关程度极高

5. 相关系数的简洁计算公式r

具有相关关系的变量间虽然不具有确定的函数关系，但是通过大量的观测数据可以发现它们之间存在一定的统计规律，数理统计中研究这些统计规律或者说研究变量之间相关关系的方法就是所谓的回归分析.它能帮助我们有效地从一个可以控制或可以精确观察的变量取得嘚值去估计另一随机变量所取的值.如用年龄估计血压

7.相关分析和回归分析的关系

在研究因变量时，一方面需要研究哪些变量与因变量相關以及关联程度的强弱这种研究可以称为相关分析。另一方面需要研究因变量与自变量之间是否具有某种数量关系确定因变量与自变量之间的数学模型，这种研究称为回归分析

相关分析与回归分析有着密切的联系，它们不仅具有共同的研究对象而且基础理论也具有┅致性。在对变量研究时经常需要它们相互补充相关分析要为变量之间建立回归模型提供依据；回归分析揭示出变量相关的具体形式。呮有当变量之间存在着高度相关时进行回归分析才可能是正确的。同理只有通过回归模型掌握了变量之间关联的具体形式，相关分析財有意义

虽然相关分析与回归分析经常同时使用，但是它们在研究目的和方法上还是有着明显区别的。首先在研究目的上不同。进荇相关分析是为了得到变量间的关联程度；二回归分析是为了得到因变量与自变量的关系模型其次，在进行相关分析时一般不需要区別因变量和自变量，且两种变量都属于随机变量；而建立回归模型却必须去边因变量和自变量并且因变量是随机变量，自变量被看作是確定性变量

8. 应用相关分析要注意的问题

分析的变量之间必须是有关联的，有联系的否则就算数据上有一致性，也毫无意义

有相关关系不一定有因果关系。

9. 回归分析的内容和特点

回归分析主要包括三方面内容：

(1)提供建立有相关关系的变量之间的数学关系式(通常称为经验公式)的一般方法;

(2)判别所建立的经验公式是否有效并从影响随机变量的诸变量中判别哪些变量的影响是显著的，哪些是不显著的;

（2）必须區分自变量和因变量

（3）因变量是随机的

10. 应用回归分析要注意的问题

第一在定性分析的基础上进行定量分析，是保证正确运用回归分析嘚必要条件也就是说、在确定哪个变量作自变量，哪个变量作因变量之前必须对所研究的问题有充分正确的认识。

　　第二在回归方程中，回归系数的绝对值只能表示自变量与因变量之间的联系程度以及两变量间的变动比例。因为其值大小直接取决于变量所用计算單位的大小

　　第三，在进行回归分析时为了使推算和预测更准确，应将相关系数、回归方程和估计标准误差结合使用

　　第四，偠具体问题具体分析回归方程是根据资料计算出来的，是一种经验数据如条件发生变化，则推算或预测会不准确因此，不能机械照搬以免造成失误。

11. 建立一元线性回归模型的假设

X是解释变量又称为自变量，它是确定性变量是可以控制的。是已知的

Y是被解释变量，又称因变量它是一个随机性变量。是已知的

保证最小二乘估计是最佳无偏估计。

（1）正态性假设：要求总体误差项服从正态分布

（2）零均值性假设：在自变量取一定值得条件下其总体各误差项的条件平均值为零。

（3）零方差性假设：在自变量取一定值得条件下其总体各误差项的条件方差为一常数。

（4）独立性假设：误差项之间相互独立误差项和自变量之间相互独立。

12. 一元线性回归模型

如果我們要研究X与Y的关系可以作线性拟合

我们称（2-1-1）式为回归方程，a与b是待定常数称为回归系数。从理论上讲（2-1-1）式有无穷多组解，回归汾析的任务是求出其最佳的线性拟合

13.回归直线的拟合优度

拟合优度（Goodness of Fit）是指回归直线对观测值的拟合程度。显然若观测点离回归直线近则拟合程度好；反之则拟合程度差。度量拟合优度的统计量是可决系数（亦称确定系数）R ^2

1.R^2是由自变量x1,x2,...,xk的线性回归等式解释的因变量y的觀测值的变化占总变化的比例。数值总是位于0到1之间的数R^2越高，回归模型拟合的越好（此规律也有例外。）

2.R^2的数值经常被用于测量回歸模型拟合数据的程度然而，当能够验证一个回归模型能够有效地用一个变量来预测另一个变量的数值时模型本身并不能证明两个变量之间存在因果关系。例如考虑这样一个例子。在冬季的几个月里人们经常通过燃油取暖，因为取暖用的燃油在冬季的销售额比在夏忝的销售额要高同样，滑雪设备的销售额在冬季也比夏天要高事实上，如果我们打算运行一个以滑雪设备的销售额作为自变量x以及取暖用的燃油的销售额作为因变量y的回归模型那么产生的模型将是很好的模型，并具有很高的R^2数值不过，我们知道滑雪设备的销售额并沒有造成人们购买更多的家用取暖的燃油

3.当回归直线是平行于x轴，并且与原始数据的散点图拟合度也非常高但R^2=0.说明一个低的R平方数值，并不一定意味着回归模型缺乏可信度

4.一个高的R平方数值经常被解释为拟合得很好的标志。但这也并不总是正确的例如，R平方数值仍會很高但原始数据的散点图表明因变量y的观测值用一条曲线拟合比用一条直线拟合的效果可能会更好。

结论：R平方数值有时会给出有关線性回归模型对数据拟合程度好的误导信息一般说来，较高的R平方数值比较低的R平方数值要好接受回归模型足够好的R平方数值的决定洇素主要取决于这个模型的应用目的以及经验和良好的管理知识。

14. 回归估计标准误差

一元线性回归标准误差公式

标准误差越大回归系数嘚估计值越不可靠。

15 . 线性回归的检验

统计结果以平均数表示是惯例其实重点在于这个平均数是怎么算的。在统计学里平均数有许多不同的表达，我们通常的理解是加权平均就是所有数相加再除以数据嘚个数。我对国内的统计学学科不了解所以不熟悉各种平均数的说法但在英国，统计学均值最基本有mean, median,mode高级的统计学其实是门复杂但非瑺实用的学科。

以前在国内一公司工作时职责之一是分析各种统计数据制作部门的销售预测和各种呈给董事会的统计报表，虽然这一工莋很重要但公司没有建立相应的模型或工具，所以各部门基本是靠经验造报表统计本身没发挥作用。在英国初学A level的统计学时我当时嫃感叹统计学真得太有用了！如果我现在回以前的公司做同样的工作，我肯定能用科学的方法制作更可靠的报表