因果推断的统计方法在数据挖掘中有哪些作用

工具变量在因果推断中的应用_百度文库
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
工具变量在因果推断中的应用
上传于||暂无简介
阅读已结束,如果下载本文需要使用5下载券
想免费下载本文?
定制HR最喜欢的简历
下载文档到电脑,查找使用更方便
还剩22页未读,继续阅读
定制HR最喜欢的简历
你可能喜欢因果推断与大数据 - 互联网周刊 - 互联网周刊
因果推断与大数据
大数据中一个耳熟能详的说法是:大数据长于分析相关关系,而非因果关系。但这可能是一个伪命题。如何从相关关系中推断出因果关系,才是大数据真正问题所在。这个问题,被称为因果推断(causal inference),它是苹果iPhone 6的语音识别和谷歌的无人驾驭汽车技术的基础。这个领域的大牛,美国工程院院士于达·珀尔(Judea Pearl,国内一般译为朱迪亚·珀尔)因此获得2011年的图灵奖。珀尔院士提出概率和因果推理演算法,彻底改变了人工智能最初基于规则和逻辑的方向。
大数据中一个耳熟能详的说法是:大数据长于分析相关关系,而非因果关系。但这可能是一个伪命题。如何从相关关系中推断出因果关系,才是大数据真正问题所在。这个问题,被称为因果推断(causal inference),它是苹果iPhone 6的语音识别和谷歌的无人驾驭汽车技术的基础。这个领域的大牛,美国工程院院士于达·珀尔(Judea Pearl,国内一般译为朱迪亚·珀尔)因此获得2011年的图灵奖。珀尔院士提出概率和因果推理演算法,彻底改变了人工智能最初基于规则和逻辑的方向。
珀尔院士的思想,在图灵问题的顶层设计高度,改变了我关于大数据的认识。与珀尔院士的深度思想交流事出偶然。“美国大师行”的旧金山站安排9月3日下午见珀尔院士。本来只是礼节性的见面,请他简单介绍一下研究成果。但珀尔院士显然理解错了,以为是专业交流,于是准备了64页的数学讲义。当他听说听众竟然来自媒体、法律、经济等文科背景时,不禁瞠目结舌。他说:“对不起,我不知道你们……”。改讲义已来不及了,只好硬着头皮,对牛弹琴。不料,两小时后,珀尔院士谈得兴起,早忘了我们是学什么的,奔放的数学思想喷薄而出,图论、概率论、非线性数学的公式像袋鼠一样,隔着十几步十几步地跳跃,如黄河之水,一发而不可收。时间已到,主办方反复提示无效,又讲了一个多小时。
我身旁的兄弟,被我晃醒,好像还在梦中,几乎已经坐不正了。我靠一杯一杯的咖啡支撑,勉强听着。之后,却意外地听入了迷,最后听到如醉如痴。因为我发现珀尔院士讲的,正是我在大数据上日思夜想的问题。
近年来,我在介绍大数据时,对相关关系与因果关系这个说法一直心存疑惑。虽然也引进美国大数据理论,如巴拉巴西院士的说法,但这个疑惑并没有消除。相关关系对应经验归纳,因果关系对应理性演绎。但难道大数据只有归纳,没有演绎吗,或者问,大数据如何才能实现归纳与演绎间的转化?在这个思维瓶颈上,珀尔院士一下点破了我。
珀尔院士走后,大家面面相觑,互相打听,这三个半小时,灌的是什么东东。在交流学习体会时,一位数学专业的专家说,他感到珀尔院士是在用一种非线性的方法,解决线性的问题。统计过去不能处理因果关系,只能处理相关关系,珀尔院士的贡献是把因果关系引入了统计概率分析,把非结构化的东西半结构化了。半途接替口语翻译进行专业翻译的查理,是腾讯大数据师,专业研究方向与珀尔同领域。他以“西安的模型能否用于成都”为比喻,从专业角度又向大家解释了一遍。我被当作文科的代表,在毫无心理准备的情况下,推到台上交流体会。直到被研究非线性物理出身的查理超赞时,才确认自己听的、想的,确实是珀尔院士讲的,感觉像中了奖一样。
我一上来就说,图灵问题的核心是人与自然(机器)关系问题,人工智能就是要实现二者的统一。这个问题对应的今天的主题,是定性(非结构化)与定量,归纳与演绎,感性与理性的关系——相关关系与因果关系——如何统一的问题。用珀尔院士的话说,就是从巴比伦思维到雅典思维的问题(The causal revolution
from associations to counterfactuals
from Babylon to Athens)。大数据发展当前存在的问题是,偏离了图灵原问题的轨道,变成理性计算的天下,以谷歌的数学算法为代表;而忽视了脸谱的算法(基于人与人associations的感性算法)。后者在统计学中,就是相关关系数据分析。珀尔院士对后者也不满意,因此才批评说“不要老想数据,先把现实用模型模拟出来”(大意如此),意思是要把非结构化的定性问题结构化。
查理此前曾说珀尔院士提出的是休谟的问题。我说,珀尔院士提出和解决问题的思路让我想起康德,我觉得他今天讲的内容,就是《纯粹理性批判》的数学版,而方法上的思路让我联想到牛顿与莱布尼茨。我回国后查阅专业资料时,发现有人这么评价珀尔院士的问题意识:“有人提到了哲学(史)上的休谟问题(我的转述):人类是否能从有限的经验中得到因果律?这的确是一个问题,这个问题最后促使德国哲学家康德为调和英国经验派(休谟)和大陆理性派(莱布尼兹-沃尔夫)而写了巨著《纯粹理性批判》。”看来所见略同。
康德《纯粹理性批判》的原问题,是经验与理性之间的关系,相当于大数据中相关关系与因果关系之间的关系。我说,康德当年解同样问题的思路,像极了珀尔院士。康德设置了一个叫“图式”的概念,作为沟通经验与理性的中间框架(FRAME)。“图式”的特征是,兼具经验的具体性与理性的普遍性,但既不同于经验,也不等于理性。珀尔院士的“图式”就是因果图 (Causal Diagram),是他的结构化理论。这个结构不是完全理性的,而是可以灵活调整的。我说,珀尔院士的结构与康德的图式唯一不同在于,前者设置了可替换的部件模块,用于根据情况临时调整,因此不是机械的结构,而是活的、松耦合的结构(例如,就象查理讲的,西安的“普遍真理”模型,只要更换一些适应成都“具体实践”的子模块,就可以用于成都)。
在方法上,珀尔院士以柏拉图著名的洞穴寓言,说明因果(真相)、结构(人)与相关(影子)之间的映射关系。我说,这更像牛顿和莱布尼茨的方法论:以理性为极限值,以经验为数列,中间设一个结构化的函数(相当于洞穴中的人)。经验(相关)可以无限接近理性(因果),永远达不到因果(极限值),但可以视为等于因果。珀尔院士的独特之处,只不过是把这个“函数”(图式),泛函化了,实现了从结构化向非结构化、从线性到非线性的转化。为此,在结构模型上,进行大量复杂的数学展开,成为他理论的重点。他的模型被称为“图模型”或者“贝叶斯网络”(Bayesian network),用来描述变量联合分布或者数据生成机制。好在听众睡觉时,他讲的都是这一部分具体内容。关于他的因果结构理论,我听课时私底下议论说,这个用流形上的微积分(Calculus on Manifolds),所谓“橡皮膜上的拓扑几何学”也做得出来。
当前,人们讨论大数据,有一个不好的倾向,在结构化还没有打好基础情况下,片面追求所谓非结构化数据。这样就陷入珀尔院士批评的“老想数据”的状态,相当于解微分的时候,不列函数,就想直接从数列中求极值一样。在中国,这种情况尤为严重。这会把大数据搞成脱离表义基础的禅宗。在商业上,不排除实用主义地利用大数据,找到卖货上的皮毛联系,但更适合小摊小贩,毕竟不知其所以然,就做不大,做不长。
不过这也不奇怪,整个统计学和概率论,目前还停留在这个水平上,大多是关于“相关关系”的理论,而关于“因果关系”的理论非常稀少。Karl Pearson 就明确反对用统计研究因果关系。困扰统计的根本问题(辛普森悖论,Yule-Simpson’s Paradox),也同样是困扰大数据的根本问题。
泛而言之,在整个逻辑学中,归纳论只能表示事物之间的相关关系,还无法指出真正的因果关系。这是有人类以来的难题。巴比伦人在毕达哥拉斯之前一千年已掌握了勾股定理的应用,也早就开始了天文观察;但雅典人却从经验中提炼出了天文学的思辨理论。我们现在在还只是大数据上的巴比伦人。
话说回来,因果推断过犹不及。如果把相关关系完全结构化了,也有问题,那就会排斥人类自由意志的空间。玻尔院士似乎还没有想过其中的哥德尔悖论问题。正如段永朝评论玻尔院士的那样:“不可知与可知,一定是你中有我,我中有你。他们想解决这个问题。确定性、不确定搅成一团。一时来看,方法上实现了;但根本上来说,科学观要升级。”
想一想珀尔院士也真不容易,毕业于人称的“野鸡”大学,超前人类几十年为大数据奠基,却少有人听懂他。他儿子Daniel Pearl是华尔街日报的驻外记者,9-11后在巴基斯坦被恐怖组织抓住,几天后斩首碎尸。珀尔院士没回答提问就走了,说要陪夫人。因为就在上午传来消息,第二位美国记者像他儿子一样被恐怖组织斩首,他夫人一定会再次想起儿子。
责任编辑/enews
您对本文或本站有任何意见,请在下方提交,谢谢!
投稿信箱:
微信号: ciweekly
微信公众平台:
搜索ciweekly
或扫描二维码数据挖掘期末复习资料;0:38:37|分类:读书;一、数据挖掘是一个多学科领域,具体涉及到哪些相关;典型的数据挖掘系统的主要成分:1.数据库,数据仓;数据挖掘功能-可以挖掘什么类型的模式;描述性挖掘任务刻划数据库中数据的一般特性;预测性;(2)关联分析:发现规则,这些规则展示属性-值频;(3)分类和预测:分类与预测是两种数据分析形式,;
数据挖掘期末复习资料
分类: 读书笔记 |
标签: |字号大中小 订阅
题型:填空(20空)、判断(20分)、简答(5个:预处理方法、决策树、朴素贝叶斯过程、其他一些知识内容)、大题(算法:关联分析、分类、决策树、ID3算法、贝叶斯方法、A神经网络、聚类回归占得比较小) 概述
一、数据挖掘是一个多学科领域,具体涉及到哪些相关学科?数据库及相关领域知识。 二、什么是数据挖掘,产生的背景,典型的数据挖掘系统的主要成分? 数据挖掘定义:数据挖掘是从存放在数据库,数据仓库或其他信息库中的大量数据中挖掘有趣知识的过程。
典型的数据挖掘系统的主要成分:1.数据库,数据仓库或其他信息库;2.数据库或数据仓库服务器:3.知识库;4.数据挖掘引擎;5.模式评估模块;6.图形用户界面。
三、数据挖掘的功能有哪些?
数据挖掘功能-可以挖掘什么类型的模式。数据挖掘任务:描述和预测。
描述性挖掘任务刻划数据库中数据的一般特性;预测性挖掘任务在当前数据上进行推断。
数据挖掘的功能――用于指定数据挖掘任务中要找的模式类型。其模式类型介绍如下: (1)、概念/类描述:特征化和区分。用汇总的、简洁的、精确的方式描述每个类和概念,称这种描述为类/概念描述,通过三种方式得到:1)数据特征化
2)数据区分 3)数据特征化和比较。
(2)关联分析:发现规则,这些规则展示属性-值频繁地在给定数据集中一起出现的条件。 关联规则的含义为:满足X中条件的数据库元组多半也满足Y中条件。包括多维关联规则和单维关联规则。
(3)分类和预测:分类与预测是两种数据分析形式,它们可用于抽取能够描述重要数据集合或预测未来数据趋势的模型。分类是找出描述并区分数据类或概念的模型或函数,以便能用模型预测类标记未知的对象类。如:可以构造一个分类模型来对银行贷款进行风险评估(安全或危险);也可建立一个预测模型以利用顾客收入与职业(参数)预测其可能用于购买计算机设备的支出大小。
(4)聚类分析:它考虑的是数据对象,将数据对象根据一定的规则比如,最大化类内的相似性,最小化类间的相似性进行分组或聚类。同类相聚,异类相离
(5)孤立点分析:有些对象与数据的一般行为或模式不一致,称这些数据对象是孤立点。 (6)演变分析(时序分析):描述行为随时间变化的数据对象的规律或趋势,并对其建模,比如,股票的演变规律。
四、数据挖掘的性能问题包括哪3个方面? 五、知识发现包括哪些过程?
知识发现的过程:1)数据清理(消除噪声或不一致数据)2)数据集成(多种数据源可以组合在一起)3)数据选择(从数据库中检索与分析任务相关的数据)4)数据变换(数据变换或统一成适合挖掘的形式,如通过汇总或聚集操作)5)数据挖掘(基本步骤,使用智能方法提取数据模式)6)模式评估(根据某种兴趣度度量,识别表示知识的真正有趣的模式)7)知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识)
六、数据、信息、知识之间的区别和联系
数据:就是能够被计算机处理的任何事物(事实、数字、文本等) 数据=事实的记录
操作和交易数据:如销售、价格、库存、薪水册等
非操作的数据:如工业销售、预测数据、宏观经济数据
元数据(Meta data:描述数据自身的数据,如逻辑数据库设计或数据字典定义 信息:数据提供的模式、关联、联系等信息。 信息是对数据的提炼;信息=数据+意义
如:对于零售终端的分析能够获得什么产品在什么时候卖出的信息。 知识:
从信息中提取出有关历史模式、一般规律、和未来趋势的知识
知识是让从定量到定性的过程得以实现的、抽象的、逻辑的东西。知识是需要通过信息使用归纳、演绎得方法得到。知识只有在经过广泛深入地实践检验,被人消化吸收,并成为了个人的信念和判断取向之后才能成为知识,这一点使得知识和信息往往混杂在一起。
如:通过分析超市的销售汇总信息,来提供用户购买行为的知识,从而可以知道哪种促销方式是最有效的。 数据仓库
一、数据仓库是一个 面向主题的、集成的、非易失的、时变的有组织的数据集合。 二、OLAP的典型操作有哪些?切片切块、上卷下钻、旋转转轴
三、多维数据模型通常采用哪三种模式?星型模式、雪花模式、事实星座 四、冰山立方体的相关概念
仅计算满足最小支持度阈值的单元,这种部分物化的单元称为冰山立方体。HAVING COUNT(*) &= minsup为冰山条件 Motivation:
由于立方体单元在多维空间中的分布常常是稀疏的,因此大量的立方体空间可能被大量具有很低度量值得单元占据。
仅需物化数据立方体单元的一小部分――那些满足阈值的单元 v
减轻计算数据立方体中不重要的聚集单元的负担。 五、数据仓库和数据库有什么区别和联系?
1、数据仓库中的数据时间期限要远远长于操作型系统中的数据时间期限 操作型系统含有“当前值”数据,时间期限一般是60-90天;数据仓库从历史的角度提供信息,其中的数据仅仅是一系列某一时刻生成的复杂的快照,时间期限通常是5-10年 2、
数据仓库中的键码结构
数据仓库中的关键结构,隐式或显式地包含时间元素 操作型系统的键码结构可能不包括时间元素 3、
反应时间变化的
4、数据仓库是非易失的
数据仓库总是物理地分别存放数据
数据仓库中不进行操作型环境中的数据更新 数据仓库不需要事务处理、恢复和并发控制机制
数据仓库通常只需要两种数据访问:数据的初始化装入和数据访问 4、
相对稳定的
数据预处理
一、数据预处理包括哪些过程――数据清理、数据集成、数据变换和数据规约
二、对于每种预处理过程都有哪些方法,处理的思想是怎么样的,比如针对缺失值有哪些方法?针对数据规范化有哪些方法?数据清理中如何处理噪声数据等。
数据清理:就是用其例程通过填写空缺的值,平滑噪声数据,识别,删除孤立点,并解决不一致来清理数据。其基本方法为: (1)空缺值
1)忽略元组 ,2)人工填写空缺值 3)使用一个全局常量填充空缺值,比如用一个常数(Unknown)来替换所有空缺的值。4)使用属性的平均值填充空缺值
5)使用与给定元组属同类的所有样本的平均值
6)使用最可能的值填充空缺值,可以使用回归,或判定树确定推理获得
(2)噪声数据:一个测量变量中的随机错误或偏差。可以用以下方法
包括按箱平均值平滑,即就是将属性值根据等深,例如每箱3个进行分箱,然后用这三个值的平均值代替箱中的值。类似有按箱均值平滑,按箱边界平滑; Price的排序后数据 (in dollars): 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34 *
划分为等频箱:- 箱 1: 4, 8, 9, 15-箱2: 21, 21, 24, 25-箱3: 26, 28, 29, 34 *
用箱均值光滑:-箱1: 9, 9, 9, 9
-箱2: 23, 23, 23, 23
-箱3: 29, 29, 29, 29 *
用箱边界光滑:- Bin 1: 4, 4, 4, 15- Bin 2: 21, 21, 25, 25 - Bin 3: 26, 26, 26, 34 2)回归,让数据适合一个函数(如回归函数)来平滑数据。
聚类将相似的值组织成群或类,落在群或类外的值就是孤立点,也就是噪声数据; 不一致数据:许多情况下,所记录的数据可能不一致,这是多方面的因素,比如,由于编码或表示不同,在数据集成的时候,就有可能造成不一致。 规范化的方法: 1)最小―最大规范化 :对原始数据进行变换。假定A的属性最大值和最小值分别是MAX,MIX
,设A 中的任一值是V,则V的值经过规范化后则为:V’=(V-MIN)/(MAX-MIX)*(NEW_max-NEW_min)+NEW_min 其中规范化后的区间是[NEW_min, NEW_max] 例如:income的最大,最小值分别为,则将它的值映射到[0,1]时,若income的值6800规范后为: ()/()*(1-0)+0=0.686 2)z-score规范化(或零―均值规范化):就是属性A的值基于A的平均值和标准差规范。假设A的值V规范后为V’,则公式为: V’=(V-AVG(A))/A的标准差
假设属性income的平均值和方差分别为:,则值7360的规范后的值为: ()/5
3)小数定标化:就是科学表示法的形式,将属性的值映射到[0,1]之间。将小数点的位置规范化,小数点的移动根据属性的最大绝对值。如将A属性的值35规范后为:35/100=0.35
属性构造:是由给定的属性构造和添加新的属性,以有利于挖掘。比如,我们根据属性heigh 和 width可以构造 area属性。通过这种组合属性,属性构造可以发现关于数据属性间联系的丢失信息,这对知识发现有用的。
数值归约(1)----直方图:数值归约:通过用替代的,较小的数据表示形式来减少数据量。 直方图:使用分箱技术近似数据分布, 数值归约(2)----聚类 数据挖掘的各种算法
掌握每种算法的基本思想,优缺点,是否是有监督的挖掘方法等? 一、
Apriori算法的基本思想,如何采用Apriori来挖掘频繁模式
需要了解的基础知识: 关联规则判断标准
1、支持度sup(.):表示在购物篮分析中同时包含关联规则左右两边物品的交易次数百分比,即支持这个规则的交易的次数百分比。
规则X?Y在交易数据集D中的支持度是对关联规则重要性的衡量,反映关联是否是普遍
存在的规律,说明这条规则在所有交易中有多大的代表性。即在所有交易中X与Y同时出现的频率记为: support(X?Y)= P(XY)
2、置信度confidence(.):是指购物篮分析中有了左边商品,同时又有右边商品的交易次数百分比,也就是说在所有的购买了左边商品的交易中,同时又购买了右边商品的交易概率。 ?
连接:用Lk-1自连接得到Ck
修剪:一个k-项集,如果他的一个k-1项集(他的子集 )不是频繁的,那他本身也不可能是频繁的。
Apriori 算法:使用候选产生频繁项集
例1:假设最小支持度为30%,最小置信度为60%。
第一步:产生频繁1-项集(即满足最小支持度要求);第二步:再次扫描数据库,产生后候选2-项集:
第三步:产生频繁3-项集; 第四集:从满足条件的频繁2-项集中构造关联规则:
第五步:重复第二步,产生候选3-项集;
数据库面向5个事物,min-sup=60%,min-conf=80%.
分别用Apriori算法找出所有频繁项集
列举所有与下面的元规则匹配的强关联规则(给出支持度S和置信度C),其中,X代表顾客的变量,item代表项的变量(如“A”,“B”等)
对于? x∈transaction,buys(X,item1)^buys(X,item2)=&buys(X,item3) [S,C] 解:(1)、用Apriori算法找出所有频繁项集。原数据库D如下:
扫描D后,得到候选1-项集C1,如下所示:
再次扫描D后,得到候选2-项集C2: 根据上面候选2-项集,产生频繁2-项集L2:
包含各类专业文献、文学作品欣赏、行业资料、外语学习资料、应用写作文书、中学教育、数据挖掘期末复习资料71等内容。 
 数据挖掘期末复习_其它_高等教育_教育专区。《数据挖掘》总复习题 1. 数据挖掘系统可以根据什么标准进行分类? 挖掘的数据库类型分类、挖掘的知识类型分类、所用的...  3页 1财富值 数据挖掘期末复习资料 8页 5财富值喜欢此文档的还喜欢 ...数据挖掘作业 21页 免费如要投诉违规内容,请到百度文库投诉中心;如要提出功能问题...  3 5 怎样平滑噪声数据(ppt2.3.2) ......数据挖掘实验报告 7页 免费 数据挖掘期末复习资料 8页 2下载券喜欢此文档的还喜欢 数据挖掘 复习 4页...  《数据挖掘》总复习题 1.数据挖掘系统可以根据什么标准进行分类? 答:根据挖掘的数据库类型分类 、根据挖掘的知识类型分类、根据挖掘所用的技术分类、 根据应用分类 ...  数据挖掘期末复习整理_工学_高等教育_教育专区。一.名词术语及概念 1. 数据挖掘...如何从浩瀚如烟海的资料中选择性的搜集 他们认为有用的信息?这给我们带来了另...  防灾科技学院数据挖掘期末考试复习资料_教育学_高等教育_教育专区。防灾科技学院数据挖掘期末考试复习资料数据挖掘考点总结版本号 2.0.0.1 第一章 介绍 1. 数据挖掘...  数据挖掘期末复习_工学_高等教育_教育专区。数据挖掘期末复习(一) 问答题 1、...专题推荐 数据挖掘作业 数据挖掘期末复习资料 1/2 相关文档推荐 数据挖掘期末...  百度文库 专业资料 IT/计算机 计算机软件及应用专题推荐 北师大二附理科学霸高中....数据仓储与数据挖掘复习 91页 1下载券 数据挖掘期末考试题型及... 2页 免费 ...  数据挖掘期末复习资料beta2.0版 隐藏&& 1.数据挖掘 数据挖掘是从大量数据中提取或“挖掘”知识。 数据挖掘 2.KDD 的步骤 1.数据清理 2.数据集成 3.数据选择 ...

我要回帖

更多关于 病因与因果推断习题 的文章

 

随机推荐