数据挖掘模型评价方法中多个模型如何比较其性能?

  当前的数据挖掘模型评价方法形式是在20世纪90年代实践领域诞生的,是在集成数据挖掘模型评价方法算法平台发展的支撑下适合商业分析的一种形式也许是因为数據挖掘模型评价方法源于实践而非理论,在其过程的理解上不太引人注意20世纪90年代晚期发展的CRISP-DM,逐渐成为数据挖掘模型评价方法过程的┅种标准化过程被越来越多的数据挖掘模型评价方法实践者成功运用和遵循。

  01目标律:业务目标是所有数据解决方案的源头

  它萣义了数据挖掘模型评价方法的主题:数据挖掘模型评价方法关注解决业务业问题和实现业务目标数据挖掘模型评价方法主要不是一种技术,而是一个过程业务目标是它的的核心。没有业务目标没有数据挖掘模型评价方法(不管这种表述是否清楚)。因此这个准则也可以說成:数据挖掘模型评价方法是业务过程

  02知识律:业务知识是数据挖掘模型评价方法过程每一步的核心

  这里定义了数据挖掘模型评价方法过程的一个关键特征。CRISP-DM的一种朴素的解读是业务知识仅仅作用于数据挖掘模型评价方法过程开始的目标的定义与最后的结果的實施这将错过数据挖掘模型评价方法过程的一个关键属性,即业务知识是每一步的核心

  为了方便理解,我使用CRISP-DM阶段来说明:

  1.商业理解必须基于业务知识所以数据挖掘模型评价方法目标必须是业务目标的映射(这种映射也基于数据知识和数据挖掘模型评价方法知識);

  2.数据理解使用业务知识理解与业务问题相关的数据,以及它们是如何相关的;

  3.数据预处理就是利用业务知识来塑造数据使得业務问题可以被提出和解答(更详尽的第三条-准备律);

  4.建模是使用数据挖掘模型评价方法算法创建预测模型,同时解释模型和业务目标的特點也就是说理解它们之间的业务相关性;

  5.评估是模型对理解业务的影响;

  6.实施是将数据挖掘模型评价方法结果作用于业务过程

  總之,没有业务知识数据挖掘模型评价方法过程的每一步都是无效的,也没有“纯粹的技术”步骤业务知识指导过程产生有益的结果,并使得那些有益的结果得到认可数据挖掘模型评价方法是一个反复的过程,业务知识是它的核心驱动着结果的持续改善。

Montgomery在20世纪90年玳对数据挖掘模型评价方法提出的一个观点)Montgomery指出数据挖掘模型评价方法目标涉及到现实的业务,然而数据仅能表示现实的一部分;数据和現实世界是有差距(或“鸿沟”)的在数据挖掘模型评价方法过程中,业务知识来弥补这一差距在数据中无论发现什么,只有使用业务知識解释才能显示其重要性数据中的任何遗漏必须通过业务知识弥补。只有业务知识才能弥补这种缺失这是业务知识为什么是数据挖掘模型评价方法过程每一步骤的核心的原因。

  03准备律:数据预处理比数据挖掘模型评价方法其他任何一个过程都重要

  这是数据挖掘模型评价方法著名的格言数据挖掘模型评价方法项目中最费力的事是数据获取和预处理。非正式估计其占用项目的时间为50%-80%。最简单的解释可以概括为“数据是困难的”经常采用自动化减轻这个“问题”的数据获取、数据清理、数据转换等数据预处理各部分的工作量。

  虽然自动化技术是有益的支持者相信这项技术可以减少数据预处理过程中的大量的工作量,但这也是误解数据预处理在数据挖掘模型评价方法过程中是必须的原因

  数据预处理的目的是把数据挖掘模型评价方法问题转化为格式化的数据,使得分析技术(如数据挖掘模型评价方法算法)更容易利用它数据任何形式的变化(包括清理、最大最小值转换、增长等)意味着问题空间的变化,因此这种分析必须是探索性的

  这是数据预处理重要的原因,并且在数据挖掘模型评价方法过程中占有如此大的工作量这样数据挖掘模型评价方法者可鉯从容地操纵问题空间,使得容易找到适合分析他们的方法

  有两种方法“塑造”这个问题空间。第一种方法是将数据转化为可以分析的完全格式化的数据比如,大多数数据挖掘模型评价方法算法需要单一表格形式的数据一个记录就是一个样例。数据挖掘模型评价方法者都知道什么样的算法需要什么样的数据形式因此可以将数据转化为一个合适的格式。

  第二种方法是使得数据能够含有业务问題的更多的信息例如,某些领域的一些数据挖掘模型评价方法问题数据挖掘模型评价方法者可以通过业务知识和数据知识知道这些。通过这些领域的知识数据挖掘模型评价方法者通过操纵问题空间可能更容易找到一个合适的技术解决方案。

  因此通过业务知识、數据知识、数据挖掘模型评价方法知识从根本上使得数据预处理更加得心应手。数据预处理的这些方面并不能通过简单的自动化实现这個定律也解释了一个有疑义的现象,也就是虽然经过数据获取、清理、融合等方式创建一个数据仓库但是数据预处理仍然是必不可少的,仍然占有数据挖掘模型评价方法过程一半以上的工作量

  此外,就像CRISP-DM展示的那样即使经过了主要的数据预处理阶段,在创建一个囿用的模型的反复过程中进一步的数据预处理的必要的。

  对于数据挖掘模型评价方法者来说天下没有免费的午餐,一个正确的模型只有通过试验(experiment)才能被发现

  机器学习有一个原则:如果我们充分了解一个问题空间(problem space)我们可以选择或设计一个找到最优方案的最有效嘚算法。一个卓越算法的参数依赖于数据挖掘模型评价方法问题空间一组特定的属性集这些属性可以通过分析发现或者算法创建。

  泹是这种观点来自于一个错误的思想,在数据挖掘模型评价方法过程中数据挖掘模型评价方法者将问题公式化然后利用算法找到解决方法。事实上数据挖掘模型评价方法者将问题公式化和寻找解决方法是同时进行的--算法仅仅是帮助数据挖掘模型评价方法者的一个工具。

  有五种因素说明试验对于寻找数据挖掘模型评价方法解决方案是必要的:

  1.数据挖掘模型评价方法项目的业务目标定义了兴趣范圍(定义域)数据挖掘模型评价方法目标反映了这一点;

  2.与业务目标相关的数据及其相应的数据挖掘模型评价方法目标是在这个定义域上嘚数据挖掘模型评价方法过程产生的;

  3.这些过程受规则限制,而这些过程产生的数据反映了这些规则;

  4.在这些过程中数据挖掘模型評价方法的目的是通过模式发现技术(数据挖掘模型评价方法算法)和可以解释这个算法结果的业务知识相结合的方法来揭示这个定义域上的規则;

  5.数据挖掘模型评价方法需要在这个域上生成相关数据,这些数据含有的模式不可避免地受到这些规则的限

  在这里强调一下朂后一点,在数据挖掘模型评价方法中改变业务目标CRISP-DM有所暗示,但经常不易被觉察到广为所知的CRISP-DM过程不是下一个步骤仅接着上一个步驟的“瀑布”式的过程。事实上在项目中的任何地方都可以进行任何CRISP-DM步骤,同样商业理解也可以存在于任何一个步骤

  业务目标不昰简单地在开始就给定,它贯穿于整个过程这也许可以解释一些数据挖掘模型评价方法者在没有清晰的业务目标的情况下开始项目,他們知道业务目标也是数据挖掘模型评价方法的一个结果不是静态地给定。

  Wolpert的“没有免费的午餐”理论已经应用于机器学习领域无偏的状态好于(如一个具体的算法)任何其他可能的问题(数据集)出现的平均状态。这是因为如果我们考虑所有可能的问题,他们的解决方法昰均匀分布的以至于一个算法(或偏倚)对一个子集是有利的,而对另一个子集是不利的

  这与数据挖掘模型评价方法者所知的具有惊囚的相似性,没有一个算法适合每一个问题但是经过数据挖掘模型评价方法处理的问题或数据集绝不是随机的,也不是所有可能问题的均匀分布他们代表的是一个有偏差的样本,那么为什么要应用NFL的结论?答案涉及到上面提到的因素:问题空间初始是未知的多重问题空間可能和每一个数据挖掘模型评价方法目标相关,问题空间可能被数据预处理所操纵模型不能通过技术手段评估,业务问题本身可能会變化

  由于这些原因,数据挖掘模型评价方法问题空间在数据挖掘模型评价方法过程中展开并且在这个过程中是不断变化的,以至於在有条件的约束下用算法模拟一个随机选择的数据集是有效的。对于数据挖掘模型评价方法者来说:没有免费的午餐

  这大体上描述了数据挖掘模型评价方法过程。但是在有条件限制某些情况下,比如业务目标是稳定的数据和其预处理是稳定的,一个可接受的算法或算法组合可以解决这个问题在这些情况下,一般的数据挖掘模型评价方法过程中的步骤将会减少但是,如果这种情况稳定是持續的数据挖掘模型评价方法者的午餐是免费的,或者至少相对便宜的像这样的稳定性是临时的,因为对数据的业务理解(第二律)和对问題的理解(第九律)都会变化的

  05模式律(大卫律):数据中总含有模式

  这条规律最早由David Watkins提出。我们可能预料到一些数据挖掘模型评价方法项目会失败因为解决业务问题的模式并不存在于数据中,但是这与数据挖掘模型评价方法者的实践经验并不相关

  前文的阐述已經提到,这是因为:在一个与业务相关的数据集中总会发现一些有趣的东西以至于即使一些期望的模式不能被发现,但其他的一些有用嘚东西可能会被发现(这与数据挖掘模型评价方法者的实践经验是相关的);除非业务专家期望的模式存在否则数据挖掘模型评价方法项目不會进行,这不应感到奇怪因为业务专家通常是对的。

  然而Watkins提出一个更简单更直接的观点:“数据中总含有模式。”这与数据挖掘模型评价方法者的经验比前面的阐述更一致这个观点后来经过Watkins修正,基于客户关系的数据挖掘模型评价方法项目总是存在着这样的模式即客户未来的行为总是和先前的行为相关,显然这些模式是有利可图的(Watkins的客户关系管理定律)

  但是,数据挖掘模型评价方法者的经驗不仅仅局限于客户关系管理问题任何数据挖掘模型评价方法问题都会存在模式(Watkins的通用律)。

  Watkins的通用律解释如下:

  1.数据挖掘模型評价方法项目的业务目标定义了兴趣范围(定义域)数据挖掘模型评价方法目标反映了这一点;

  2.与业务目标相关的数据及其相应的数据挖掘模型评价方法目标是在这个定义域上的数据挖掘模型评价方法过程产生的;

  3.这些过程受规则限制,而这些过程产生的数据反映了这些規则;

  4.在这些过程中数据挖掘模型评价方法的目的是通过模式发现技术(数据挖掘模型评价方法算法)和可以解释这个算法结果的业务知識相结合的方法来揭示这个定义域上的规则;

  5.数据挖掘模型评价方法需要在这个域上生成相关数据,这些数据含有的模式不可避免地受箌这些规则的限制

  总结这一观点:数据中总存在模式因为在这过程中不可避免产生数据这样的副产品。为了发掘模式过程从(你已經知道它)——业务知识开始。

  利用业务知识发现模式也是一个反复的过程;这些模式也对业务知识有贡献同时业务知识是解释模式的主要因素。在这种反复的过程中数据挖掘模型评价方法算法简单地连接了业务知识和隐藏的模式。如果这个解释是正确的那么大卫律昰完全通用的。除非没有相关的数据的保证否则在每个定义域的每一个数据挖掘模型评价方法问题总是存在模式的。

  06洞察律:数据挖掘模型评价方法增大对业务的认知

  数据挖掘模型评价方法是如何产生洞察力的?这个定律接近了数据挖掘模型评价方法的核心:为什麼数据挖掘模型评价方法必须是一个业务过程而不是一个技术过程业务问题是由人而非算法解决的。数据挖掘模型评价方法者和业务专镓从问题中找到解决方案即从问题的定义域上达到业务目标需要的模式。

  数据挖掘模型评价方法完全或部分有助于这个认知过程數据挖掘模型评价方法算法揭示的模式通常不是人类以正常的方式所能认识到的。综合这些算法和人类正常的感知的数据挖掘模型评价方法过程在本质上是敏捷的在数据挖掘模型评价方法过程中,问题解决者解释数据挖掘模型评价方法算法产生的结果并统一到业务理解仩,因此这是一个业务过程

  这类似于“智能放大器”的概念,在早期的人工智能的领域AI的第一个实际成果不是智能机器,而是被稱为“智能放大器”的工具它能够协助人类使用者提高获取有效信息的能力。数据挖掘模型评价方法提供一个类似的“智能放大器”幫助业务专家解决他们不能单独完成的业务问题。

  总之数据挖掘模型评价方法算法提供一种超越人类以正常方式探索模式的能力,數据挖掘模型评价方法过程允许数据挖掘模型评价方法者和业务专家将这种能力融合在他们的各自的问题的中和业务过程中

  07预测律:预测提高了信息泛化能力

  “预测”已经成为数据挖掘模型评价方法模型可以做什么的可接受的描述,即我们常说的“预测模型”和“预测分析”这是因为许多流行的数据挖掘模型评价方法模型经常使用“预测最可能的结果”(或者解释可能的结果如何有可能)。这种方法是分类和回归模型的典型应用

  但是,其他类型的数据挖掘模型评价方法模型比如聚类和关联模型也有“预测”的特征。这是一個含义比较模糊的术语一个聚类模型被描述为“预测”一个个体属于哪个群体,一个关联模型可能被描述为基于已知基本属性“预测”┅个或更多属性

  同样我们也可以分析“预测”这个术语在不同的主题中的应用:一个分类模型可能被说成可以预测客户行为--更加确切的说它可以预测以某种确定行为的目标客户,即使不是所有的目标个体的行为都符合“预测”的结果一个诈骗检测模型可能被说成可鉯预测个别交易是否具有高风险性,即使不是所有的预测的交易都有欺诈行为

  “预测”这个术语广泛的使用导致了所谓的“预测分析”被作为数据挖掘模型评价方法的总称,并且在业务解决方案中得到了广泛的应用但是我们应该意识到这不是日常所说的“预测”,峩们不能期望预测一个特殊个体的行为或者一个特别的欺诈调查结果

  那么,在这个意义下的“预测”是什么?分类、回归、聚类和关聯算法以及他们集成模型有什么共性呢?答案在于“评分”这是预测模型应用到一个新样例的方式。模型产生一个预估值或评分这是这個样例的新信息的一部分;在概括和归纳的基础上,这个样例的可利用信息得到了提高模式被算法发现和模型具体化。值得注意的是这个噺信息不是在“给定”意义上的“数据”它仅有统计学意义。

  08价值律:数据挖掘模型评价方法的结果的价值不取决于模型的稳定性戓预测的准确性

  准确性和稳定性是预测模型常用的两个度量准确性是指正确的预测结果所占的比例;稳定性是指当创建模型的数据改變时,用于同一口径的预测数据其预测结果变化有多大(或多小)。鉴于数据挖掘模型评价方法中预测概念的核心角色一个预测模型的准確性和稳定性常被认为决定了其结果的价值的大小,实际上并非如此

  体现预测模型价值的有两种方式:一种是用模型的预测结果来妀善或影响行为,另一种是模型能够传递导致改变策略的见解(或新知识)

  对于后者,传递出的任何新知识的价值和准确性的联系并不那么紧密;一些模型的预测能力可能有必要使我们相信发现的模式是真实的然而,一个难以理解的复杂的或者完全不透明的模型的预测结果具有高准确性但传递的知识也不是那么有见地;然而,一个简单的低准确度的模型可能传递出更有用的见解

  准确性和价值之间的汾离在改善行为的情况下并不明显,然而一个突出问题是“预测模型是为了正确的事还是为了正确的原因?”换句话说,一个模型的价值囷它的预测准确度一样都源自它的业务问题。

  例如客户流失模型可能需要高的预测准确度,否则对于业务上的指导不会那么有效相反的是一个准确度高的客户流失模型可能提供有效的指导,保留住老客户但也仅仅是最少利润客户群体的一部分。如果不适合业务問题高准确度并不能提高模型的价值。

  模型稳定性同样如此虽然稳定性是预测模型的有趣的度量,稳定性不能代替模型提供业务悝解的能力或解决业务问题其它技术手段也是如此。

  总之预测模型的价值不是由技术指标决定的。数据挖掘模型评价方法者应该茬模型不损害业务理解和适应业务问题的情况下关注预测准确度、模型稳定性以及其它的技术度量

  09变化律:所有的模式因业务变化洏变化

  数据挖掘模型评价方法发现的模式不是永远不变的。数据挖掘模型评价方法的许多应用是众所周知的但是这个性质的普遍性沒有得到广泛的重视。

  数据挖掘模型评价方法在市场营销和CRM方面的应用很容易理解客户行为模式随着时间的变化而变化。行为的变囮、市场的变化、竞争的变化以及整个经济形势的变化预测模型会因这些变化而过时,当他们不能准确预测时应当定期更新。

  数據挖掘模型评价方法在欺诈模型和风险模型的应用中同样如此随着环境的变化欺诈行为也在变化,因为罪犯要改变行为以保持领先于反欺诈欺诈检测的应用必须设计为就像处理旧的、熟悉的欺诈行为一样能够处理新的、未知类型的欺诈行为。

  某些种类的数据挖掘模型评价方法可能被认为发现的模式不会随时间而变化比如数据挖掘模型评价方法在科学上的应用,我们有没有发现不变的普遍的规律?也許令人惊奇的是答案是即使是这些模式也期望得到改变。理由是这些模式并不是简单的存在于这个世界上的规则而是数据的反应--这些規则可能在某些领域确实是静态的。

  然而数据挖掘模型评价方法发现的模式是认知过程的一部分,是数据挖掘模型评价方法在数据描述的世界与观测者或业务专家的认知之间建立的一个动态过程因为我们的认知在持续发展和增长,所以我们也期望模式也会变化明忝的数据表面上看起来相似,但是它可能已经集合了不同的模式、(可能巧妙地)不同的目的、不同的语义;分析过程因受业务知识驱动所以會随着业务知识的变化而变化。基于这些原因模式会有所不同。

  总之所有的模式都会变化,因为他们不仅反映了一个变化的世界也反映了我们变化的认知。

  这九条定律是关于数据挖掘模型评价方法的简单的真知这九条定律的大部分已为数据挖掘模型评价方法者熟知,但仍有一些不熟悉(例如第五、第六、第七)。大多数新观点的解释都和这九条定律有关它试图解释众所周知的数据挖掘模型評价方法过程中的背后的原因。

  表示数据挖掘模型评价方法的九条定律及其解释说明:技术的发展不会改变数据挖掘模型评价方法过程的本质这九条定律以及这些思想的进一步发展,除了有对数据挖掘模型评价方法者的教育价值之外应该被用来判别未来任何数据挖掘模型评价方法过程革命性变化的诉求。

解决分类问题有多种思路包括應用支持向量机、决策树等。还有一种较常规的做法是采用广义线性回归中的logistic回归或probit回归广义线性回归是探索“响应变量的期望”与“洎变量”的关系,以实现对非线性关系的某种拟合这里面涉及到一个“连接函数”和一个“误差函数”,“响应变量的期望”经过连接函数作用后与“自变量”存在线性关系。选取不同的“连接函数”与“误差函数”可以构造不同的广义回归模型当误差函数取“二项汾布”而连接函数取“logit函数”时,就是常见的“logistic回归模型”在0-1响应的问题中得到了大量的应用。

logistic回归的公式可以表示为:

其中P是响应变量取1的概率在0-1变量的情形中,这个概率就等于响应变量的期望

可以看出,logistic回归是对0-1响应变量的期望做logit变换然后与自变量做线性回归。参数估计采用极大似然估计显著性检验采用似然比检验。

建立模型并根据AIC准则选择模型后可以对未知数据集进行预测,从而实现分類模型预测的结果是得到每一个样本的响应变量取1的概率,为了得到分类结果需要设定一个阈值p0——当p大于p0时,认为该样本的响应变量为1否则为0。阈值大小对模型的预测效果有较大影响需要进一步考虑。首先必须明确模型预测效果的评价指标

对于0-1变量的二分类问題,分类的最终结果可以用表格表示为:

其中d是“实际为1而预测为1”的样本个数,c是“实际为1而预测为0”的样本个数其余依此类推。

顯然地主对角线所占的比重越大,则预测效果越佳这也是一个基本的评价指标——总体准确率(a+d)/(a+b+c+d)。

通常将上述矩阵称为“分类矩阵”┅般情况下,我们比较关注响应变量取1的情形将其称为Positive(正例),而将响应变量取0的情形称为Negative(负例)常见的例子包括生物实验的响應、营销推广的响应以及信用评分中的违约等等。针对不同的问题与目的我们通常采用ROC曲线与lift曲线作为评价logistic回归模型的指标。

正因为我們比较关注正例的情形所以设置了两个相应的指标:TPR与FPR。

TPR也称为Sensitivity(即生物统计学中的敏感度)在这里也可以称为“正例的覆盖率”——将实际为1的样本数找出来的概率。覆盖率是重要的指标例如若分类的目标是找出潜在的劣质客户(响应变量取值为1),则覆盖率越大表示越多的劣质客户被找出

类似地,1-FPR其实就是“负例的覆盖率”也就是把负例正确地识别为负例的概率。

TPR与FPR相互影响而我们希望能夠使TPR尽量地大,而FPR尽量地小影响TPR与FPR的重要因素就是上文提到的“阈值”。当阈值为0时所有的样本都被预测为正例,因此TPR=1而FPR=1。此时的FPR過大无法实现分类的效果。随着阈值逐渐增大被预测为正例的样本数逐渐减少,TPR和FPR各自减小当阈值增大至1时,没有样本被预测为正唎此时TPR=0,FPR=0

由上述变化过程可以看出,TPR与FPR存在同方向变化的关系(这种关系一般是非线性的)即,为了提升TPR(通过降低阈值)意味著FPR也将得到提升,两者之间存在类似相互制约的关系我们希望能够在牺牲较少FPR的基础上尽可能地提高TPR,由此画出了ROC曲线

当预测效果较恏时,ROC曲线凸向左上角的顶点平移图中对角线,与ROC曲线相切可以得到TPR较大而FPR较小的点。模型效果越好则ROC曲线越远离对角线,极端的凊形是ROC曲线经过(01)点,即将正例全部预测为正例而将负例全部预测为负例ROC曲线下的面积可以定量地评价模型的效果,记作AUCAUC越大则模型效果越好。

由于ROC曲线描述了在TPR与FPR之间的取舍因此我一般将其理解为投入产出曲线,receive of cost(事实上我理解错了。相对而言lorenz曲线更适合这個名字当然啦其实FPR可以理解为另一种cost。)

当我们分类的目标是将正例识别出来时(例如识别有违约倾向的信用卡客户)我们关注TPR,此時ROC曲线是评价模型效果的准绳

在营销推广活动(例如DM信)中,我们的首要目标并不是尽可能多地找出那些潜在客户而是提高客户的响應率。客户响应率是影响投入产出比的重要因素此时,我们关注的不再是TPR(覆盖率)而是另一个指标:命中率。

回顾前面介绍的分类矩阵正例的命中率是指预测为正例的样本中的真实正例的比例,即d/(b+d)一般记作PV。

在不使用模型的情况下我们用先验概率估计正例的比唎,即(c+d)/(a+b+c+d)可以记为k。

lift揭示了logistic模型的效果例如,若经验告诉我们10000个消费者中有1000个是我们的潜在客户则我们向这10000个消费者发放传单的效率昰10%(即客户的响应率是10%),k=(c+d)/(a+b+c+d)=10%通过对这10000个消费者进行研究,建立logistic回归模型进行分类我们得到有可能比较积极的1000个消费者,b+d=1000如果此时这1000個消费者中有300个是我们的潜在客户,d=300则命中率PV为30%。

此时我们的提升值lift=30%/10%=3,客户的响应率提升至原先的三倍提高了投入产出比。

为了画lift圖需要定义一个新的概念depth深度,这是预测为正例的比例(b+d)/(a+b+c+d)。

与ROC曲线中的TPR和FPR相同lift和depth也都受到阈值的影响。

当阈值为0时所有的样本都被預测为正例,因此depth=1而PV=d/(b+d)=(0+d)/(0+b+0+d)=k,于是lift=1模型未起提升作用。随着阈值逐渐增大被预测为正例的样本数逐渐减少,depth减小而较少的预测正例样本Φ的真实正例比例逐渐增大。当阈值增大至1时没有样本被预测为正例,此时depth=0而lift=0/0。

由此可见lift与depth存在相反方向变化的关系。在此基础上莋出lift图:

与ROC曲线不同lift曲线凸向(0,1)点我们希望在尽量大的depth下得到尽量大的lift(当然要大于1),也就是说这条曲线的右半部分应该尽量陡峭

至此,我们对ROC曲线和lift曲线进行了描述这两个指标都能够评价logistic回归模型的效果,只是分别适用于不同的问题:

如果是类似信用评分嘚问题希望能够尽可能完全地识别出那些有违约风险的客户(不使一人漏网),我们需要考虑尽量增大TPR(覆盖率)同时减小FPR(减少误殺),因此选择ROC曲线及相应的AUC作为指标;

如果是做类似数据库较精确营销的项目希望能够通过对全体消费者的分类而得到具有较高响应率的客户群,从而提高投入产出比我们需要考虑尽量提高lift(提升度),同时depth不能太小(如果只给一个消费者发放传单虽然响应率较大,却无法得到足够多的响应)因此选择lift曲线作为指标。

按照惯例我们来做一个试验。试验的问题来自我的毕业论文研究高炉铁水硅質量分数的波动情况。

简单地说我们的响应变量是高炉铁水硅质量分数的波动方向,记作SI0当其取1时,表示本炉铁水硅质量分数比上一爐小当其取0时,表示本炉铁水硅质量分数比上一炉大(之所以这样设定,是因为通常情况下更需要关注炉温向凉的情形)自变量选取为前一炉硅质量分数、前一炉料速、前一炉风量、前两炉料速。

选取了350炉数据分为两组,分别用于建模与预测

将阈值定为0.5得到分类結果

我要回帖

更多关于 数据挖掘模型评价方法 的文章

 

随机推荐