IBM调查suv是什么意思思

保持登录。
单击提交则表示您同意developerWorks 的条款和条件。 查看条款和条件.
在您首次登录 developerWorks 时,会为您创建一份个人概要。您的个人概要中的信息(您的姓名、国家/地区,以及公司名称)是公开显示的,而且会随着您发布的任何内容一起显示,除非您选择隐藏您的公司名称。您可以随时更新您的 IBM 帐户。
所有提交的信息确保安全。
当您初次登录到 developerWorks 时,将会为您创建一份概要信息,您需要指定一个昵称。您的昵称将和您在 developerWorks 发布的内容显示在一起。昵称长度在 3 至 31 个字符之间。 您的昵称在 developerWorks 社区中必须是唯一的,并且出于隐私保护的原因,不能是您的电子邮件地址。
单击提交则表示您同意developerWorks
的条款和条件。 .
所有提交的信息确保安全。
developerWorks 社区:
我的概要信息
选择语言:
线性回归模型是一种常用的统计学模型。IBM SPSS Modeler 是一个强大的数据挖掘分析工具,
本文将介绍如何用它进行线性回归预测模型的建立和使用。
在本文中,将通过建立一个理赔欺诈检测模型的实例来展示如何利用 IBM SPSS Modeler 建立线性回归预测模型以及如何解释及应用该模型。
, 软件工程师,
廖志刚,IBM SPSS Modeler 软件工程师,2006 年加入 IBM/SPSS 公司,专注于统计分析软件的开发,目前从事身份分析在 SPSS Modeler 中的应用。
, 软件工程师,
陈刚,IBM SPSS Modeler 软件工程师,加入 IBM/SPSS 四年,对 Modeler 客户端和服务器的开发有比较丰富的经验。
, 软件工程师,
杨家飞,IBM SPSS Modeler 软件工程师,主要关注 Cognos 以及 Entity Analytics。
回归分析(Regression Analysis)是一种统计学上对数据进行分析的方法,
主要是希望探讨数据之间是否有一种特定关系。线性回归分析是最常见的一种回归分析,
它用线性函数来对因变量及自变量进行建模(自变量和因变量都必须是连续型变量),
这种方式产生的模型称为线性模型。线性回归模型由于其运算速度快、直观性强以及参数易于确定等特点,
在实践中应用最为广泛,也是建立预测模型的重要手段之一。
IBM SPSS Modeler 是一组数据挖掘工具,通过这些工具可以采用商业技术快速建立预测性模型,
并将其应用于商业活动,从而改进决策过程。在后面的文章中,将通过一个理赔欺诈检测的实际
商业应用来介绍如何用 IBM SPSS Modeler 建立、分析及应用线性回归分析模型。
用线性回归建立理赔欺诈检测模型
在本例中,用于建立模型的数据存放在 InsClaim.dat 中,该文件是一个 CSV 格式的数据文件,
存储了某医院以往医疗保险理赔的历史记录。该文件共有 293 条记录,每条记录有 4 个字段,
分别是 ASG(疾病严重程度)、AGE(年龄)、LOS(住院天数)和 CLAIM(索赔数额)。
图 1 显示了该数据的部分内容。
图 1. 历史理赔数据文件任务与计划
基于已有的数据,我们的任务主要有如下内容:
建立理赔金额预测模型,该模型将基于病人的疾病严重程度、住院天数及年龄预测其索赔金额。假设模型匹配良好,分析那些与预测误差较大的病人资料。通过模型来进行索赔欺诈预测。
根据经验及对数据进行的初步分析(这个数据初步分析可以通过 IBM SPSS Modeler 的功能实现,此处不是重点,
故不做深入介绍),可以猜测理赔金额与疾病严重程度、住院天数以及年龄存在线性相关关系,因此我们将首先
选用线性回归模型进行建模,因此可以得到下面这样一个初步计划:
应用线性回归分析来建立模型。如果模型匹配度不佳,则可能应用更加复杂的模型,例如神经网络、规则推导等。
基于上面的分析,我们容易得到目标模型的因变量为 CLAIM,自变量为 ASG、AGE 和 LOS。在建立模型之前,我们可以
对该模型进行一些猜测,以下是根据经验能想到的一些假设:
随着住院天数的增加,索赔金额增加随着疾病严重程度的增加,索赔金额增加随着年龄的增加,索赔金额增加在建立好模型后,我们会根据模型来验证或推翻这些假设。用 IBM SPSS Modeler 创建 stream 文件
根据任务要求,我们在 IBM SPSS Modeler 中建立如图 2 所示的 stream 文件。在该 stream 中,InsClaim.dat 作为数据源节点,
它通过一个类型节点(type)进行数据处理后输入到模型节点(CLAIM),在本例中,输出节点(table)作为一个测试节
点,可以用于查看类型节点处理后产生的数据。
图 2. 理赔预测模型 stream 示例图设置类型(type)节点
从前面的分析可见,CLAIM 是因变量,在类型节点中须作为目标变量(Target),而其余三个字段(ASG、AGE 和 LOS)
则是自变量,在类型节点中须设置为输入变量(Input)。
需要注意的是,在线性回归分析模型中,要求所有变量(包括自变量和因变量)都是连续类型。
如果数据中有非数字类型,比如 Category 或者 Flag,则需要预先转换为数字型。图 3 显示了类型节点设置的具体情况。
图 3. 类型节点设置图模型节点设置
在设置好类型节点后,我们可以双击 CLAIM 节点,对模型节点进行设置。首先设置 Model 标签页中的选项。
从图 4 可以看到设置的具体信息,Model Name 有自动和定制两种类型,在自动方式下,模型名称自动设置
为目标变量的名字(CLAIM)。本模型的输入信息并没有分组,因此 Use partitioned data 和 Build model for each split
的选择与否并无关系。Method 选项将选择输入字段的选择方式,由于本例中的输入字段较少,可以使用默认的 Enter 模式。
在字段较多的情况下,可以选择 StepWise、Forward 和 Backward 中的一种,它们会采用不同的统计学方式对输入字段进行筛选。
Include constant in equation 选项表示模型中是否包含常量(即截距),在本例中,由于每次理赔会有一个起始额度,因此选中该选项。
图 4. 模型节点的 Model 页设置图
在 Expert 页中可以设置一些模型的高级选项。在我们选择了专家模式后,可以设置两个选项内容:
Missing Values ——当选中该选项,会忽略那些含有 Missing Value 的记录。
(默认选项,通常应该使用这个选项,除非你非常有经验,清楚知道 Missing Value 对该模型的影响)Singularity tolerance ——用来防止相关变量影响模型准确度。
该值越小,表示相似性越高,也就说明排除的可能性越低。有些统计师倾向于把
该值设置的稍大,比如 .05(在本例中是 .0001)
在点击 output 按钮后还可以选择输出的选项,这里不加以详细描述。
运行模型在模型节点的编辑页面中点击 [Run] 按钮即可运行(也可以关闭设置后通过菜单和工具栏运行),
运行后将产生一个 Nugget,Nugget 是 IBM SPSS Modeler 对生成模型的称呼。双击该 Nugget 即可查看生
成模型的信息。图 5 显示了 stream 中产生的 Nugget 图。
图 5. 运行模型生成的 Nugget模型分析结果
双击 Nugget 打开的生成模型信息中,首先查看 Analysis Summary 窗口,这里可以看到模型的分析结果。
我们可以看到该模型的方程已经建立。但是在关注模型方程之前,应该首先看看该生成模型是否是统计学显著的。
从该模型的显著性分析可以看出(见图 6),该模型的显著几率 & 0.0005,可以说非常显著,因此生成的模型具有统计学意义。
图 6. 生成模型的显著性结果
让我们回头再看所生成的模型方程(见图 7),可以看出理赔预测模型方程为:
CLAIM(E) = ASG*417.2 - AGE*33.41 + LOS*1105.6 + 3026.8
图 7. 生成模型的模型方程模型解释
还记得我们在建模之前提出的假设么?让我们对之一一进行验证:
随着住院天数的增加,索赔金额增加
--- YES随着疾病严重程度的增加,索赔金额增加
--- YES随着年龄的增加,索赔金额增加
从模型方程可以看出,索赔的金额随着住院天数和疾病严重程度的增加会相应增加,然而,当年龄增加时,
理赔金额反而会下降。可能的原因是:1)年龄越小,疾病越严重,因此理赔额越高;2)不同年龄段的医疗保
险政策不同,年龄越长的客户保险公司给出的理赔金额越低。当然,具体的真正原因,还要找领域专家确定。
预测因子之间的重要性也不尽相同,在统计学中,该重要性通过图 8 中的 Beta 检验值来确定,具体规则是,
根据 Beta 值的绝对值排序,值越大,越重要。由图 8 中可见,在理赔金额中,最重要的因素是住院天数,而
年龄因素的重要性最低。这也是符合一般的常识的。
图 8. 预测因子重要性及误差区间
另外一个需要考量的因素是误差区间,该区间决定了应该怎样去预测未来的索赔金额是否合理。在图 8 中的
Unstandardized Coefficients 的 B 和 Std. Error 两列表示了一个预测区间,它的含义是
[B-Std.Error, B+Std.Error] 的区间具有 95% 的可信性。以住院天数(LOS)为例,它的 B 为 ,Std. Error 为
103.6,这意味着如果住院天数每增加一天,那么理赔增加的金额将落在 [.6, .6] 区间上,
即增加约 1000 到 1200 元之间,其可信性度为 95%。反之,若碰到的客户索赔增加的金额没有落在这个区间之内,那么
这种客户就有较大可能是索赔欺诈,那么工作人员就应该仔细审查。
在做完了这些之后,我们还可以对已有的历史记录进行分析,找出以往数据中的奇异点,以供领域专家进行分析。
找出奇异点
为了找出奇异点,我们可以创建一个 Derive 节点,让它的前向数据源为生成的 Nugget,它要衍生出来的字段名称为 DIFF,其数据值为实际的理赔额和预测的理赔额之差,即:
DIFF = CLAIM - '$E-CLAIM'
具体设置参见图 9。
图 9. Derive 节点设置图
观察 DIFF 数据,可以找出奇异点的数据,为了方便找出奇异点,可以使用直方图来帮助查找,从图 10 中,
可以看出,实际理赔额处在
之间的数据为明显奇异点,应找领域专家来对这些数据进行具体分析。
图 10. 用直方图帮助查找奇异点结束语
通过本文,您了解了如何通过 IBM SPSS Modeler 创建基于线性回归分析的预测分析模型,并了解到如何设置、
创建、分析、理解和应用模型。这样,您就可以通过 IBM SPSS Modeler 简易的数据流风格方便快速地创建和应用一个模型。
本文中的理赔欺诈预测模型示例,用一个完整的流文件演示了怎样设置数据数据;怎样设置模型参数;
怎样通过 IBM SPSS Modeler 提供的数据分析和理解模型;并介绍了如何分析奇异点。通过此示例,您可以立刻就动手创建自己的模型。
访问 ,可以了解回归分析的基本概念和相关信息。
访问 ,可以了解线性回归分析的基本概念和相关信息。
访问 ,可以获得 IBM SPSS Modeler 产品的相关信息。
访问 专区,了解信息管理相关的技术文章、在线教程、多媒体课程等技术资源。
随时关注 developerWorks 和 。
,体验强大的 DB2®,Lotus®,Rational®,Tivoli®和
WebSphere®软件。。查看
的最新信息,并加入 ,
developerWorks 社区是一个面向全球 IT 专业人员,可以提供博客、书签、wiki、群组、联系、共享和协作等社区功能的专业社交网络社区。
developerWorks: 登录
标有星(*)号的字段是必填字段。
保持登录。
单击提交则表示您同意developerWorks 的条款和条件。 查看条款和条件。
在您首次登录 developerWorks 时,会为您创建一份个人概要。您的个人概要中的信息(您的姓名、国家/地区,以及公司名称)是公开显示的,而且会随着您发布的任何内容一起显示,除非您选择隐藏您的公司名称。您可以随时更新您的 IBM 帐户。
所有提交的信息确保安全。
选择您的昵称
当您初次登录到 developerWorks 时,将会为您创建一份概要信息,您需要指定一个昵称。您的昵称将和您在 developerWorks 发布的内容显示在一起。昵称长度在 3 至 31 个字符之间。
您的昵称在 developerWorks 社区中必须是唯一的,并且出于隐私保护的原因,不能是您的电子邮件地址。
标有星(*)号的字段是必填字段。
(昵称长度在 3 至 31 个字符之间)
单击提交则表示您同意developerWorks 的条款和条件。 .
所有提交的信息确保安全。
IBM PureSystems(TM) 系列解决方案是一个专家集成系统
通过学习路线图系统掌握软件开发技能
软件下载、试用版及云计算
static.content.url=/developerworks/js/artrating/SITE_ID=10Zone=Information ManagementArticleID=768055ArticleTitle=用 IBM SPSS Modeler 建立线性回归预测模型publish-date=IBM中国研究院_百度百科
特色百科用户权威合作手机百科 收藏 查看&IBM中国研究院
IBM中国研究院1995年成立于中国北京是IBM在全球设立的12大研究机构之一2008年IBM中国研究院上海分院成立多年来IBM中国研究院一直稳步成长已成为中国最具声望及被广泛认可的研究机构之一IBM中国研究院的研究领域横跨多个学科及行业目前的重点研究课题包括大数据分析云计算物联网及认知计算的技术创新及应用IBM中国研究院一直致力于运用前沿技术解决行业的关键问题目前在电力与能源物流与供应链医疗电信及金融服务等领域均有相关解决方案展望未来IBM中国研究院将充分利用IBM全球研究院先进的技术和优秀的人才通过与政府高校及商业伙伴的合作助力社会的技术创新与持续发展外文名IBM Research - China成立时间1995年 9月
目前IBM中国研究院的重点研究领域有以下四个IBM中国研究院一直致力于运用前沿技术解决行业的关键问题目前在很多领域都有相关解决方案  环境治理由IBM中国研究院牵头整合IBM全球实验室的研发力量共同推出的绿色地平线计划(Green Horizon)已于2014年7月正式启动该计划旨在针对社会可持续发展的三大难题大气污染防治可再生能源高效利用和企业节能减排推出全球领先的实践范例支持中国实现环境治理和能源转型从而提升民众健康保障并实现可持续发展目标
能源与电力电力是关系国计民生的重要行业为满足中国不断增长的智能电网计划需求的战略我们成立了能源与公用事业解决方案中心我们的研究围绕智慧能源和智能电网针对能源行业的核心环节和挑战展开相关解决方案的研发包括智慧能源基础支撑平台新能源预测与并网协调配电网络规划优化智能停电计划优化等促进整个能源价值链的优化
物流与供应链中国是世界生产制造大国同时也长期面临着物流成本占本国GDP比率居高不下的困局在促进经济高速健康发展的大背景下IBM中国研究院借鉴国际经验十余年来专注从事物流和供应链解决方案研发和项目实施致力于为政府和企业建立完善而富有效率的物流与供应链体系从而为经济运行质量和效益的持续提升提供重要保障
智慧商务中国电子商务的蛙跳式发展以及正在兴起的移动商务O2O商务模式等对中国相关企业如何基于大数据捕捉消费者需求并且通过优化自身的供应能力及运作能力满足个性化的消费者需求提出了更高的要求IBM中国研究院通过数据分析仿真优化大规模数学规划模型等方法帮助中国企业在复杂的商业环境下改善运作提高效率提升消费者满意度通过与国外研究人员的长期沟通交流及合作科研引进国外先进的经验结合中国的实际特点帮助中国从业企业达到国际领先水平
金融服务IBM在金融服务业和银行业拥有几十年的经验提供丰富的业务咨询融资和信息技术服务我们通过大数据分析感知计算等解决方案对客户行为和金融产品进行分析获取深入的客户洞察提供产品和服务推荐沃森Watson作为IBM独特的产品将IBM定位于认知计算和系统领域的领导者在中国很多领域对于沃森和能够理解中文的认知计算功能具有很强的需求如金融领域的理财管理保险业理赔商业领域的社交媒体分析医疗领域的慢性疾病控制跨行业的呼叫中心服务等等IBM中国研究院借鉴英文成功案例正在全力打造世界一流的认知计算团队开发核心认知计算算法理解中文结构化和非结构化数据寻求技术突破打造具有中国特色的认知系统和解决方案例如认知理财顾问系统目前主要的研究领域包括中文自然语言处理深度阅读和理解语义知识提取建模推理和管理概念关系和图语音和多媒体分析推理和对话管理器多种机器学习深度学习和其他认知算法IBM中国研究院诚邀行业引领者成为合作伙伴IBM中国研究院在的运算即服务领域主要从事以下三方面的开发与研究  1.物联网云计算研究重点是1) 物联网云平台2) 基于物联网数据的分析及服务3) 物联网的行业应用及解决方案; 4) 先进传感器技术及应用
2.云计算基础设施与云服务研究重点是1) 基于OpenStack的云计算基础设施(IaaS)及运维技术2) 混合云架构及方案3) DevTest 及 DevOps 工具及服务4) 基于OpenPOWER的开放平台及系统5) 大数据时代的基础设施架构
3.平台即服务(PaaS)研究重点是PaaS服务中的核心技术包括1) 数据和分析服务2) 应用性能管理服务 3) 内容管理服务等IBM中国研究院自2009年开始物联网相关的探索和研究, 在高性能无线专用物联网通信系统大规模物联网数据处理中间件平台等领域取得了诸多技术上的突破并在智慧电网 智慧油田智慧城市等领域开发了物联网行业解决方案, 与行业领先的客户和合作伙伴一起建立了成功示范及商业推广项目随着大数据及云计算技术的迅猛发展 2014年初IBM中国研究院提出了物联网3.0的行业发展趋势, 以推动物联网与大数据及云计算平台的技术及商业模式融合目前IBM中国研究院正在领导IBM在全球范围内的物联网创新项目研究开发与行业合作重点关注方向包括物联网服务开发与运营云平台, 以支持众多行业物联网应用开发商快速高效地开发及运营物联网云服务在分布式新能源行业设备资产管理车联网互联医疗家电联网等行业领域的物联网云服务等
新手上路我有疑问投诉建议参考资料 查看保持登录。
单击提交则表示您同意developerWorks 的条款和条件。 查看条款和条件.
在您首次登录 developerWorks 时,会为您创建一份个人概要。您的个人概要中的信息(您的姓名、国家/地区,以及公司名称)是公开显示的,而且会随着您发布的任何内容一起显示,除非您选择隐藏您的公司名称。您可以随时更新您的 IBM 帐户。
所有提交的信息确保安全。
当您初次登录到 developerWorks 时,将会为您创建一份概要信息,您需要指定一个昵称。您的昵称将和您在 developerWorks 发布的内容显示在一起。昵称长度在 3 至 31 个字符之间。 您的昵称在 developerWorks 社区中必须是唯一的,并且出于隐私保护的原因,不能是您的电子邮件地址。
单击提交则表示您同意developerWorks
的条款和条件。 .
所有提交的信息确保安全。
developerWorks 社区:
我的概要信息
选择语言:
IBM SPSS Statistics 是目前世界上主流的数据预测统计分析软件之一,其中的客户直销分析模块是为市场营销人员量身打造的简单而有效的应用功能,本文结合实际市场营销人员面临的问题,介绍如何使用客户直销分析模块通过 RFM 分析功能深入了解客户,从而帮助您针对不同的客户制定 Smart 营销策略提供更可靠的依据。
, 软件工程师,
陈娜,工作于 IBM China Development Lab(Xi ’ an) SPSS Statistics 测试部门,专注于 IBM SPSS Statistics 客户直销分析模块功能测试及
数据存取测试。
, 软件工程师,
杨阳,有多年软件测试开发经验,工作于 IBM China Development Lab(Xi ’ an) SPSS Statistics 测试部门,专注于 IBM SPSS Statistics 产品功能测试及自动化测试。
, 软件工程师,
周志获,工作于 IBM China Development Lab(Xi'an) SPSS Statistics 测试部门,IBM SPSS Statistics 产品功能测试及项目管理。
IBM SPSS Statistics 客户直销模块介绍IBM SPSS Statistics 统计分析预测软件是一款在调查统计行业,市场研究,医学统计,政府和企业的数据分析应用中久享盛名的统计分析工具,是世界上最早的统计分析软件,在全球有大量的企业和个人用户。虽然 IBM SPSS Statistics 中的统计分析功能强大,但需要依赖于丰富的统计分析背景知识进行操作,因此不便于一般的商业用户使用。为此在 18 版本后,IBM SPSS Statistics 新增加了客户直销模块,该模块的操作界面简单明了,结果报告分析清晰易懂,可以广泛的应用于电信,零售,银行,保险,证券,传媒,市场研究等行业领域,是为市场营销人员精心设计的用以提高直销效率,改善直销活动效果的工具。打开 IBM SPSS Statistics, 在菜单中选择“直销”-&“选择方法”,就进入“直销”模块选择方法界面,如图 1 所示。图 1. 直销模块选择方法界面在“直销”模块中,分为三部分:了解我的联系人,用于对客户信息进行分析,将客户根据不同特征进行分类。改进我的市场营销活动,预测客户对营销活动的响应率。对我的数据评分,利用“选择最有可能购买的联系人”和其他模块中的多种程序构建预测模型,根据预测模型对新的客户数据评分。本文将介绍直销模块的第一部分“了解我的联系人”:分析帮助标识我的最佳联系人(RFM 分析)通过本文,你可以了解如何使用客户直销分析模块中的 RFM 分析功能来了解目标客户,从而帮助你针对不同的客户制定 Smart 营销策略提供更可靠的依据。如何使用 RFM 分析来了解目标客户RFM 是在众多的客户关系管理 (CRM) 的分析模式中,被广泛提到的模型之一。该模型应用于衡量客户价值和客户创造利润能力的分析。RFM 模型通过一个客户的最近一次消费(Regency)、消费总体频率(Frequency)以及消费金额(Monetary)对客户进行 RFM 打分,根据客户的 RFM 得分来描述该客户的价值状况。最近一次消费
最近上一次消费时间是评价客户价值的一个重要指标。理论上,最近购买产品或者服务的顾客,最有可能成为再次光顾的消费者,对推出的新品也最有可能做出反应。消费总体频率
消费总体频率是在限定时间内的购买次数。最常购买的顾客,也是满意度最高的顾客。消费金额
消费金额是在限定时间期间购买金额的总和。根据“帕雷托”法则——通常 80% 的利润来自 20% 的重要客户,消费金额越多的客户是越需要维系关系的客户。根据以上三个指标,对客户进行评级。在此假设三个指标的级别分别为从 1 到 5,5 为最高级别:基于最近购买日期或自最近购买以来的时间间隔,消费日期越近或时间间隔越短,客户等级越高,为 5。反之,客户等级越低,为 1。针对客户消费频率,为客户分配一个频率等级,其中较高的值代表购买频率较高。例如,将最常购买的客户的购买频率等级评为 5。按消费金额对客户进行评级,其中消费金额值最高的客户将获得最高等级 5。将客户的三个指标等级合并就得到 RFM 得分。RFM 得分最高的客户即为对新产品最有可能做出反应的客户。例如,某客户最近一次消费、消费总体频率和消费金额的等级分别是 4、3、5,则该客户的 RFM 得分即为 435。应用背景及数据描述某公司要对一种新产品进行推销。市场部门希望通过对客户进行 RFM 分析,了解客户的价值状况。根据客户的 RFM 得分,制定有针对性的营销策略,来维护客户关系,提高客户忠诚度。销售部门中有以 Excel 表格式存储的客户信息,rfm_transactions 表中包括客户 ID,购买产品编号,购买日期和交易金额,如图 2 所示。图 2. rfm_transactions.xls 概要信息数据准备IBM SPSS Statistics 读入 Excel 数据,具体步骤及设置请见参考资料“数据预测统计分析产品 IBM SPSS Statistics 实例应用讲解”中的 IBM SPSS Statistics 实例应用分析部分,在此不再累述。客户直销模块 RFM 分析应用通过 IBM SPSS Statistics 中简便快捷的“直销”菜单就可以对数据进行 RFM 分析。进入菜单:“直销”-&“选择方法”,在“直销”模块中选择“帮助标识我的最佳联系人(RFM 分析)”按钮,如图 3 所示。图 3. “帮助标识我的最佳联系人(RFM 分析)”按钮点击“继续”按钮进入“RFM 分析:数据格式”对话框,如图 4 所示。图 4. “RFM 分析:数据格式”对话框RFM 数据格式RFM 分析根据数据行表示的含义分为来自交易数据的 RFM 分析和来自客户数据的 RFM 分析。来自交易数据的 RFM 分析当数据行表示单笔交易记录,选择交易数据的 RFM 分析。交易数据举例如图 5 所示,数据列中包含客户 ID,购买的产品编号,购买该产品的日期和消费金额;数据行表示一个客户的一条购买记录,一个客户可有多条购买记录。图 5. 交易数据来自客户数据的 RFM 分析当数据行表示单个客户的交易记录,选择客户数据的 RFM 分析。客户数据举例如图 6 所示,数据列中包含客户 ID,该客户消费的总金额、最近一次购买日期、购买总次数和最近一次购买时间间隔。图 6. 客户数据由于本例中数据是交易类型的数据,直接选择“交易数据”点击“继续”按钮进入“交易数据的 RFM 分析”对话框,如图 7 所示。如果数据是客户类型的数据,请选择“客户数据”。具体设置在后面详述。图 7. “交易数据的 RFM 分析”对话框“变量”页面在“变量”页面中将变量“客户 ID”,“购买日期”和“交易金额”分别选入对应的“客户标识符”,“交易日期”和“交易金额”文本框。在“摘要方法”下拉框中有四种汇总每个客户交易金额的方法:总计(交易金额总额),均值,中位数或最大值(最高交易金额)。在本数据中,交易金额是单次购买产品的单价,所以选择“总计”。进入“离散化”页面,如图 8 所示。图 8. “交易数据的 RFM 分析”对话框“离散化”页面在 RFM 分析中,需要将最近一次消费、消费总体频率以及消费金额进行分级,在对数据的实际操作中就是将大量数值分类,称之为“离散化”。在“离散化”页面中可以设定将数值分类的方法。在“离散化方法”框中可以定义数据是按照三个指标的优先级依次分类或三个指标独立分类。在 RFM 分析结果输出中,类别对应着相应的块。在“块数”框中可以指定三个指标的块数。每个指标可选择 1 到 9 级进行分块,默认分为 5 块。“结”是指具有相同指标值的客户。在“结”框中可以指定对具有相同指标值的客户如何分配到对应的块中。选择“保存”页面,如图 9 所示。图 9. “交易数据的 RFM 分析”对话框“保存”页面在“保存”页面中,可以指定想要保存的变量,包括三个指标的原始变量,对原始变量分级后的变量(以“_ 得分”为后缀名命名的变量)以及 RFM 得分。还可以指定新生数据的保存位置。选择“输出”页面,如图 10 所示。图 10. “交易数据的 RFM 分析”对话框“输出”页面已离散化数据中设置的输出图表是对图 9 中“已保存变量的名称”中的“崭新 _ 得分”、“频率 _ 得分”和“消费金额 _ 得分”进行描述。未离散化数据中设置的输出图是对图 9 中“已保存变量的名称”中的“最 _ 近 _ 日期”、“交易 _ 计数”和“金额”进行描述。可以根据需要选择输出的图表。在此选择所有输出图表。全部设置完后,点击“确定”按钮,就可以得到客户的 RFM 得分,并可以在 IBM SPSS Statistics 的输出查看器中通过图表查看根据三个指标分块后的客户分布情况。在下面会对输出的结果做具体说明。如果数据是客户数据类型,在“RFM 分析:数据格式”对话框,如图 11 所示,选取“客户数据”按钮。图 11. “RFM 分析:数据格式”对话框点击“继续”按钮进入“客户数据的 RFM 分析”对话框,如图 12 所示。图 12. “客户数据的 RFM 分析”对话框在“变量”页面中将变量“客户 ID”,“交易总金额” ,“购买产品总数”和“最近一次购买时间间隔”(或“最近一次购买日期”)分别选入对应的“客户标识符”,“金额”,“交易数”和“交易日期或间隔”文本框。客户数据的 RFM 分析在“离散化”,“保存”和“输出”页面中的设置与交易数据的 RFM 分析基本一致,在此不再累述。注意:对同一数据源进行交易数据的 RFM 分析和客户数据的 RFM 分析,输出结果一致。结果报告分析IBM SPSS Statistics 的输出查看器中对每张 RFM 分析输出的图表都附有结果说明,以便对输出含义的理解。下面就对各图表含义进行简单介绍。如图 13 所示,RFM 块计数图显示根据离散化方法设定的块的分布。纵轴“时间先后顺序”显示按最近一次消费时间指标对客户分为 1~5 级,上面的横轴“频率”显示按购买频率指标对客户分为 1~5 级。客户根据最近一次消费级别和购买频率级别被分为 5*5=25 块。例如图 13 中红色标记的块,表示最近一次消费时间级别(或得分)为 5,购买频率级别(或得分)为 3 的客户群。在每块中,根据消费金额指标又对客户分为 1~5 级,图中显示为五条条图,从左到右表示消费金额级别(或得分)依次增高(即消费金额依次增大)。条状图的高低表示该条状图对应 RFM 得分的客户数量的大小。例如图 13 中红色标记的块,依次显示 RFM 得分从 531 到 535 的客户数量的分布。图 13. RFM 块计数图图中可见,相对别的块,分布在消费日期最近的(5 级),购买频率一般的(3 级)的客户数量较多,这些客户针对消费金额高低分布也比较平均。从图中可见,该条状图中的客户的 RFM 得分为 555,表示这部分客户最近都有购物,频率和消费金额也高出其他客户,是最有价值的客户。块计数表,如表 1 所示,和块计数图中的信息是相同,只是以表格形式表现每个分块中的个案数量。表 1. RFM 块计数表RFM 热图,如图 14 所示,纵轴“时间先后顺序”显示按最近一次消费时间指标对客户分为 1~5 级,上面的横轴“频率”显示按购买频率指标对客户分为 1~5 级。客户根据最近一次消费级别和购买频率级别被分为 5*5=25 块。对每块中的客户群的消费金额做均值运算,并在每块中通过颜色深浅显示消费金额均值大小。颜色越深的块表示该块对应的客户的消费金额均值越高。图 14. RFM 热图图中显示随着最近一次消费时间越近,消费频率的增高,颜色越深,说明消费金额均值也在增加,客户的满意度忠诚度也越来越高。RFM 直方图,如图 15 所示,用于显示客户数量在最近一次消费时间、消费频率和消费金额的三个指标中的大概分布。图 15. RFM 直方图每个直方图的水平轴始终采用左侧为较小值、右侧为较大值的顺序。但对于“时间先后顺序”(即最近一次消费时间)图的解释依赖于最近一次消费时间的类型:日期或时间间隔。对于日期,左侧条代表较远日期,右侧条代表较近日期。对于时间间隔,左侧条代表时间间隔较小,即购买日期离现在较近。
RFM 散点图,如图 16 所示,用于显示原始数据中最近一次消费时间、消费频率和消费金额的三个变量之间的关系。图 16. RFM 散点图对于“时间先后顺序”(即最近一次消费时间)的解释依赖于最近一次消费时间的类型:日期或时间间隔。对于日期,越接近原点的点代表离现在越远的日期。对于时间间隔,越接近原点的点代表购买日期离现在越近的值。
RFM 分析生成一个新数据集如图 17,其中包含客户的最近购买日期,购买频率,消费金额以及各自的得分和综合之后的客户 RFM 得分。
图 17. 新生成的数据RFM 分析输出的图表和 RFM 得分有助于公司市场部门了解客户的最近一次购买、消费频率、消费金额以及综合 RFM 得分的分布状况,针对不同价值的客户群,制定相应的营销策略。小结对客户进行 RFM 分析,并按 RFM 得分为客户价值排序,使得公司能够量化客户的价值。市场部门可以定期对客户进行 RFM 分析,通过客户 RFM 得分的变动,帮助公司制定更为可行的客户策略,提升客户交易量,增加客户忠诚度,维系关键客户。总结及展望功能强大,使用简单是 IBM SPSS Statistics 客户直销模块的特色,帮助市场营销人员利用客户数据深入了解客户,让市场人员在决策中更加自信。帮助企业制定智慧,有效的营销策略。从而从市场营销中得到更多收益。目前 I BM SPSS Statistics 客户直销模块总共有七大模块,本文中主要介绍帮助了解的客户的模块:RFM 分析。希望读者通过学习此文,加以实践应用,能够从容自信的制定 Smart 市场营销策略。IBM SPSS Statistics 客户直销的其他模块在其他系列文章进行详细讲解。
参考资料 通过
,了解数据预测分析的流程和 IBM SPSS Statistics 的基本概念和操作:了解关于信息管理的更多信息,获取技术文档、how-to 文章、培训、下载、产品信息以及其他资源。:获取用以提高您在 Cognos 业务分析方面的技能和资源。
随时关注 developerWorks和 。下载
或 ,并开始使用来自 DB2®,Lotus®,Rational®,Tivoli®和 WebSphere®的应用程序开发工具和中间件产品。。加入
,并加入 ;您可以通过个人档案和定制主页获得符合自己的兴趣的 developerWorks 文章,并与其他 developerWorks 用户进行交流。
developerWorks: 登录
标有星(*)号的字段是必填字段。
保持登录。
单击提交则表示您同意developerWorks 的条款和条件。 查看条款和条件。
在您首次登录 developerWorks 时,会为您创建一份个人概要。您的个人概要中的信息(您的姓名、国家/地区,以及公司名称)是公开显示的,而且会随着您发布的任何内容一起显示,除非您选择隐藏您的公司名称。您可以随时更新您的 IBM 帐户。
所有提交的信息确保安全。
选择您的昵称
当您初次登录到 developerWorks 时,将会为您创建一份概要信息,您需要指定一个昵称。您的昵称将和您在 developerWorks 发布的内容显示在一起。昵称长度在 3 至 31 个字符之间。
您的昵称在 developerWorks 社区中必须是唯一的,并且出于隐私保护的原因,不能是您的电子邮件地址。
标有星(*)号的字段是必填字段。
(昵称长度在 3 至 31 个字符之间)
单击提交则表示您同意developerWorks 的条款和条件。 .
所有提交的信息确保安全。
IBM PureSystems(TM) 系列解决方案是一个专家集成系统
通过学习路线图系统掌握软件开发技能
软件下载、试用版及云计算
static.content.url=/developerworks/js/artrating/SITE_ID=10Zone=Information ManagementArticleID=768750ArticleTitle=IBM SPSS Statistics 客户直销分析应用,第 1部分: 如何使用 RFM 分析来了解目标客户publish-date=

我要回帖

更多关于 suv是什么意思 的文章

 

随机推荐