数据挖掘发展方法具有怎样的发展趋势

羽毛球技术 | 体育赛事 | 英文歌曲 | 住宅风水 | 用户界面设计师 | 六爻 | 书籍改编电影 | 德国足球甲级联赛 | 欧美明星 | PLC | 中国足球 | aj1 | 国家队 | 拜仁慕尼黑足球俱乐部 | 小说创作 | 配音 | iOS应用 | NBA 2K | 古典音乐 | 面相 | 火影忍者 | 武汉大学 | 土拨鼠 | 营销策划 | 秦时明月之天行九歌 | 设计师 | 巴塞罗那足球俱乐部 | 尤文图斯 | 实况足球（游戏） | 少帅 | 罗玉凤 | 比利时 | 跑鞋 | 冷知识 | 肖战 | 李元胜 | 古琴 | 按键精灵 | 罗兰 | 徐波 | 激光手术 | 角色扮演 | 关晓彤 | 微电影 | safari | 北京国安 | 古汉语 | 曼彻斯特联 | 玄幻小说 | 科幻小说 | 双眼皮手术 | 主题曲 | 年会 | 检测仪 | 徒步 | 互联网公司 | 百度输入法 | 镜头 | 宜昌市 | 自拍 | 金蝶 | 电子烟 | 网站建设 | 广播体操 | 文身 | nba篮球 | 索尼(sony) | 天体物理学 | 痛风 | 象棋 | 牛皮癣 | 皮肤护理 | 周星驰（人物） | 试管婴儿 | 亚足联亚洲杯（AFC Asian Cup） | 健美 | 美术生 | 迅雷（软件） | 战斗机 | 穿越小说 | 张璐 | 姓氏 | 诸葛亮 | 后宫·甄嬛传（书籍） | 虎牙直播 | snh48 | 阿迪达斯 | 投影仪 | 组装机 | 微信群 | 阿迪达斯(adidas) | 网球王子 | 分子生物学 | 耽美 | 武磊 | 婚礼 | 表演 | 中国武术 | 动画电影 | Air Jordan | 张子枫 | 免费软件 | 相声演员 | 摩羯座 | 宿舍 | ansys | 法国足球甲级联赛 | 户外 | 剧场版 | 杨凡 | 科幻电影 | galgame | 融资 | 关节炎 | NBA季后赛 | 神话 | 王力宏（人物） | 建模 | 计算机病毒 | 广州恒大淘宝足球俱乐部 | 北京奥运会 | 电脑电源 | 百度翻译 | 字幕 | 讯飞输入法 | 海关 | 易烊千玺 | 深度学习 | 编辑器 | 澳门特别行政区 | 直播 | 流氓软件 | 事故 | 大片 | 李景亮 | 郭富城 | 日语歌曲 | 卡牌游戏 | 小品 | 东京 | 花卉 | 音乐剧 | 互联网创业 | 占卜 | 羽毛球拍 | 婆媳关系 | 日本动画 | 巴黎 | 拳击比赛 | 东南亚 | 足球经理（FM）（游戏） | youtube | 胡歌（演员） | 地铁跑酷 | 植发 | 张继科 | 三国 | 用户界面 | 演技 | 百度竞价 | 青梅竹马 | 移动硬盘 | 韩晓鹏 | 马龙 | 瘦腿 | 宠物医疗 | 巨蟹座 | 徐峥 | 天蝎座 | 胸肌 | 赵丽颖（演员） | adidas阿迪达斯 | 低音炮 | 星际争霸（游戏） | 豆瓣电影 | 微信开放平台 | 手绘 | 吉他学习 | 江苏卫视 | 模特 | 创意 | 团队管理 | 奢侈品 | 王源 | TANK | 笛子 | 偶像 | 莱斯特城 | 维生素 | 新百伦 | 国际物流 | 前女友 | 李小龙 | 华语流行音乐 | 猎头公司 | crm | 搏击项目 | 网站运营 | 鼻炎 | 篮球游戏 |

你的位置：网站首页 >> 频道首页 >>软件开发 >>数据挖掘发展方法具有怎样的发展趋势

数据挖掘发展方法具有怎样的发展趋势

来源：蜘蛛抓取(WebSpider) 时间：2014-10-24 04:20 标签：中国经济发展趋势

 下载
 收藏
该文档贡献者很忙，什么也没留下。
 下载此文档
正在努力加载中...
基于粗集理论的数据挖掘中数据预处理的方法研究
下载积分：1998
内容提示：基于粗集理论的数据挖掘中数据预处理的方法研究,方法,研究,基于,数据挖掘中的,数据预处理,数据挖掘中,集理论的方法,基于粗集理论,数据挖掘,预处理数据的,数据的,基于粗集的,数据,粗集理论,粗集理论的,数据预处理方法,数据挖掘预处理,数据挖掘理论,数据的预处理,遥感数据预处理,点云数据预处理,数据库预处理
文档格式：PDF|
浏览次数：1|
上传日期： 01:36:30|
文档星级：
该用户还上传了这些文档
下载文档:基于粗集理论的数据挖掘中数据预处理的方法研究.PDF
官方公共微信数据挖掘技术_应用及发展趋势_张春华_百度文库
两大类热门资源免费畅读
续费一年阅读会员，立省24元！
评价文档：
40页免费12页免费8页免费2页¥1.004页免费18页免费33页免费3页免费2页免费3页免费
喜欢此文档的还喜欢7页免费7页免费6页1下载券5页1下载券4页免费
数据挖掘技术_应用及发展趋势_张春华|数据挖掘技术_应用及发展趋势_张春华
把文档贴到Blog、BBS或个人站等：
普通尺寸(450*500pix)
较大尺寸(630*500pix)
你可能喜欢论文发表、论文指导
周一至周五
9：00&22：00
动态关联规则的趋势度挖掘方法
&&&&&&本期共收录文章20篇
　　文章编号:12)01-0196-03 doi:10.3724/SP.J.196 中国论文网 /8/view-43696.htm　　? 　　? 　　?摘要: 针对规则随着时间变化的特点，在分析原有定义和对支持度向量(SV)和置信度向量分类的基础上，提出了动态关联规则趋势度的挖掘方法。首先，利用趋势度阈值消除无价值的规则，减小候选项集；其次，产生动态关联规则的趋势度元规则，找出具有价值的规则，提高挖掘质量；最后，通过对具有增减和周期趋势是否应该为“周期型”或“周期趋势”，或别的什么，请明确。的事物数据库分析，证明了所提方法的有效性。　　?关键词: 数据挖掘；动态关联规则；趋势度；元关联规则　　?中图分类号: TP311.13 文献标志码:A 　　 ? 　　Abstract: Based on the original definition and classification of Support Vector (SV) and confidence vector, this paper put forward a method of data tendency measure mining in dynamic association rules, according to the characteristic of rules with time changing. First, taking advantage of tendency measure threshold to eliminate useless rules, the item sets candidates can be reduced. Second, producing the dynamic association rule, this method found out valuable rules and improved the mining quality. Finally, by analyzing a transaction database that is characterized by the tendency of changes and cycles, the analytical results verify the validity of the proposed method. 　　　　　　　　 Key words: dyna meta-association rule 　　　　0 引言? 　　关联规则挖掘的研究是近几年研究较多的数据挖掘方法,是一个重要的数据挖掘研究课题。传统的关联规则算法都是基于规则的支持度、置信度［1-2］两个重要指标,但经过实践应用证明存在很多问题，引入兴趣度作为关联规则的新指标［3-4］,并认为发现的关联规则在数据库中是永恒有效的,没有考虑到规则的变化,而由于事务数据通常具有时间特性,规则会随着时间的推移可能会有很大的变化,Agrawal等首次提出了考虑时间因素的序列模式挖掘［5］。为了描述在关联规则中时间变化特点,Liu等［6］提出了支持度和置信度两个向量来描述规则的动态性，同时也考虑规则的变化；荣冈等提出了数据库中动态关联规则定义［7］；沈斌等进一步改进了动态关联规则的定义及挖掘算法［8］,更好地反映规则随时间变化的动态信息。对动态关联规则元规则进行挖掘［9-10］,可以预测规则的潜在变化,但是有时挖掘规则本身的潜在趋势对决策者更有价值。此句不通顺，请作相应调整。并请仔细核实本文的其他各处。? 　　为了提高动态关联规则的规则挖掘质量,本文提出了一种基于趋势度的动态关联规则挖掘方法,该方法在对支持度向量(Support Vector, SV)或置信度分类的基础上提出了动态关联规则趋势度的概念,通过趋势度阈值修剪无价值的规则,可避免生成无用的动态关联规则,从而使挖掘出的动态关联规则更加实用。? 　　　　1 动态关联规则趋势度描述? 　　动态关联规则引入支持度向量和置信度向量后,可以分别建立基于支持度向量的动态关联规则趋势度评价体系和基于置信度向量的动态关联规则趋势度评价体系,其中前面一种评价体系是以规则支持度向量的数据序列特性为标准来判定动态关联规则的趋势度,后一种评价体系是以规则置信度向量的数据序列特性为标准来确定动态关联规则趋势度,本文以前一种评价体系为例来描述趋势度模型。? 　　挖掘感兴趣的动态关联规则就是寻找有某种趋势变化的规则,摈弃一些毫无规律的随机变化的规则。为了可以针对感兴趣的动态关联规则进行挖掘,首先分析一下趋势变化的种类［11-12］。? 　　1)稳定趋势变化。随着时间的变化某种模式或者现象没有发生明显的改变。? 　　2)增强趋势变化。随着时间的发展某种模式有明显上升的趋势。? 　　3)减弱趋势变化。随着时间的发展某种模式有明显下降的趋势。? 　　4)周期性或季节性变化。同一种模式在等时间间隔的情况下重复出现。? 　　5)随机变化。某种模式由于偶然现象造成的没有明显规律的变化。? 　　分析动态关联规则相关定义,有以下引理及其推论。? 　　?引理1 如果一个项集X在数据集D?0满足sup(X)?0≥min_sup,则至少?i(1≤i≤n)使得sup(X)?i≥s×d?i。? 　　该引理用反证法很容易证明,故从略。? 　　推论1 如果一个项集X对所有的i(1≤i≤n)均有sup(X)?i<s×d?i,则必定有sup(X)?0<s。? 　　根据以上的引理和推论结合趋势变化的种类可以对动态关联规则做出如下类别定义。? 　　定义1 如果动态关联规则A?B的支持度向量SV中的每一个元素都满足Sup??(A∪B)?i?>min_sup,则A?B是为支持度强稳定型动态关联规则;同理,如果CV中每一个元素都满足Conf??(A∪B)?i?>min_conf,则A?B为置信度强稳定型动态关联规则。? 　　定义2 若动态关联规则A?B不满足强稳定型动态关联规则的定义,但SV中的元素满足Sup??(A∪B)?i?≤Sup??(A∪B)??i+1??,则动态关联规则A?B为支持度上升型动态关联规则;同理,如果CV中每一个元素都满足Conf??(A∪B)?i?≤Conf??(A∪B)??i+1??,则A?B为置信度上升型动态关联规则。? 　　　　定义3 如果动态关联规则A?B不满足强稳定性动态关联规则的定义,但是支持度向量SV中的每一个元素都有Sup??(A∪B)?i?≥Sup??(A∪B)??i+1??,则A?B为支持度下降型动态关联规则;同理,如果CV中每一个元素都满足Conf??(A∪B)?i?≥Conf??(A∪B)??i+1??,则A?B为置信度下降型动态关联规则。? 　　定义4 如果动态关联规则A?B的支持度向量SV中的每一个元素不满足定义1至定义3,但是在时间段t={t?1,t?2,…,t?n}内满足SV中相邻的项或项的集合中元素的值的大小具有交替出现的规律则称A?B为支持度周期型动态关联规则。同理,置信度向量中的元素也满足这种规律的为置信度周期型动态关联规则。?
　　　　定义5 如果动态关联规则A?B不满足定义1至定义4,若时间段序列长度为n,支持度向量为SV,对于任意一个按时间先后顺序排列的长度为m的子时间支持度向量序列U={Sup??(A∪B)?????k??,Sup??(A∪B)?????p??,…,Sup??(A∪B)?????q??}(1≤k<p<q≤n),其中k,p,q可以不相邻,若满足前一项支持度值小于等于后一项支持度值,则称U为上升的子时间支持度序列向量;若满足前一项支持度值大于等于后一项支持度值,则称U为下降的子时间支持度序列向量。若SV的任意上升的子时间支持度序列向量的长度均不大于m,则称U为最大上升的子时间支持度序列;若SV的任意下降的子时间支持度序列向量长度均不大于m,则称U为最大下降的子时间支持度序列。? 　　定义6 若动态关联规则A?B的支持度向量SV的最大上升子时间支持度序列向量的长度为L,最大下降子时间支持度序列向量长度为S,则基于支持度向量的动态关联规则趋势度(?Support of Rule Index, SRI?)定义如下:? 　　SRI=?max?{L,S}/n(1)? 　　其中式(1)的分子取L、S中的最大值,基于置信度向量的动态关联规则趋势度的计算方法与其相同。? 　　定义7 如果动态关联规则满足定义1至4则为高兴趣的动态关联规则,设其规则趋势度为SRI=1;否则按照式(1)计算动态关联规则趋势度,若其大于等于用户给定趋势度阈值(?Definition of Rule Index, DRI?),则为强动态关联规则。? 　　当统一了支持度、置信度、支持度向量、置信度向量和趋势度的定义及其解释后,就可以重新描述强动态关联规则。? 　　定义8 给定交易数据集D和D中的动态关联规则A?B(SV,CV,s,c)以及最小支持度min_sup、最小置信度min_conf和趋势度阈值DRI,当且仅当s≥min_sup,c≥min_conf∧SRI≥DRI(CRI≥DRI)时,称A?B为强动态关联规则。其中：s为规则支持度,c为规则置信度,SRI为规则基于支持度向量的趋势度,CRI(?Confidence of Rule Index?)补充其中文名称和英文全称。为规则基于置信度向量的趋势度。?? 　　　　2 基于趋势度的动态关联规则挖掘算法? 　　在支持度置信度框架下的动态关联规则挖掘算法的基础上,通过引入趋势度阈值,改进传统动态关联规则挖掘算法以挖掘一定趋势度下的动态关联规则。根据定义1~6计算大项目集内每一个可能生成的规则的趋势度,结合支持度和置信度,可能会出现以下4种情况:? 　　?1)s<min_sup,说明规则重要性不强,淘汰;? 　　2)s≥min_sup,c<min_conf,说明规则正确性不高,淘汰;? 　　3)s≥min_sup,c≥min_conf,SRI(CRI)<DRI,说明规则实际利用价值不高,淘汰;? 　　4)s≥min_sup,c≥min_conf,1≥SRI(CRI)≥DRI,说明规则实际利用价值较高,输出。? 　　基于支持度向量动态关联规则趋势度的挖掘算法描述如算法1所示,其中： f??(A∪B)??ij??为频繁项集l?j的频度向量FV的第i个元素值,s??(A∪B)??ij??为频繁项集l?j支持度向量SV?j的第i个元素,SRI?j为频繁项集l?j的支持度向量下的趋势度值,D?i为数据子集的事务数。?? 　　　　程序前　　? 　　　　输入数据集?D?与子集?D??1~?D?n,min_sup,min_conf,DRI?;? 　　输出所有强动态关联规则。? 　　　　(?L,FV,s?)=Dynamic-frequent-item-set-algorithm(ITS or EFP-Growth) //调用ITS或者EFP-Growth算法,?得到频繁项集?//L及对应的频度向量FV,支持度s?? 　　for each frequent-item-set ?l?j∈L? do{? 　　?由f???(?A∪B?)???ij??/D?i得到s???(?A∪B?)???ij??,并构成SV?j?;??? 　　for ?i=1? to ?n? do? 　　if ?s???(?A∪B?)???ij??≥min_sup? then? 　　?SRI?j=1?;??? 　　for ?i=1? to ?n? do? 　　if ?s???(?A∪B?)???ij??≥s???(?A∪B?)????(?i+1?)?j??? then? 　　?SRI?j=1?;??? 　　for ?i=1? to ?n? do? 　　if ?s???(?A∪B?)???ij??≤s???(?A∪B?)????(?i+1?)?j??? then? 　　?SRI?j=1?;??? 　　?计算SV中各个元素自相关函数ρ?1,ρ?2,…,ρ?n?? 　　if ?ρ?l? close 1 and ?ρ?1,ρ?2,…,ρ??l－1?,…,ρ?n? close 0 then? 　　?SRI?j=1?;??? 　　?计算FV的最大上升的子支持度序列向量长度M及最大下降的子支持度序列向量长度K?? 　　?SRI?j=?max??(?M,K?)?/n?;}??? 　　　　callIntGenRule(?L,SRI,min_conf,DRI?);? //输入频繁项集L与对?//应的趋势度SRI,最小置信度min_conf,产生趋势度下的强动?//态关联规则? 　　程序后　　　　由频繁项集产生有兴趣的强动态关联的函数call IntGenRule(?L,SRI,min_conf,DRI?)描述如下: 　　　　程序前　　? 　　procedure IntGenRule(?L,SRI,min_conf,DRI?) {? 　　(?R,c?)=rule-generation-sub-algorithm(?L,SRI,min_conf,DRI?)//调用关联规则生成函数,生成规则集?R?? 　　for each rule ?r?i?∈?R? do? 　　?由s???(?A∪B?)???ij??/s??A?i?得到c???(?A∪B?)???ij??,并构成CV?j?;??? 　　return ?R? with their corresponding ?SV,CV,FV,s ?and? c?? 　　} 　　程序后　　? 　　　　根据支持度向量生成趋势度下动态关联规则规则的挖掘算法流程如1所示。? 　　　　3 实例分析? 　　通过一个实例详细说明应用本算法产生规则的过程,设数据库D为表1所示,D中包含30个事务,将D分为6个子数据集:D1,D2,D3,D4,D5,D6;设最小支持度数为6,最小置信度为0.5,趋势度阈值?DRI?=0.6。为了说明算法的有效性,本文用传统动态关联规则挖掘算法(ITS算法)作对比,研究两种算法挖掘的频繁2项集产生的规则数。? 　　　　第一步调用FP-Growth算法挖掘频繁项集,为了描述简单,本文以频繁2项集为例,提取出频繁2项集:{I2,I4},{I2,I5},{I4,I5}。? 　　第二步扫描一次数据库,计算频繁2项集的支持度向量。?SV??(?I?2,?I?4)?=［0,1,1,2,2,3］支持度计数为9;SV??(?I?2,?I?5)?=［1,1,2,2,2,2］支持度计数为10;SV??(?I?4,?I?5)?=［2,0,1,3,2,1］支持度计数为9。??
　　?第三步根据支持度向量计算趋势度值。SRI??(?I?2,?I?4)?=1,属于支持度上升型频繁向量;由于频繁项集{?I?2,?I?5}的支持度向量中的每个元素的支持度的值均大于等于最小支持度?0.2,?故它属于支持度稳定型频繁向量,SRI??(?I?2,?I?5)?=1;频繁项集{?I?4,?I?5}的支持度向量不满足定义1至4,其最大上升子时间支持度序列向量长度为3,最大下降子时间支持度序列向量长度也为3,因此根据式(1)得:SRI??(?I?4,?I?5)?=0.5。?? 　　第四步生成规则阶段。分析频繁项集{I2,I4},它的非空子集有{I2}和{I4}。I2?I4的置信度为0.5,I4?I2的置信度为0.6,趋势度值为1,所以它们都是强动态关联规则。频繁项集{I2,I5}的非空子集有{I2}和{I5}。I2?I5的置信度为0.56,I5?I2的置信度为0.59,趋势度值为1,所以它们也都是强动态关联规则。分析频繁项集{I4,I5},它的非空子集有{I4}和{I5}。I4?I5的置信度为0.6,I5?I4的置信度为?0.53,?虽然它们的置信度都满足要求,但是它们的趋势度值为?0.5<??DRI?=0.6,因此它们不是强动态关联规则。? 　　这样,利用频繁2项集得到了4条高趋势度的动态关联规则,而用传统的动态关联规则挖掘算法得到的强动态关联规则有6条,经过分析可知,多出的2条规则为I4?I5和I5?I4,?研究其支持度向量序列SV??(?I?4,?I?5)?=［2,0,1,3,2,1］可知,?其支持度频数变化随机性比较大,决策者不能从中得到有效的决策信息,本文研究动态关联规则的主要目的就是能够从其支持度向量或置信度向量序列中发现潜在的有价值的信息,对于像I4?I5和I5?I4这样的关联规则,用普通的高性能关联规则挖掘算法也可获得,没有必要对其动态化进行分析。因此,新的动态关联规则挖掘算法可以根据用户设定的趋势度阈值,针对动态关联规则中有一定变化趋势的规则进行挖掘,在一定程度上提高了规则挖掘的质量,减少了存储空间,提供给决策者更清晰、更有效地决策信息。? 　　　　4 结语? 　　针对提高动态关联规则挖掘质量的问题,本文提出了一种基于趋势度的动态关联规则挖掘方法。首先根据趋势变化将动态关联规则进行了分类,给出了一种简单有效的趋势度模型,描述了相应的挖掘算法,应用一个示例数据库详细分析了算法流程,并与传统算法进行了对比分析,实验证明新算法可以有效地提高动态关联规则挖掘的质量,提高系统挖掘效率。　　　　　　　　?参考文献:? 　　[1] 　　周欣,沙朝锋,朱扬勇,等.兴趣度关联规则的又一个阈值［J］.计算机研究与发展,):627-633. 　　?[2] 　　马建庆，钟亦，张世永.基于兴趣度的关联规则挖掘算法［J］.计算机工程，)：121-122. 　　?[3] 　　梅志芳,王建.关联规则兴趣度问题研究［J］.计算机工程,):38-42. 　　?[4] 　　向哲,林国龙,杨斌.兴趣度在增量的关联规则挖掘中的研究［J］.计算机技术与发展,):33-36. 　　?[5] 　　AGRAWAL ?R,? SRIKANT ?R.? Mining sequential ?patterns ［C］//? ICDE?95: Proceedings of the 11th International Conference on Data Engineering. Washington, DC: IEEE Computer Society, . 　　?[6] 　　LIU J F, RONG G. Mining dynamic association rules in databases ［C］// Proceedings of International Conference on Computational Intelligences and Security, LNCS 3801. Berlin: Springer-Verlag, 5. 　　?[7] 　　荣冈,刘进锋,顾海杰.数据库中动态关联规则的挖掘［J］.控制理论与应用,):129-133. 　　?[8] 　　沈斌,姚敏.一种新的动态关联规则及其挖掘算法［J］.控制与决策,):. 　　?[9] 　　刘俊,谢彦峰,张忠林,等.基于灰色Markov模型动态关联规则元规则挖掘［J］.计算机应用,):. 　　?[10] 　　张忠林,刘俊,谢彦峰,等.AR-Markov模型在动态关联规则挖掘中的应用［J］.计算机工程与应用,):135-137,147. 　　?[11] 　　张善文,雷英杰,冯有杰.Matlab在时间序列分析中的应用［M］.西安:西安电子科技大学出版社,. 　　?[12] 　　HAN J-W, KAMBER M.数据挖掘概念与技术［M］.范明,孟小峰,译.北京:机械工业出版社,. 　　　　收稿日期:;修回日期:。? 　　　　基金项目: 　　国家自然科学基金资助项目()；甘肃省科技支撑计划项目(1011GKCA040)。? 　　　　作者简介: 　　张忠林(1965-),男,河北阜城人,教授,博士,CCF会员,主要研究方向:智能信息处理、软件工程; 曾庆飞(1985-),男,山东青岛人,硕士研究生,主要研究方向:智能信息处理; 许凡(1987-),男,湖北仙桃人,硕士研究生,主要研究方向:智能信息处理。
转载请注明来源。原文地址：
【xzbu】郑重声明：本网站资源、信息来源于网络，完全免费共享，仅供学习和研究使用，版权和著作权归原作者所有，如有不愿意被转载的情况，请通知我们删除已转载的信息。
xzbu发布此信息目的在于传播更多信息，与本网站立场无关。xzbu不保证该信息（包括但不限于文字、数据及图表）准确性、真实性、完整性等。数据挖掘前景与现状＜职业前景与现状＜职业规划中国网
& 数据挖掘前景与现状
&职业规划中国网编写
&　　数据挖掘(Data
Mining)就是从大量数据中发现潜在规律、提取有用知识的方法和技术。因为与数据库密切相关，又称为数据库知识发现(Knowledge
Discovery in Databases，KDD)
，就是将高级智能计算技术应用于大量数据中，让计算机在有人或无人指导的情况下从海量数据中发现潜在的，有用的模式(也叫知识)。
&　　广义上说，任何从数据库中挖掘信息的过程都叫做数据挖掘。从这点看来，数据挖掘就是BI（商业智能）。但从技术术语上说，数据挖掘(Data
Mining)特指的是：源数据经过清洗和转换等成为适合于挖掘的数据集。数据挖掘在这种具有固定形式的数据集上完成知识的提炼，最后以合适的知识模式用于进一步分析决策工作。从这种狭义的观点上，我们可以定义：数据挖掘是从特定形式的数据集中提炼知识的过程。数据挖掘往往针对特定的数据、特定的问题，选择一种或者多种挖掘算法，找到数据下面隐藏的规律，这些规律往往被用来预测、支持决策。
数据挖掘的主要功能
&　　1．　分类：按照分析对象的属性、特征，建立不同的组类来描述事物。例如：银行部门根据以前的数据将客户分成了不同的类别，现在就可以根据这些来区分新申请贷款的客户，以采取相应的贷款方案。
&　　2．　聚类：识别出分析对内在的规则，按照这些规则把对象分成若干类。例如：将申请人分为高度风险申请者，中度风险申请者，低度风险申请者。
&　　3．　关联规则和序列模式的发现：关联是某种事物发生时其他事物会发生的这样一种联系。例如：每天购买啤酒的人也有可能购买香烟，比重有多大，可以通过关联的支持度和可信度来描述。与关联不同，序列是一种纵向的联系。例如：今天银行调整利率，明天股市的变化。
&　　4．　预测：把握分析对象发展的规律，对未来的趋势做出预见。例如：对未来经济发展的判断。
&　　5．　偏差的检测：对分析对象的少数的、极端的特例的描述，揭示内在的原因。例如：在银行的100万笔交易中有500例的欺诈行为，银行为了稳健经营，就要发现这500例的内在因素，减小以后经营的风险。
&　　需要注意的是：数据挖掘的各项功能不是独立存在的，在数据挖掘中互相联系，发挥作用。
数据挖掘的方法及工具
&　　作为一门处理数据的新兴技术，数据挖掘有许多的新特征。首先，数据挖掘面对的是海量的数据，这也是数据挖掘产生的原因。其次，数据可能是不完全的、有噪声的、随机的，有复杂的数据结构，维数大。最后，数据挖掘是许多学科的交叉，运用了统计学，计算机，数学等学科的技术。以下是常见和应用最广泛的算法和模型：
&　　(1) 传统统计方法：①
抽样技术：我们面对的是大量的数据，对所有的数据进行分析是不可能的也是没有必要的，就要在理论的指导下进行合理的抽样。②
多元统计分析：因子分析，聚类分析等。③ 统计预测方法，如回归分析，时间序列分析等。
可视化技术：用图表等方式把数据特征用直观地表述出来，如直方图等，这其中运用的许多描述统计的方法。可视化技术面对的一个难题是高维数据的可视化。
职业能力要求
基本能力要求
&　　数据挖掘人员需具备以下基本条件，才可以完成数据挖掘项目中的相关任务。
&&　　一、专业技能
&　　硕士以上学历，数据挖掘、统计学、数据库相关专业，熟练掌握关系数据库技术，具有数据库系统开发经验
&　　熟练掌握常用的数据挖掘算法
&　　具备数理统计理论基础，并熟悉常用的统计工具软件
&　　二、行业知识
&　　具有相关的行业知识，或者能够很快熟悉相关的行业知识
&　　三、合作精神
&　　具有良好的团队合作精神，能够主动和项目中其他成员紧密合作
&　　四、客户关系能力
&　　具有良好的客户沟通能力，能够明确阐述数据挖掘项目的重点和难点，善于调整客户对数据挖掘的误解和过高期望
&　　具有良好的知识转移能力，能够尽快地让模型维护人员了解并掌握数据挖掘方法论及建模实施能力
进阶能力要求
&　　数据挖掘人员具备如下条件，可以提高数据挖掘项目的实施效率，缩短项目周期。
&　　具有数据仓库项目实施经验，熟悉数据仓库技术及方法论
&　　熟练掌握SQL语言，包括复杂查询、性能调优
&　　熟练掌握ETL开发工具和技术
&　　熟练掌握Microsoft
Office软件，包括Excel和PowerPoint中的各种统计图形技术
&　　善于将挖掘结果和客户的业务管理相结合，根据数据挖掘的成果向客户提供有价值的可行性操作方案
应用及就业领域
&　　当前数据挖掘应用主要集中在电信(客户分析)，零售(销售预测)，农业(行业数据预测)，网络日志(网页定制)，银行(客户欺诈),电力(客户呼叫)，生物(基因)，天体(星体分类)，化工，医药等方面。当前它能解决的问题典型在于：数据库营销(Database
Marketing)、客户群体划分(Customer Segmentation &
Classification)、背景分析(Profile
Analysis)、交叉销售(Cross-selling)等市场分析行为，以及客户流失性分析(Churn
Analysis)、客户信用记分(Credit Scoring)、欺诈发现(Fraud
Detection)等等，在许多领域得到了成功的应用。如果你访问著名的亚马逊网上书店()，会发现当你选中一本书后，会出现相关的推荐数目“Customers
who bought this book also bought”，这背后就是数据挖掘技术在发挥作用。
&　　数据挖掘的对象是某一专业领域中积累的数据；挖掘过程是一个人机交互、多次反复的过程；挖掘的结果要应用于该专业。因此数据挖掘的整个过程都离不开应用领域的专业知识。“Business
First, technique
second”是数据挖掘的特点。因此学习数据挖掘不意味着丢弃原有专业知识和经验。相反，有其它行业背景是从事数据挖掘的一大优势。如有销售，财务，机械，制造，call
center等工作经验的,通过学习数据挖掘，可以提升个人职业层次，在不改变原专业的情况下，从原来的事务型角色向分析型角色转变。从80年代末的初露头角到90年代末的广泛应用，以数据挖掘为核心的商业智能(BI)已经成为IT及其它行业中的一个新宠。
数据采集分析专员
&　　职位介绍：数据采集分析专员的主要职责是把公司运营的数据收集起来，再从中挖掘出规律性的信息来指导公司的战略方向。这个职位常被忽略，但相当重要。由于数据库技术最先出现于计算机领域，同时计算机数据库具有海量存储、查找迅速、分析半自动化等特点，数据采集分析专员最先出现于计算机行业，后来随着计算机应用的普及扩展到了各个行业。该职位一般提供给懂数据库应用和具有一定统计分析能力的人。有计算机特长的统计专业人员，或学过数据挖掘的计算机专业人员都可以胜任此工作，不过最好能够对所在行业的市场情况具有一定的了解。
&　　求职建议：由于很多公司追求短期利益而不注重长期战略的现状，目前国内很多企业对此职位的重视程度不够。但大型公司、外企对此职位的重视程度较高，随着时间的推移该职位会有升温的趋势。另外，数据采集分析专员很容易获得行业经验，他们在分析过程中能够很轻易地把握该行业的市场情况、客户习惯、渠道分布等关键情况，因此如果想在某行创业，从数据采集分析专员干起是一个不错的选择。
市场/数据分析师
&　　1. 市场数据分析是现代市场营销科学必不可少的关键环节: Marketing/Data
Analyst从业最多的行业: Direct Marketing (直接面向客户的市场营销)
吧，自90年代以来, Direct
Marketing越来越成为公司推销其产品的主要手段。根据加拿大市场营销组织(Canadian
Marketing Association)的统计数据: 仅1999年一年 Direct
Marketing就创造了470000
个工作机会。从，工作职位又增加了30000个。为什么Direct
Marketing需要这么多Analyst呢? 举个例子,
随着商业竞争日益加剧，公司希望能最大限度的从广告中得到销售回报,
他们希望能有更多的用户来响应他们的广告。所以他们就必需要在投放广告之前做大量的市场分析工作。例如，根据自己的产品结合目标市场顾客的家庭收入，教育背景和消费趋向分析出哪些地区的住户或居民最有可能响应公司的销售广告，购买自己的产品或成为客户，从而广告只针对这些特定的客户群。这样有的放矢的筛选广告的投放市场既节省开销又提高了销售回报率。但是所有的这些分析都是基于数据库，通过数据处理，挖掘，建模得出的，其间，市场分析师的工作是必不可少的。
&　　2. 行业适应性强: 几乎所有的行业都会应用到数据,
所以作为一名数据/市场分析师不仅仅可以在华人传统的IT行业就业，也可以在政府，银行，零售，医药业，制造业和交通传输等领域服务。
现状与前景
&　　数据挖掘是适应信息社会从海量的数据库中提取信息的需要而产生的新学科。它是统计学、机器学习、数据库、模式识别、人工智能等学科的交叉。在中国各重点院校中都已经开了数据挖掘的课程或研究课题。比较著名的有中科院计算所、复旦大学、清华大学等。另外，政府机构和大型企业也开始重视这个领域。
&　　据IDC对欧洲和北美62家采用了商务智能技术的企业的调查分析发现，这些企业的3年平均投资回报率为401%，其中25%的企业的投资回报率超过600%。调查结果还显示，一个企业要想在复杂的环境中获得成功，高层管理者必须能够控制极其复杂的商业结构，若没有详实的事实和数据支持，是很难办到的。因此，随着数据挖掘技术的不断改进和日益成熟，它必将被更多的用户采用，使更多的管理者得到更多的商务智能。
&　　根据IDC(International Data
Corporation)预测说2004年估计BI行业市场在140亿美元。现在，随着我国加入WTO，我国在许多领域，如金融、保险等领域将逐步对外开放，这就意味着许多企业将面临来自国际大型跨国公司的巨大竞争压力。国外发达国家各种企业采用商务智能的水平已经远远超过了我国。美国Palo
管理集团公司1999年对欧洲、北美和日本375家大中型企业的商务智能技术的采用情况进行了调查。结果显示，在金融领域，商务智能技术的应用水平已经达到或接近70%，在营销领域也达到50%，并且在未来的3年中，各个应用领域对该技术的采纳水平都将提高约50%。
&　　现在，许多企业都把数据看成宝贵的财富，纷纷利用商务智能发现其中隐藏的信息，借此获得巨额的回报。国内暂时还没有官方关于数据挖掘行业本身的市场统计分析报告，但是国内数据挖掘在各个行业都有一定的研究。据国外专家预测，在今后的5―10年内，随着数据量的日益积累以及计算机的广泛应用，数据挖掘将在中国形成一个产业。
&　　众所周知，IT就业市场竞争已经相当激烈，而数据处理的核心技术---数据挖掘更是得到了前所未有的重视。数据挖掘和商业智能技术位于整个企业IT-业务构架的金字塔塔尖，目前国内数据挖掘专业的人才培养体系尚不健全，人才市场上精通数据挖掘技术、商业智能的供应量极小，而另一方面企业、政府机构和和科研单位对此类人才的潜在需求量极大，供需缺口极大。如果能将数据挖掘技术与个人已有专业知识相结合，您必将开辟职业生涯的新天地！
&　　就目前来看，和大多IT业的职位一样，数据仓库和数据挖掘方面的人才在国内的需求工作也是低端饱和，高端紧缺，在二线成熟，高端数据仓库和数据挖掘方面的人才尤其稀少。高端数据仓库和数据挖掘人才需要熟悉多个行业，至少有3年以上大型DWH和BI经验，英语读写流利，具有项目推动能力，这样的人才年薪能达到20万以上。
&　　1、SAS认证的应用行业及职业前景
SAS全球专业认证是国际上公认的数据挖掘和商业智能领域的权威认证，随着我国IT环境和应用的日渐成熟，以上两个领域将有极大的行业发展空间。获取SAS全球专业认证，为您在数据挖掘、分析方法论领域积累丰富经验奠定良好的基础，帮助您开辟职业发展的新天地。
&　　2、SAS认证的有效期
&　　目前SAS五级认证没有特定有效期，但是时间太久或版本太老的认证证书会有所贬值。
&　　3、五级认证的关系
&　　五级认证为递进式关系，即只有通过上一级考试科目才能参加下一级认证考试。
&　　4、SAS全球认证的考试方式
&　　考试为上机考试，时间2个小时，共70道客观题。
&　　随着中国物流行业的整体快速发展，物流信息化建设也取得一定进展。无论在IT硬件市场、软件市场还是信息服务市场，物流行业都具有了一定的投资规模，近两年的总投资额均在20-30亿元之间。政府对现代物流业发展的积极支持、物流市场竞争的加剧等因素有力地促进了物流信息化建设的稳步发展。
&　　易观国际最新报告《中国物流行业信息化年度综合报告2006》中指出，中国物流业正在从传统模式向现代模式实现整体转变，现代物流模式将引导物流业信息化需求，而产生这种转变的基本动力来自市场需求。报告中的数据显示:年，传统物流企业IT投入规模将累计超过100亿元人民币。年，第三方物流企业IT投入规模将累计超过20亿元人民币。
&　　由于目前行业应用软件系统在作业层面对终端设备的硬件提出的应用要求较高，而软件与硬件的集成性普遍不理想，对应性单一，因此企业将对软件硬件设备的集成提出更高要求。
&　　物流行业软件系统研发将更多的考虑运筹学与数据挖掘技术，专业的服务商将更有利于帮助解决研发问题。
&　　物流科学的理论基础来源于运筹学，并且非常强调在繁杂的数据处理中找到关联关系(基于成本-服务水平体系)，因此数据挖掘技术对于相关的软件系统显得更为重。
（参考资料来源：《中国电脑教育报》、巧巧读书网、中国AI创业研发俱乐部、情报官世界、百度、学网、无忧工作网）
相关文章 [关键词：职业前景与现状]
版权所有：牧羊人策划顾问有限公司成功职业指导中心所罗门人力资源中心
咨询预约电话：136
跟踪服务热线：（020）

数据挖掘发展方法具有怎样的发展趋势

我要回帖

更多关于中国经济发展趋势的文章

随机推荐

数据挖掘 发展方法具有怎样的发展趋势

我要回帖

更多关于 中国经济发展趋势 的文章

随机推荐

数据挖掘发展方法具有怎样的发展趋势

更多关于中国经济发展趋势的文章