k-meanskmeans聚类算法数据集效果怎么提升

羽毛球技术 | 体育赛事 | 英文歌曲 | 住宅风水 | 用户界面设计师 | 六爻 | 书籍改编电影 | 德国足球甲级联赛 | 欧美明星 | PLC | 中国足球 | aj1 | 国家队 | 拜仁慕尼黑足球俱乐部 | 小说创作 | 配音 | iOS应用 | NBA 2K | 古典音乐 | 面相 | 火影忍者 | 武汉大学 | 土拨鼠 | 营销策划 | 秦时明月之天行九歌 | 设计师 | 巴塞罗那足球俱乐部 | 尤文图斯 | 实况足球（游戏） | 少帅 | 罗玉凤 | 比利时 | 跑鞋 | 冷知识 | 肖战 | 李元胜 | 古琴 | 按键精灵 | 罗兰 | 徐波 | 激光手术 | 角色扮演 | 关晓彤 | 微电影 | safari | 北京国安 | 古汉语 | 曼彻斯特联 | 玄幻小说 | 科幻小说 | 双眼皮手术 | 主题曲 | 年会 | 检测仪 | 徒步 | 互联网公司 | 百度输入法 | 镜头 | 宜昌市 | 自拍 | 金蝶 | 电子烟 | 网站建设 | 广播体操 | 文身 | nba篮球 | 索尼(sony) | 天体物理学 | 痛风 | 象棋 | 牛皮癣 | 皮肤护理 | 周星驰（人物） | 试管婴儿 | 亚足联亚洲杯（AFC Asian Cup） | 健美 | 美术生 | 迅雷（软件） | 战斗机 | 穿越小说 | 张璐 | 姓氏 | 诸葛亮 | 后宫·甄嬛传（书籍） | 虎牙直播 | snh48 | 阿迪达斯 | 投影仪 | 组装机 | 微信群 | 阿迪达斯(adidas) | 网球王子 | 分子生物学 | 耽美 | 武磊 | 婚礼 | 表演 | 中国武术 | 动画电影 | Air Jordan | 张子枫 | 免费软件 | 相声演员 | 摩羯座 | 宿舍 | ansys | 法国足球甲级联赛 | 户外 | 剧场版 | 杨凡 | 科幻电影 | galgame | 融资 | 关节炎 | NBA季后赛 | 神话 | 王力宏（人物） | 建模 | 计算机病毒 | 广州恒大淘宝足球俱乐部 | 北京奥运会 | 电脑电源 | 百度翻译 | 字幕 | 讯飞输入法 | 海关 | 易烊千玺 | 深度学习 | 编辑器 | 澳门特别行政区 | 直播 | 流氓软件 | 事故 | 大片 | 李景亮 | 郭富城 | 日语歌曲 | 卡牌游戏 | 小品 | 东京 | 花卉 | 音乐剧 | 互联网创业 | 占卜 | 羽毛球拍 | 婆媳关系 | 日本动画 | 巴黎 | 拳击比赛 | 东南亚 | 足球经理（FM）（游戏） | youtube | 胡歌（演员） | 地铁跑酷 | 植发 | 张继科 | 三国 | 用户界面 | 演技 | 百度竞价 | 青梅竹马 | 移动硬盘 | 韩晓鹏 | 马龙 | 瘦腿 | 宠物医疗 | 巨蟹座 | 徐峥 | 天蝎座 | 胸肌 | 赵丽颖（演员） | adidas阿迪达斯 | 低音炮 | 星际争霸（游戏） | 豆瓣电影 | 微信开放平台 | 手绘 | 吉他学习 | 江苏卫视 | 模特 | 创意 | 团队管理 | 奢侈品 | 王源 | TANK | 笛子 | 偶像 | 莱斯特城 | 维生素 | 新百伦 | 国际物流 | 前女友 | 李小龙 | 华语流行音乐 | 猎头公司 | crm | 搏击项目 | 网站运营 | 鼻炎 | 篮球游戏 |

你的位置：网站首页 >> 频道首页 >>算法 >>k-meanskmeans聚类算法数据集效果怎么提升

k-meanskmeans聚类算法数据集效果怎么提升

来源：蜘蛛抓取(WebSpider) 时间：2016-12-25 02:45 标签： kmeans算法应用实例

每天三分钟，知晓天下事，视频、语音、文字综合版任您挑！微信搜索fgzadmin关注或点击标题下方可以快速关注。
原创不易，认可价值，动手指点并转发，就是最好的支持与肯定。淘宝特约店址：http://goldengame.
深夜十点，陪你读书。
慢工出细活
由于中、美、俄三国自2008年后基本上长期上演“三国杀”（昨天文章《原创丨中美俄世纪三国杀，谁是百年长跑冠军
其实这是个有奖活动贴。n其实这是个有奖活动贴。n其实这是个有奖活动贴。
思考者正在阅读原创丨三次世界大战亚洲开打，美国推演靠谱吗？原创丨央行连出两大招，有何深意？微历史丨张学良为啥
美国总统奥巴马日在接受媒体采访时表示，2011年对利比亚局势的干涉，是其总统生涯中做出的最
我们都知道，美国软实力很厉害，在过去很多年都一直掌控者国际话语权，他们可以提着民主、自由、人权的大棒满世界乱
思考者正在阅读原创丨重大变革，我们的世界都将逃不过被TA重塑！原创丨中美黄岩岛较量，谁是最后赢家？原创丨你射您的位置：
基于Kruskal算法进行初值选取的改进的K-means算法
基于Kruskal算法进行初值选取的改进的K-means算法
Improved K-means Algorithm of Choosing the Clustering Center Based on Kruskal Algorithm
发布时间：　　浏览量：740　　收藏数：0　　评论数：
北京邮电大学理学院；
K-means算法是聚类算法中最经典的划分算法之一，它对初值的依赖性很强，聚类结果随初始聚类中心选择的不同而波动很大。本文基于图论中著名的Kruskal算法提出了一种改进的K-means算法，该算法首先运用Kruskal算法生成聚类对象的最小生成树（MST），然后按权值从大到小删去K-1条边，将得到的K个连通子图中对象的均值作为初始聚类中心进行聚类。仿真实验表明，该算法较传统k-means算法有更好的聚类效果和准确性。
聚类；K-means算法；Kruskal算法；MST
REN Qian，
ZHUO Xinjian*
School of Science,Beijing University of Post and Communication；
Abstract：
K-means algorithm is one of the most classic partition algorithms in clustering algorithms. The result obtained by K-means algorithm varies with the choice of the initial clustering center. Motivated by this, an improved K-means algorithm is proposed based on the Kruskal algorithm, which is famous in graph theory. The procedure of this algorithm is shown as follows: Firstly, the minimum spanning tree (MST) of the clustered objects is obtained by using Kruskal algorithm. Then K-1 edges are deleted based on weights in a descending order. At last, the average value of the objects contained by the k-connected graph resulting from last two steps is regarded as the initial clustering center to cluster. Simulation exeriment shows that the improved K-means algorithm has a better clustering effect and higher efficiency than the traditional one.
Keywords：
CK-means AKruskal AMST
PDF全文下载：
&&&&（220）
作者简介：
任倩, （1986-），女，硕士研究生，数据挖掘
通信联系人：
卓新建, （1971-），男，副教授，网络编码，数据挖掘
【收录情况】
中国科技论文在线：任倩，卓新建.&基于Kruskal算法进行初值选取的改进的K-means算法[EB/OL].北京：中国科技论文在线&
[].http://www./releasepaper/content/.
发表期刊：
首发论文搜索
&> 信息科学与系统科学
&> 地球科学
&> 畜牧、兽医科学
&> 基础医学
&> 临床医学
&> 预防医学与卫生学
&> 军事医学与特种医学
&> 中医学与中药学
&> 工程与技术科学基础学科
&> 测绘科学技术
&> 材料科学
&> 矿山工程技术
&> 冶金工程技术
&> 机械工程
&> 动力与电气工程
&> 能源科学技术
&> 核科学技术
&> 电子、通信与自动控制技术
&> 计算机科学技术
&> 化学工程
&> 纺织科学技术
&> 食品科学技术
&> 土木建筑工程
&> 水利工程
&> 交通运输工程
&> 航空航天科学技术
&> 环境科学技术
&> 安全科学技术
&> 图书馆、情报与文献学
&> 体育科学
尊敬的作者，欢迎您在本站投稿：
注：请投稿作者直接在本站注册并登录提交文章，
任何个人或机构宣称代理在本站投稿均为侵权行为
本学科今日推荐
本文作者合作关系
本文相关论文
&&&&&&&&&&&&&&
中国科技论文在线
&|&&|&&|&&|&&|&nbsp
计算机科学技术基础学科
计算机系统结构
计算机软件
计算机工程
计算机应用
计算机科学技术其他学科
基于Kruskal算法进行初值选取的改进的K-means算法
&&收藏本文
&&推荐本文给好友
&&订阅本文所在学科
&&分享到我的圈子
多个邮箱请用逗号“，”隔开
分享到我的圈子一种K-means聚类算法的改进与应用
2015年电子技术应用第1期
灵，朱韵攸
　　摘 &要：算法是基于距离作为相似性度量的，传统的K-means算法存在难以确定中心值个数、受噪声及孤立点影响较大的缺点。对此，利用类间相异度与类内相异度改进初始值K，以尽量减少人工干预；同时计算数据库中每一点与剩余点的距离和距离均和，将两者的大小比较作为识别孤立点和噪声点的依据，从而删除孤立点，减少对数据聚类划分的影响。最后将改进后的K-means算法应用于系统并进行仿真实验，结果表明，基于改进的K-means算法的入侵检测系统一定程度上降低了误报率及误检率，提高了检测的准确率。　　关键词：；聚类算法；K-means；入侵检测0 引言　　聚类分析是将海量的数据划分为有意义或者有用的组（簇）。在同一簇中的数据相似度较高，不同的簇中数据差别比较大。聚类分析主要基于距离进行分析，它是一种无监视的学习训练方式。　　K-means聚类算法是基于划分的经典算法，但存在难以确定初始聚类中心值、受噪声及孤立点影响较大的缺点[1]。基于此，很多学者研究提出了不同的改进K-means聚类算法的方法。参考文献[2]把相互距离最远的K个高密度区域的点作为初始聚类中心点；参考文献[3]利用密度指针初始化聚类中心，从而从真实聚类中心中选取数据库初始化聚类中心；参考文献[4]利用密度和最近邻的思想来寻找初始聚类中心；参考文献[5]基于最优划分初始聚类中心，该算法首先对数据样本进行划分，根据划分样本的分布特点确定初始聚类中心；参考文献[6]利用伪随机数产生初始聚类中心，但聚类数据庞大时，聚类效果不容乐观。参考文献[7]通过对样本数据进行阈值分层快速确定K-means算法的聚类数搜索范围及其上限，利用新的聚类有效性指标评价聚类后类内与类间的相似性程度，从而在聚类数搜索范围内获得最佳聚类数。1 聚类分析的相似性度量和准则函数　　1.1 相似性度量　　聚类分析是依据对象两两之间的相似(或差异)程度来划分类的，而这相似程度通常是用距离来衡量的[8]。最广泛使用的距离计算公式是欧氏距离：　　　　其中，i=(xi1，xi2，…，xip)，j=(xj1，xj2，…，xjp)。　　1.2 准则函数　　聚类结果的质量可以由聚类准则函数来判断，若准则函数选的好，质量就会高；反之，质量达不到要求时，则须反复运行聚类过程[9]。一般的聚类准则函数有以下3种：(1)误差平方和准则；(2)加权平均平方距离和准则；(3)加权类间距离和准则。2 K-means聚类算法分析　　2.1 K-means算法过程　　K-means聚类的算法流程如下：　　输入：含有n个对象的数据集X={xi|xi∈Rd，i=1，2，…，n}，聚类的个数k。　　输出：k个类W1，W2，…，Wk。　　(1)从数据集X中随机选取k个初始聚类中心c1，c2，…，ck。　　(2)依据初始聚类中心c1，c2，…，ck对数据集进行划分，划分根据以下原则：若dij(xi，cj)&dim(xi，cm)，其中dij(xi，cj)是xi与cj的欧式距离，m=1，2，…，k，j=1，2，…，k，j≠m，i=1，2，…，n，则将xi划分到类cj。　　(3)依据公式，ni为以聚类Ci为中心数据对象的个数，重新计算类的质心。　　　(5)输出聚类结果。　　K-means聚类算法的流程如图1所示。　　2.2 K-means算法缺点　　(1)K-means算法需要首先设定K值，而算法运算中K是一个敏感值，不同的K值可能会造成不同的运算结果。　　(2)对于一些噪声和孤立的数据较为敏感。　　(3)簇的平均值只有被定义才能使用，这不利于处理一些有特殊属性的数据。　　2.3 K-means算法的改进　　(1)改进初始值K，尽量减少人工干预　　利用类间相异度与类内相异度来确定最终的K值，具体分3步来实现：首先，选取数据集合的中间点即所有数据集合的平均值，利用欧几里得距离计算公式，计算出距离中间点最远距离的对象N1，再计算出与N1距离最远的对象N2，筛选出初始聚类中心。其次计算剩余数据对象与数据中心集合间的距离，取最小距离D，计算聚类中心之间的距离，找出最小距离C，如果D&C，则将对象放入到最小距离的聚合中，否则将其纳入初始聚合中心，生成新的聚合中心，后面的数据依次与聚合中心间最小距离与D对比，循环所有数据，最终形成聚类中心集。最后，采用类间相异度与类内相异度来确定最终的聚类个数K值。　　类内的相异程度DOC：　　　　类间相异度DAC：　　　　其中，nc表示聚类的数目，mi表示类Cj中心，xkj表示Cj中的第k个数据对象的第j个属性值，d(mi，mj)表示Ci与Cj间的欧几里得距离，表示类中第j个属性值。　　改进后的计算方法如下：　　输入：含有n个对象的数据集X={xi|xi∈Rd，i=1，2，…，n}。　　输出：k个类W1，W2，…，Wk。　　①对聚类中心进行初始化，获得3个聚类中心。根据公式计算出第1个聚类中心m0，再根据欧几里得距离计算出与m0最远的数据对象作为第2个聚类中心m1，最后计算出与m1距离最远的数据对象当成第3个聚类中心m2。　　②根据欧几里得公式计算数据集和聚类中心的距离，归类所有数据，重新计算聚类中心。　　③计算剩余数据对象与聚类中心的最小距离D及聚类中心之间的最小距离C，计算出此时的类内相异度DOC_old 和此时的类间相异度DAC_old。　　④如果D&C，则把这个数据对象作为新的聚类中心，并且计算新的类内相异度DOC_new和新的类间相异度DAC_new，运行步骤⑤；否则转到步骤⑥。　　⑤如果DOC_new&DOC_old且DAC_new&DAC_old则产生新类，转到步骤②重复步骤②～⑤；否则恢复状态，执行步骤⑥。　　⑥取下一个类Wi，如果没有新的类，则转到步骤⑦；否则反复执行步骤②～⑤。　　⑦输出聚类结果。　　(2)对噪声和孤立点处理能力的改进　　有时孤立点或噪声具有入侵特征，容易干扰 K-means算法的聚类结果，这里改进原始算法来消弱噪声和孤立点的影响。对于数据集中的所有点i，计算出每一点与剩余点的距离和Si，同时计算出距离均和H，当Si&H时，则点i被当做孤立点处理。其中n为样本数据，d为数据维数。计算如下：　　　　算法描述如下：　　①输入数据集，利用上述公式计算每一Si和H；　　②对于每一点i，如果Si&H，则将i作为孤立点；　　③删除孤立点，获得新的数据集。3 改进算法在入侵检测系统中的应用及仿真分析　　针对于入侵检测系统的缺陷,给出了基于改进算法的入侵检测模型流程，如图2所示。　　系统检测的对象是网络日志中的数据。先做标准化处理，再进行聚类分析。通过筛选孤立点和改进聚类中心从而提高聚类的准确性。接着进入决策报警分析系统。根据聚类的结果甄别具有攻击特征的记录，一旦发现潜在威胁马上启动报警系统，阻止相关攻击的进一步操作，并报告网络管理者，与此同时挖掘其他的潜在特征，为以后判断攻击提供必要的依据。若没有发现攻击行为则继续监视网络动态。对网络日志文件进行标准化的同时，也将其存入历史数据库中。并进行标准化处理和特征挖掘，进而数据匹配分类，构建成分类器。在分类器的反复训练下可从这些记录中挖掘出正常和非正常行为，并存入到规则库中，作为今后判断入侵行为的决策机构。　　表1列出的是20条网络连接记录的特征数据。其中，count表示目标主机与当前连接相同的次数；SY_error表示SYN错误连接所占的百分数；same_srv表示目标端口相同连接的百分数；Dif_srv表示目标端口不同连接的百分数；Srv_count表示目标主机与当前连接相同的次数；Srv_serror表示SYN连接错误的百分数；Rv_dif_host表示目标端口不同连接的百分数[10]。本文主要对三维数组（count，Srv_serror，Srv_count）进行分析。三组特征数据的空间分布图如图3所示。　　这个三维数组基本显示了数据是否具有攻击特征。通过分析这3个参数可以区分攻击行为、异常行为和正常行为。当目标端口与当前连接相同的次数大于15次，并且主机出现错误SYN连接的百分数大于85％，目标端口与当前连接相同次数大于25次时认为是攻击行为；若目标端口与当前连接相同的次数大于6次，并且主机出现错误SYN连接的百分数大于75％，目标端口与当前连接相同次数大于6次时认为是异常行为；其他则认为是正常行为。　　采用传统的 K-means 算法聚类分析3组数据后将20条数据信息分为3类：记录3为攻击行为(即图4中圆形区域)；记录4，5，6，12，13，19，20为异常行为(即图4中椭圆区域)；其余的记录为正常行为(即图4中矩形区域)。根据上述3种行为的特征，可以将攻击、异常和正常行为区分开来。传统K-means 算法却不能进一步分析异常行为是否有攻击特征。传统K-means 算法对实验数据聚类分析的空间结果如图4所示。　　改进算法会分离出记录3（孤立点），并判断其为攻击行为，如图5中圆形区域。改进的K-means 算法将剩余的19条记录聚类为三部分，记录4，5，6，12，13，19，20为异常行为(如图5中椭圆区域)，其中5，19接近于攻击行为(如图5中正方形区域)。其余的记录为正常行为。改进算法有效地提高了检测的准确率。改进的K-means 算法对实验数据聚类分析的空间结果如图5所示。4 总结　　本文简单介绍了K-means算法，详细阐述了对算法的改进，针对聚类算法中心个数难以确定的问题，本文改进了传统K-means聚类算法中心个数确定的方法，提出了一种新的中心个数确定算法。同时对传统K-means算法进行进一步的改进，以减少数据中噪声点和孤立点对聚类精度的影响。并将传统K-means算法和改进的K-means算法应用于入侵检测系统中。实验结果发现，基于改进的K-means算法的入侵检测系统具有更好的入侵检测效果，改进算法不仅降低了关键参数的敏感性，提高了区分精度，还在一定程度上提高了网络入侵检测的检测率，降低了误检率。参考文献　　[1] 曹永春，蔡正琦，邵亚斌.基于K-means的改进人工蜂群聚类算法[J]．计算机应用，)：204-207.　　[2] 傅德胜，周辰.基于密度的改进K均值算法及实现[J].计算机应用，)：432-434．　　[3] 牛琨，张舒博，陈俊亮．融合网格密度的聚类中心初始化方案[J]．北京邮电大学学报，)：6-10．　　[4] 张文明，吴江，袁小蛟.基于密度和最近邻的K-means文本聚类算法[J].计算机应用，)：.　　[5] 崔斌，卢阳.基于不确定数据的查询处理综述[J]．计算机应用，)：.　　[6] KOLEN J F，HNTCHESON T.Redneing the time complexityof the fuzzy c-means algorithm[J]．IEEE Transactions on Fuzzy Systems，)：263-267.　　[7] 王勇，唐靖，饶勤菲，等.高效率的K-means最佳聚类数确定算法[J]．计算机应用，)：.　　[8] 吕明磊，刘东梅，曾智勇.基于改进的K-means算法的图像检索算法[J]．计算机应用，)：195-198.　　[9] 雷小锋，谢昆青，林帆，等.一种基于K-means局部最优性的高效聚类算法[J]．软件学报，)：.　　[10] 高红艳，刘飞.基于局部相似性的K-means谱聚类算法[J]．小型微型计算机系统，)：.
继续阅读>>
热门关键词K-means算法的改进_百度文库
两大类热门资源免费畅读
续费一年阅读会员，立省24元！
K-means算法的改进
上传于|0|0|暂无简介
阅读已结束，如果下载本文需要使用2下载券
想免费下载本文？
定制HR最喜欢的简历
下载文档到电脑，查找使用更方便
还剩3页未读，继续阅读
定制HR最喜欢的简历
你可能喜欢

k-meanskmeans聚类算法数据集效果怎么提升

我要回帖

更多关于 kmeans算法应用实例的文章

随机推荐

k-meanskmeans聚类算法数据集效果怎么提升

我要回帖

更多关于 kmeans算法应用实例 的文章

随机推荐

更多关于 kmeans算法应用实例的文章