spss支持diane birchh算法吗,如何实现

苹果/安卓/wp
苹果/安卓/wp
积分 512, 距离下一级还需 288 积分
权限: 自定义头衔, 签名中使用图片
道具: 彩虹炫, 雷达卡, 热点灯, 雷鸣之声, 涂鸦板, 金钱卡, 显身卡, 匿名卡, 抢沙发下一级可获得
权限: 隐身
购买后可立即获得
权限: 隐身
道具: 金钱卡, 雷鸣之声, 彩虹炫, 雷达卡, 涂鸦板, 热点灯
上火签到天数: 195 天连续签到: 3 天[LV.7]常住居民III
今日在学习SPSS的TwoStep算法,多方努力找了一些文献资料,都是算法的原始文档,包括的算法研发论文,共享 一下啦~~~
15:42:36 上传
这几篇都是twostep文献中提到的关键论文,关于SPSS的算法,可参见
网页的东西也整理了,需要的可短我私人索取~~~
l&&Zhang, T., R. Ramakrishnon, 和 M. Livny. 1996. BIRCH:An efficient data clustering method for very large databasesl&&Chiu, T., D. Fang, J. Chen, Y. Wang, 和 C. Jeris. 2001. A Robust and Scalable Clustering Algorithm for Mixed Type Attributes in Large Database Environmentl&&SPSS TwoStep Cluster-A First Evaluationl&&SPSSstics17.0Algorithmsl&&The SPSS TwoStep Cluster Component-A Scalable Component to Segment Your Customers More Effectively
(913.86 KB, 售价: 3 个论坛币)
15:41:39 上传
售价: 3 个论坛币
载入中......
两步聚类还是挺强大的功能,尤其是对于大样本,在SPSS里输出很漂亮,顶LZ
THE SLEEPER HAS AWAKEN.
这个找了很久了
签名被屏蔽
楼主提供的资料不错。
谢谢楼主。
太有用啦,正好两步聚类遇到了奇怪的问题(想对subject作聚类,结果subject的排列顺序居然对聚类结果有影响= =),希望能通过看算法解决
论坛好贴推荐
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
为做大做强论坛,本站接受风险投资商咨询,请联系(010-)
邮箱:service@pinggu.org
合作咨询电话:(010)
广告合作电话:(刘老师)
投诉电话:(010)
不良信息处理电话:(010)
京ICP证090565号
京公网安备号
论坛法律顾问:王进律师利用Matlab和SPSS软件实现聚类分析_百度文库
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
利用Matlab和SPSS软件实现聚类分析
上传于||文档简介
&&利​用​M​a​t​l​a​b​和​S​P​S​S​软​件​实​现​聚​类​分​析
阅读已结束,如果下载本文需要使用
想免费下载本文?
下载文档到电脑,查找使用更方便
还剩6页未读,继续阅读
你可能喜欢层次聚类算法的研究与应用研究,应用,聚类,层次与,与应用,算法的,和应用,层次聚类,..
扫扫二维码,随身浏览文档
手机或平板扫扫即可继续访问
层次聚类算法的研究与应用
举报该文档为侵权文档。
举报该文档含有违规或不良信息。
反馈该文档无法正常浏览。
举报该文档为重复文档。
推荐理由:
将文档分享至:
分享完整地址
文档地址:
粘贴到BBS或博客
flash地址:
支持嵌入FLASH地址的网站使用
html代码:
&embed src='/DocinViewer-4.swf' width='100%' height='600' type=application/x-shockwave-flash ALLOWFULLSCREEN='true' ALLOWSCRIPTACCESS='always'&&/embed&
450px*300px480px*400px650px*490px
支持嵌入HTML代码的网站使用
您的内容已经提交成功
您所提交的内容需要审核后才能发布,请您等待!
3秒自动关闭窗口[转载]Birch算法
Birch算法全称是利用层次方法的平衡迭代约减和聚类(Balanced Iterative Reducing and
Clustering Using
Hierarchis)。该算法的优点是:第一,只需要一次访问数据库,速度快。第二,相似数据在很大程度上得到压缩,节省了存储空间。第三,不需要大量递归运算。一个聚类有了这三个优点,不优秀都难了。它是采用B-树的思想实现(有点遗憾,要是这个算法也是韩佳炜老师发明的就好啦)。
Birch算法虽然采用B-树实现但是它又不是一个完全的B-树,因为第一,它的所有元素全部保存在叶子节点中,第二,在一个BTNode中的关键字间并没有大小关系,第三,当一个BTNode中的关键字个数大于指定数时,不需要将第(M+1)/2个关键字移到上一层节点中去,而是之间分裂成两个BTNode,再在上层中对应的BTNode中加个关键字。现在假定读者知道B-树的原理。先说明几个结构体:
//维信息,相同值会合并起来
//要按data排序,方便后面计算距离
typedef struct AttNode
&//具有该值的记录数目
&//该维上下一个不同取值
&AttNode *&
//记录信息,也即是簇信息
typedef struct CFNode
&//记录条数
&//属性数组
&//每个AttNode指针带头结点,方便合并两个CFNode
&AttNode *atts[attNum];
typedef struct BTNode
&//已有CF数目
&//0号单元未用
//要是模仿B-树的话,应该是M+1,但是为了方便分裂就变成M+2了
&//注意keys的第1位和ptr的0位对应,keys的第2位和ptr的1位对应,以此类推
&CFTree keys[M+2];
&BTNode *ptr[M+2];
//叶子结构体,用于将B-树的叶子节点连起来
typedef struct BLeafNode
&BLeafNode *
//beginLeaft保存起始叶子节点的位置
BLeafTree beginL
以上各个结构体的注释已经很明确了,不需要再说明了,下面把这颗类B-树画出来:
图中一个BTNode最多包含4个CFNode,每个CFNode就相当于一个簇,而每个BTNode里面的所有CFNode相当于一个大簇。当插入一个新纪录时,是从底往上修改的,所以叶子节点是等深的,用BLeafNode将所有叶子节点窜连起来,方便挖掘这颗B-树。还是用例子说明吧。
先插入第一条记录,用该纪录创建一个CFNode,再用该CFNode创建一个BTNode作为根节点。图如下:
从第二条记录起就具有一般性了,插入第二条记录时,用该条记录创建一个临时CFNode,记cft,然后从根节点开始,看cft和根节点的哪个CFNode距离最近(当然目前只有一个CFNode),根据这个CFNode找到它的子BTNode(当然这里没有),一直这样下去,直到叶子节点(当然这里根节点也就是叶子节点)。假如cft和找到的最近的BTNode,记bt,的最近的那个CFNode,记cfp的距离是d,如果d小于给定的阈值minDis,则将cft和cfp合并,然后从该叶子节点向上跟新各个BTNode的信息直到跟节点,跟新的方法是将cft的信息合并到父节点的各个CFNode中(具体看代码吧)。如果d大于给定的阈值,但是bt的CFNode小于给定的阈值M,则将cft作为bt的一个新CFNode,然后依然从该叶子节点向上跟新各个BTNode的信息直到跟节点。如果bt的cfp大于给定的阈值M,则只能将bt分裂成两个BTNode,然后将原BTNode也就是bt所对应的父节点,记r,的对应的CFNode分裂成两个CFNode,如果那时r中的CFNode数目也大于M则继续向上分裂,否则向上跟新。这里有很多细节问题,也不好描叙,直接看代码吧。
下面讲下这么处理字符型数据。下面是以前做的笔记。
Birch算法也有不足的地方,第一,它对输入数据的先后顺序敏感,第二,每个CFNode将各条记录的数据相同的部分合并了,不能还原成原来的记录了。但是我们还是很方便求出每个簇的平均值等信息。
以上网友发言只代表其个人观点,不代表新浪网的观点或立场。常用的聚类方法有哪几种??_百度知道
常用的聚类方法有哪几种??
基于密度的聚类算法,可用spss简单操作实现;
4.k-mean聚类分析 适用于样本聚类.基于网络的聚类;
3.两步聚类 适用于分类变量和连续变量聚类;前3种;
5.机器学习中的聚类算法.分层聚类 适用于对变量聚类
其他类似问题
为您推荐:
其他1条回答
3.1 K-pototypes算法
  K-pototypes算法结合了K-means方法和根据K-means方法改进的能够处理符号属性的K-modes方法,同K-means方法相比,K-pototypes 算法能够处理符号属性。
  3.2 CLARANS算法(划分方法)
  CLARANS算法即随机搜索聚类算法,是一种分割聚类方法。它首先随机选择一个点作为当前点,然后随机检查它周围不超过参数Maxneighbor个的一些邻接点,假如找到一个比它更好的邻接点,则把它移人该邻接点,否则把该点作为局部最小量。然后再随机选择一个点来寻找另一个局部最小量,直至所找到的局部最小量数目达到用户要求为止。该算法要求聚类的对象必须都预先调人内存,并且需多次扫描数据集,这对大数据量而言,无论时间复杂度还是空间复杂度都相当大。虽通过引人R-树结构对其性能进行改善,...
聚类的相关知识
等待您来回答
下载知道APP
随时随地咨询
出门在外也不愁

我要回帖

更多关于 diane birch 的文章

 

随机推荐