为什么matlab计算马氏距离离是与尺度无关的

原创于西周而后沿袭至今的彩礼,虽然被一部分家长奉为圭臬,但越来越多的年轻人对结婚必须要彩礼不以为然。彩礼引发的社会矛盾越来越受到关注,结婚是自己的事,如人饮水冷暖自知,至于要不要彩礼或者要多少彩礼,因人而异,因财力而已,不可一概而论。
在此可输入您对该资料的评论~
(window.slotbydup = window.slotbydup || []).push({
id: '4540180',
container: s,
size: '250,200',
display: 'inlay-fix'
热门资料排行
添加成功至
资料评价:
所需积分:0马氏距离的深入理解 - kalor - 博客园
随笔 - 196
&&&&& 对于马氏距离,本人研究了一下,虽然看上去公式很简单的,但是其中存在很多模糊的东西,例如有很多教科书以及网络上的简要说明,下面以维基百科作为引用:
马氏距离是由印度统计学家马哈拉诺比斯()提出的,表示数据的距离。它是一种有效的计算两个未知的相似度的方法。与不同的是它考虑到各种特性之间的联系(例如:一条关于身高的信息会带来一条关于体重的信息,因为两者是有关联的)并且是尺度无关的(scale-invariant),即独立于测量尺度。 对于一个均值为,为&S的多变量矢量,其马氏距离为
马氏距离也可以定义为两个服从同一分布并且其协方差矩阵为&S的随机变量与的差异程度:
如果协方差矩阵为单位矩阵,马氏距离就简化为欧式距离;如果协方差矩阵为对角阵,其也可称为正规化的马氏距离。
其中&i是xi的。
&&&&& &对于上述的马氏距离,本人研究了一下,虽然看上去公式很简单的,但是其中存在很多模糊的东西,为什么马氏距离是一种考滤到各种特性之间的联系并且是尺度无关的?为什么可以使用协方差矩阵的逆矩阵去掉单位而使之尺度无关。基于此,以下是个人的一些想法。
&1、为什么要使变量去掉单位而使尺度无关
&&&&&&& 基于欧氏距离,两个点之间的长度为:
每个变量之间的变量之间的尺度都不一样,例如第一个变量的数量级是1000,而第二个变量是变量的数量级是10,如v1=(3000,20),v2 = (5000,50),那么如果只有2维的点中,欧氏距离为:
由上面可以很容易看出,当两个变量都变成数量级为10的时候,第一个变量存在一个权重:10,因而如果不使用相同尺度的时候,不同尺度的变量就会在计算的过程中自动地生成相应的权重。因而,如果两个变量在现实中的权重是相同的话,就必须要先化成相同的尺度,以减去由尺度造成的误差,这就是标准化的由来。
&&&&&& 如果化成相同尺度的方法就变成标准化方法了,标准化的方法有很多种,有些办法是使数据化成[0,1]之间,如min-max标准化,有些通过原始数据减去平均值再除标准差的方法,如z-score标准化,有些类似如上面的方法那样,化成相同的数量级的方法,如decimal scaling小数定标标准化。
2、为什么马氏距离是与尺度无关的?
&&&&&& 根据上面1所描述,当计算两点的相似度(也可以说是距离的时候),第一步是首先标准化,化成与尺度无关的量,再计算它的距离。但是如果是单纯使每个变量先标准化,然后再计算距离,可能会出现某种错误,原因是可能在有些多维空间中,某个两个维之间可能是线性相关的,如下图所示(引用自:):
&黄色部分为样品点,可以知道x1与x2是线性相关的,根据正态分布,对于中心点u,与A与B的标准距离应该是相同的,而马氏距离能做到这一点,但欧氏距离做不到,如下图所示:
由上图看到,如果使用欧氏距离,A点与B点距离中心点相同,但是又可以看出,A点处于样品集的边缘了,再外出一点就成异常点了。因此我们使用欧氏距离计算的时候,不能有效地区分出异常数据,看不出两变量之间的相似性与差异性,而上图中,A与B对于全体样品来说,差异性是够大的了。
&&&&&&& 为了解决这个问题,我们可以通过旋转坐标轴的方法,如下图所示:
可以看到y1与y2是线性无关的,因此我们可以通过对线性无关的分量进行标准化后,再求得距离是合理的。其实通过旋转坐标轴的方式,相当于对x进行相应的线性变换:Y = PX,使Y里面的各分变量变成线性无关的。设是随机向量=[x1,x2,...xp]的协方差矩阵,它有特征值-特征向量对(&1,e1), (&2,e2),.....(&p,ep),其中&1&=&2&=....&=&p,则第i主成分由
&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&
&因此得到的新的变量Y里面的各分量是线性无关的,此时对于离中心点距离为某常数C形成的曲面是超椭球面。而yi的方差为&i,因而需要再把yi标准化,使之变成yi/&i,形成新的yi,这样生成的yi之间变成了与尺度无关的变量了,公式如下:
其中P是以特征向量为行向量的矩阵,根据正定距阵,特征向量互相正交。
&&&&&& 现在来验证Y的协方差:
&所以,对于旋转压缩后的Y的各分量之间线无关,而且已经标准化,与尺度无关,此时以Y分量为坐标轴形成的空间中,离中心距离为常数C的面为正圆球面。因而可以直接使用欧氏距离描述两点之间的相似度,也就是距离,因此有:
&因此,当原坐标经过适当的变换之后,可以求出两点与尺度无关的距离,这也是使用马氏距离的原因。
参考书籍:实用多元统计分析-第六版,Rechard A.Johnson (关于距离、主成分分析)
&&&&&&&&&&&&&&&&
参考资料:
&&&&&&&&&&&&&&&&
阅读(...) 评论()基于马氏距离的稀疏表示分类算法_图文_百度文库
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
基于马氏距离的稀疏表示分类算法
阅读已结束,下载文档到电脑
想免费下载本文?
定制HR最喜欢的简历
下载文档到电脑,方便使用
还剩1页未读,继续阅读
定制HR最喜欢的简历
你可能喜欢欧氏距离:(∑(Xi-Yi)2),即两项间的差是;我们熟悉的欧氏距离虽然很有用,但也有明显的缺点;如果用dij表示第i个样品和第j个样品之间的距离;①当且仅当i=j时,dij=0;②dij>0;③dij=dji(对称性);④dij≤dik+dkj(三角不等式);显然,欧氏距离满足以上四个条件;第i个样品与第j个样品的马氏距离dij用下式计算;其中,xi和xj
欧氏距离:(∑(Xi-Yi)2),即两项间的差是每个变量值差的平方和再平方根,目的是计算其间的整体距离即不相似性。
我们熟悉的欧氏距离虽然很有用,但也有明显的缺点。它将样品的不同属性(即各指标或各变量)之间的差别等同看待,这一点有时不能满足实际要求。例如,在教育研究中,经常遇到对人的分析和判别,个体的不同属性对于区分个体有着不同的重要性。因此,有时需要采用不同的距离函数。
如果用dij表示第i个样品和第j个样品之间的距离,那么对一切i,j和k,dij应该满足如下四个条件:
①当且仅当i=j时,dij=0
③dij=dji(对称性)
④dij≤dik+dkj(三角不等式)
显然,欧氏距离满足以上四个条件。满足以上条件的函数有多种,本节将要用到的马氏距离也是其中的一种。
第i个样品与第j个样品的马氏距离dij用下式计算:dij=(xi一xj)'S-1(xi一xj)
其中,xi和xj分别为第i个和第j个样品的m个指标所组成的向量,S为样本协方差矩阵。 巴氏距离:In statistics, the Bhattacharyya distance measures the similarity of
two discrete probability distributions. It is normally used to measure the separability of classes in classification.
For discrete probability distributions p and q over the same domain X, it is
defined as:
is the Bhattacharyya coefficient. For continuous distributions, the Bhattacharyya coefficient is defined as:
In either case,
inequality, but
and . DB need not obey the triangle
does obey the triangle inequality.
For multivariate Gaussian distributions pi = N(mi,Pi),
where mi and Pi are the means and covariances of the distributions, and
Note that the first term in the Bhattacharyya distance is related to the Mahalanobis distance.(巴式距离和马氏距离之间的关系)
马氏距离:马氏距离有很多优点。它不受量纲的影响,两点之间的马氏距离与原始数据的测量单位无关;由标准化数据和中心化数据(即原始数据与均值之差)计算出的二点之间的马氏距离相同。马氏距离还可以排除变量之间的相关性的干扰。它的缺点是夸大了变化微小的变量的作用。
概念:马氏距离是由印度统计学家马哈拉诺比斯提出的,表示数据的协方差距离。它是一种有效的计算两个未知样本集的相似度的方法。
与欧氏距离不同的是它考虑到各种特性之间的联系,即独立于测量尺度。
马氏距离的其它定义:马氏距离也可以定义为两个服从同一分布并且其协方差矩阵为∑的随机变量的差异程度:如果协方差矩阵为单位矩阵,马氏距离就简化为欧氏距离;如果协方差矩阵为对角矩阵,则其也可称为正规化的欧氏距离。
三亿文库包含各类专业文献、文学作品欣赏、幼儿教育、小学教育、行业资料、中学教育、应用写作文书、生活休闲娱乐、外语学习资料、各类资格考试、巴氏、欧式、马氏距离34等内容。 
 第三章姓名:苏刚 作业学院:数学与计算机学院 学号: 一、述马氏距离、...巴氏、欧式、马氏距离 3页 免费
DEA(数据包络分析法)讲义... 43页 免费
...  显然,A 离左边的更近,A 属于左边总体的概率更大,尽管 A 与 a 的欧式距离远一 些。这就是马氏距离的直观意义了。 马氏距离的定义如下: 定义 1:设 X,Y ...  马氏距离2_数学_自然科学_专业资料。欧氏距离 、马氏距离 、巴氏距离 matlab欧氏...在二维和三维空间中的欧式距离的就是两点之间的距离,二维的公式是 d = sqrt(...  马氏距离判别与贝叶斯判别_计算机软件及应用_IT/计算机_专业资料。商务数据分析...述马氏距离欧式距离Tani... 3页 1下载券
马氏距离 20页 1下载券
马氏...  距离判别是基于欧氏距离或马氏距离,将样品判断为与之距 …_其它考试_资格考试/认证_教育专区。基于投影的组合判别方法梁飞豹*,陈婷婷(福州大学 数学与计算机科学学院...  例子:计算向量(0,0)、(1,0)、(0,2)两两间的欧式距离 X = [0 0 ; ...马氏距离(Mahalanobis Distance) (1)马氏距离定义 有 M 个样本向量 X1~Xm,协...  在绝大多数情况下, 马氏距离是可以顺利计算的,但是马氏距离的计算是不稳定 的,不稳定的来源是协方差矩阵,这也是马氏距离与欧式距离的最大差异之处。 优点: 它不...  ∵正交变换距阵 A 具有性质 A?A’=I ∴ 欧氏距离具有正交旋转不变性 2、马氏距离对一切非奇异线性变换具有不变性 ∵非奇异矩阵 A 存在 A-1 ∴ 马氏距离...  ?2 ,故广义平方距离判别法与马氏距离判别法一致。 类样本的协方差阵相等,即 使用 SAS 软件中 DISCRIM 的过程进行判别归类: 计算结果,首先给出两组间的马氏距离...【香樟推文0645】亲,你计算的马氏距离稳健吗?
图片来源:
/articles/c15a.html
原文信息:
Hardin, J., and Rocke, D. (2005), “The Distribution of Robust Distances,” Journal of Computational and Graphical Statistics, 14:4, 928-946.
本人的推文和其他人的比起来可能会枯燥很多。毕竟自己的研究方向偏向于金融计量,现在专注于高维数据统计检验的构造以及在金融市场上的应用。因此,不可避免的只能推送与此相关的论文。但我会尽量用直白的语言,把文章的思想讲出来,希望能有所帮助。
OK,步入正题。说到异常值的检测,毋庸置疑,无论在理论上还是实际应用分析中均具有着重要的意义。对于一维或者二维的数据,异常值通常可以简单的画图便可区分。但是对于高维数据而言,这就不在是一个简单的问题了。尽管我们可以想象得到异常值一定是在某一个投影下距离大部分数据较远的那些点,但如何准确识别这个投影依然是个难题。
在高维数据情况下,如何识别异常值的论文非常多。本文的方法在思路上和计算上都算是可行性最强的一种。本文的思路是:计算每个数值与数据“中心”的距离,那么异常值一定是大于某个预先给定临界值之外的所有的点。传统的衡量距离的方法即马氏平方距离(MSD)。公式如下:
如果仅存在少量的异常值,那么通过得出的统计量会是那些较大的值(这里和分别为样本均值和协方差矩阵)。马氏距离在均值和方差已知的条件下,分布是已知的,但问题是在于大多数情况真实参数未知,而我们只能使用样本参数代替总体参数,此时问题就出现了,基于样本构造的均值和方差对于异常值并不稳健。即使我们使用了稳健的样本均值和方差,此时的分布也不在是我们经常使用的卡方分布。
在文章中作者使用了一个例子,通过使用Hawkins, Bradu and Kass(1984)的维数为3的75个样本点,若使用传统的马氏距离,我们仅仅只能看到一个异常值。然而实际上,该数据是存在13个异常值的,我们这种现象叫做masking and swamping。
为了解决这一问题,本文采用MCD计算稳健的位置参数和尺度参数,尽管此时不在服从卡方分布,但作者发现F分布可以很好的拟合异常值部分。
稳健估计量
本文采用的方法来自Rousseeuw(1985)(当时我的一位老师推荐用这种方法尝试解决我的问题,后来才发现原来Rousseeuw就是我所在学校VUB毕业的,难怪这边有很多人都在用这个方法)。主要定义如下所示:
h可以认为不是异常值的最小样本个数,一般我们我们取(n+p+1)/2的floor值。MCD是从可以使得方差协方差矩阵行列式最小中取得。(弱弱的说一句,r中已经有package,感兴趣的小伙伴可以看下cov.mcd()命令)。通过使用MCD获得的位置参数和尺度参数再次估计HBK数据中的距离。此时,我们可以惊奇的发现,咦,14个点都出来了(不信你数数咯)。
如果小伙伴觉得到此已经完美解决这个问题了,那只能说你too na?ve。不信,仍然使用MCD方法估计Atkinson(1994)的数据。那么我们会获得下面这样的一个结果:
怎么样,是不是有点傻眼了?这到底是有多少个异常值,一个?五个?还是六个?因此本文的另一个工作就是寻找一个最优的临界值。
本文作者发现,在样本为多元正态,通过MCD获得位置参数和尺度参数的条件下,我们可以获得如下分布:
有了分布,那么问题就迎刃而解了。但当小伙伴看到这个统计量中还有c和m后,是不是纳闷这个是什么鬼?不用担心,文中作者已经证明,c和m可以通过非常简单的方式获得,而且R的code都可以在笔者主页上找到(赞一个)。
文章最后笔者对使用传统的卡方分布和不同方法下获得的m值的模拟结果进行了比较。结果大家猜得到,当然是他们提出的方法,可以很好的识别异常值咯,从此,妈妈再也不用担心我们构造的马氏距离不稳健了。
Mahalanobis-type distances in which the shape matrix is derived from a consistent, high-breakdown robust multivariate location and scale estimator have an asymptotic chi squared distribution as is the case with those derived from the ordinary covariance matrix. For example, Rousseeuw's minimum covariance determinant(MCD) is a robust estimator with a high breakdown. However, even in quite large samples, the chi-squared approximation to the distances of the sample data from the MCD center with respect to the MCD shape is poor. We provide an improved F approximation that gives accurate outlier rejection points for various sample sizes.
尊请的读者
如果您从阅读本文中得到启发,或者受益,请您为本文打赏,以感谢推文者的辛苦工作,鼓励她(他)下一期提供更精彩的推文。(香樟打赏直接给每期的推文作者)
香樟经济学术圈征稿
“分享”是一种学者的人文情怀,香樟经济学术圈欢迎广大订阅读者(“香粉”)向公众平台投稿,也诚邀您加入香樟推文team。生活处处皆经济,经济处处现生活。如果你或者身边的朋友看了有趣的学术论文,或者撰写了经济政策评论,愿意和大家分享,欢迎投稿(经济金融类),投稿邮箱:。如果高校、研究机构、媒体或者学者,愿意与平台合作,也请您通过邮箱联系我们。
香樟经济学术圈
本期小编:张美晨
责任编辑:
声明:本文由入驻搜狐号的作者撰写,除搜狐官方账号外,观点仅代表作者本人,不代表搜狐立场。
今日搜狐热点

我要回帖

更多关于 马氏距离计算实例 的文章

 

随机推荐