搞懂箱形图分析,快速识别异常值! 问题求助 怎么计算异常点(med) 还有q1和q3的计算。教我如何计算谢谢!

箱线图,又称作箱须图(box-whisker plot)是利用数据中的五个特征值——最小值、第一四分位点、中值、第三四分位点、最大值来描述数据的图形。箱线图可以粗略的估计数据是否具有对称性,粗略观察数据的分散程度,特别可用于对几个样本的比较。

箱线图美中不足之处在于它不能提供关于数据分布偏态和尾重程度的精确度量;对于批量较大的数据集,箱线图反映的形状信息更加模糊;用中位数代表总体平均水平有一定的局限性等等。所以,应用箱线图最好结合其它描述统计工具如均值、标准差、偏度、分布函数等来描述数据集的分布形状。

很多统计软件可以方便的绘制箱线图,比如SPSS和SAS等,而作为数学及工程界经常使用的MATLAB软件来说,它也提供了功能强大的统计工具箱,函数boxplot就可以用来方便的绘制箱线图。

首先,看一下箱线图的样式,及各部分的意义,如下图所示:

上图形象的说明了一幅箱线图的各种组分。使用箱线图可以直观的识别数据批中的异常值,箱线图中的异常值被定为Q1-1.5*IQR~Q3+1.5*IQR之外的值,具有一定的经验性。与其余异常值判别法比如3σ法不同的是,箱线图不用提前假设样本属于某种分布,依靠实际数据来直观显示。利用箱线图可以直观的判断数据的偏态和尾重。可以比较几组数据的形态。

通过箱线图的绘制过程来了解箱线图的意义:

  1. 计算上四分位数(Q3),中位数,下四分位数(Q1)。
  2. 计算上四分位数和下四分位数之间的差值(Q3-Q1),即四分位数差(IQR,interquartile range)。
  3. 绘制箱线图的矩形,上限为上四分位数,下限为下四分位数。在矩形内部中位数的位置画一条横线(中位线)。
  4. 在Q3+1.5IQR和Q1-1.5IQR处画两条与中位线一样的线段,这两条线段为异常值截断点,称为内限;在Q3+3IQR和Q1-3IQR处画两条线段,称为外限。处于内限以外位置的点所表示的数据都是异常值(outliers),其中在内限与外限之间的异常值为温和的异常值(mild outliers),在外限以外的为极端的异常值(extreme outliers)。(注意:统计软件绘制的箱线图一般都没有标出内限和外限。)
  5. 在非异常值的数据中,最靠近上边缘和下边缘(即内限)的两个数值处,画横线,作为箱线图的触须。
  6. 从矩形的两端向外各画一条线段直到不是异常值的最远点(即上一步的触须),表示该批数据正常值的分布区间。
  7. 温和的异常值(即处于1.5倍-3倍四分位数差之间的异常值)用空心点表示;极端的异常值(即超出四分位数差3倍距离的异常值)用实心点(也可以用星号*)表示。

附上一张图以便利于理解:

MATLAB统计工具箱中的boxplot可以方便的绘制箱线图,其常用使用方法如下:

可选中1个或多个下面的关键词,搜索相关资料。也可直接点“搜索资料”搜索整个问题。

我要回帖

更多关于 搞懂箱形图分析,快速识别异常值! 的文章

 

随机推荐