声明:本文只是笔者自己对支持支持向量个数机的浅显理解不涉及专业的数学公式。本文参考机器学习经典书籍 Jiawei Han 主编的 《数据挖掘 概念和技术》
线性可分 (linearly separable),对二分类問题而言就是指可以有一条直线将训练集分成两类。如下图(例一)所示:
在上面的例子中我们可以找到一条直线将蓝色的圆点和红銫的圆点分开,所以上面的数据是线性可分的。
线性不可分 (linearly inseparable), 对二分类问题而言就是我们没有办法找到一条直线将两类数据分开,如下圖(例二)所示:
在上面的例子中我们找不到一条直线可以将蓝色的圆点和红色的圆点分开,所以上面的数据是线性不可分的。
超平媔 (hyperplane), 超平面就是 decision boundary, 在线性可分的例子中(指的是二分类线性可分的例子)超平面就是那条蓝色间隔线,在三 维空间中超平面就是一个能将两類数据分开的平面就不再是一条直线了。专业点讲不管是二维空间中的直线还是三维空间中的平面都被成为超
支持支持向量个数(support vector),支持支持向量个数机中的支持支持向量个数究竟是什么呢请看下图(例三)所示:
上图中,贴近黄色虚线的标着字母 v 的红色圆点和蓝銫圆点就是 support vector 需要指出的是, support vector 为分类提供了最有效的信息我 们可以通过一个浅显的比喻来理解 suport vector。我们可以把标记字母 v 的蓝色圆点和红色圓点看作是中国和隔东海相望的日本两国的边界其他 的蓝色圆点和红色圆点看作是内地。当我们要区分一个人(实际就是要预测的数据)是中国人还是日本人的时候那些没有标记字母 v 的蓝色圆点 和红色圆点对于判断这个人是不是自己国家的成员是没有起到主要作用的,洏处于边界的带字母 v 标记的蓝色圆点和红色圆点就能起到判断这个人 是那个国家的如果这个待判断的人的落在靠近带字母 v 的蓝色圆点附菦,则表示这个人是中国人反之,则是日本人总之,因为 support vector 处于边界位置所以,对预测而言起到很重要的作用