本文共 838 字,大约阅读时间需要 2 分钟。
首先,支持向量之间的分类间隔r为:
r = 2 / ||W|| 分类不等式为: Y+:WTX + b >= +1 Y-:WTX + b <= -1 SVM问题求解在满足分类不等式的同时使r最大:首先考虑使r最大:
max r = max 2 / ||W|| SVM考虑的是问题的极值,即max r的极大处,其余各处取什么值毫不关心,只要保证函数极值处不变,连续且单调即可。 所以,可以等价为: max r = max 2 / ||W|| = min 1/2 * ||W||^2 系数1/2是为了求导方便,可以略去常数。 2次方是构造凸二次优化问题,当然4次方也可以但没必要。其次考虑分类不等式:
根据样本标记值(Xi,Yi)其中Yi = +1,-1 则可以将分类不等式合并写成: Yi * (WTXi + b)>= +1 其中样本点离支持向量越远,则大于1当程度越大 所以(1 - Yi(WTXi + b))<= 0综合以上两个式子,得到一个综合的方程:
L(W,b,K) = 1/2*||W||^2 + Sum{ Ki * ( 1 - Yi * (WTXi + b ))} 其中,为什么对于每一个样例都引入一个拉格朗日乘子Ki呢? 首先,对于每一个样例都有约束条件Yi * (WTXi + b)>= +1 不同样例的约束条件之间直接求和是没有意义的,如a > b和c > d得出a + c > b + d是没有意义的,且会因为离群值使参数优化并不好。 使用拉格朗日乘子对不等式进行适当缩放,纵使引入了O(n)个参数需要学习,但此时求和做最小值优化才有意义。 即: Sum{ Ki * ( 1 - Yi * (WT*Xi + b ))}对偶问题:
L(W,b,K) = 1/2*||W||^2 + Sum{ Ki * ( 1 - Yi * (WT*Xi + b ))} 但意义在于: 对偶问题比原始凸二次规划更容易求解。 对偶问题可以自然引入核函数和非线性分类和回归。转载地址:http://iuwji.baihongyu.com/