关于SVM中，对常数C的理解？

理由

举报取消

最近在看一些数据挖掘方面的论文，偶然看到一位师兄对支持向量机中常数C的解释：对于常数C，在我之前查到的资料中，是这样写的：“C值较大，表明越不希望看到离群点。”由于自己在数学方面的知识储备并不是很丰富，所以想请教一下各位知友：SVM的常数C，到底应该怎么理解？谢谢大家！！—-大年初一，祝知友们猴年快乐，天天开心。祝知乎在猴年越办越好！！

2017年5月13日 10 条回复 2217 次浏览

SVM,数学,数据挖掘,算法

回复 ( 10 )

王赟 Maigo 初入职场
0
举报回复
理由

举报取消

按照LibSVM的习惯，SVM的目标函数是这样的：

这里的参数C代表的是在线性不可分的情况下，对分类错误的惩罚程度。

C值越大，分类器就越不愿意允许分类错误（“离群点”）。如果C值太大，分类器就会竭尽全力地在训练数据上少犯错误，而实际上这是不可能/没有意义的，于是就造成过拟合。

而C值过小时，分类器就会过于“不在乎”分类错误，于是分类性能就会较差。
顾凌峰初入职场
0
举报回复
理由

举报取消

你可以把这个参数C理解为调节优化方向中两个指标（间隔大小，分类准确度）偏好的权重。soft-margin SVM针对hard-margin SVM容易出现的过度拟合问题，适当放宽了margin的大小，容忍一些分类错误（violation），把这些样本当做噪声处理，本质上是间隔大小和噪声容忍度的一种trade-off，至于具体怎么trade-off，对哪个指标要求更高，那就体现在C这个参数上了。

如 @王赟 Maigo 所使用的hinge损失函数来表示对于样本的分类偏差 $loss = \max \left( {0,1 - y\left( {{{\bf{w}}^T}{\bf{x}} + b} \right)} \right)$ ，引入松弛变量把优化问题写为：

$\begin{align} \mathop {\min }\limits_{{\bf{w}},b,{\bf{\xi }}}& \quad \frac{1}{2}{\left\| \bf{w} \right\|^2} + C\sum\limits_{i = 1}^n {{\xi _i}} \\ s.t. & \quad {y_i}\left( {{{\bf{w}}^T}{{\bf{x}}_i} + b} \right) \ge 1 - {\xi _i} \\ & \quad {\xi _i} \ge 0 \\ & \quad i = 1,2, \ldots ,N \end{align}$

这里的 $\xi_i$ 就是对于第个样本点的分类损失，如果分类正确则是0，如果分类有所偏差则对应一个线性的值， $\sum\limits_{i = 1}^n {{\xi _i}}$ 是总误差，我们优化的目标当然是这个值越小越好，越小代表对训练集的分类越精准。目标函数中的另一项 $\left\| \bf{w} \right\|^2$ （常数1/2是为了方便求导加上去的）的最小化的优化方向则是使间隔大小 $2/\left\| \bf{w} \right\|$ 最大。

原则上C可以根据需要选择所有大于0的数。C越大表示整个优化过程中对于总误差 $\sum\limits_{i = 1}^n {{\xi _i}}$ 的关注程度越高，对于减小误差的要求越高，甚至不惜使间隔减小。
- 当C趋于无穷大时，这个问题也就是不允许出现分类误差的样本存在，那这就是一个hard-margin SVM问题
- 当C趋于0时，我们不再关注分类是否正确，只要求间隔越大越好，那么我们将无法得到有意义的解且算法不会收敛。
这里有一组Guassian kernel/soft-margin SVM在不同参数C下的实验结果[1]：

C值越大对于训练集的表现越好，但是间隔减小也就是对于噪声等干扰的容忍度减小，可能引发过度拟合（overfitting），这时说明对于噪声的惩罚力度太大。

想象我们要挑选合适的记者去参与新闻的采访报道。那么现在的评价指标有两个，一个是记者对于新闻的灵敏度，是否跑的快善于弄大新闻（间隔大小），一个是基于过去的表现（训练集）记者对于新闻报道的准确性如何，是否产生偏差，专业素质知识水平如何（分类误差），hard-margin SVM是挑选看上去报道准确知识水平最高的记者中跑得最快的，可能导致换个采访话题就出现偏差。而soft-margin则看重记者跑得快弄大新闻的潜力，在过去的专业表现上作出一定的妥协，允许她问出一些肤浅的问题，C越小说明越不关心记者的知识水平，当C趋近于0时，可能出现当众热恼interviewee然后被怒斥的场面（算法发散且得出的解都无意义）

很惭愧，只做了一些微小的工作。

最后祝大家身体健康，提前连任。

参考资料：

[1] Machine Learning Techniques:
司大林初入职场
0
举报回复
理由

举报取消

最近在研究svm的相关课题，正好答一下：

C又称为penalty term，指的是SVM里拉格朗日乘数的约束程度。

为什么需要C：

上图明显是一个过度拟合的问题，为了解决这类问题或者甚至为了解决某些非线性可分的问题，C的大小决定了对于outlier的忍受程度。忍受程度越强，支持向量就越多（support vector）。下图为例，圆圈标记的则为支持向量：

总的来说，C值越大，越过度拟合；反之有可能欠拟合。C值的最优解通常通过grid search得到。

图片来源Stackoverflow
modelG 初入职场
0
举报回复
理由

举报取消

结论: 1/C的作用和l2 regularization coefficient的作用是一样的。

下面是解释

1. 就像 @王赟 Maigo 的回答里提到的那样，教科书中的SVM通常是这样的（L2 SVM）：

2. 这个优化问题是哪里来的呢？考虑到SVM使用的是hinge loss，上述regularized optimization 问题实际上是这样的：

$\min_\omega \mathcal{L} = \min_\omega \{ \frac{1}{2} \omega^T\omega + C \sum_{n=1}^{N}\max[0,1-y_n (\omega^T\cdot x_n)]\}$

其中，最右边的项是hinge loss （习惯问题，我把（1）里面的样本下标(i,l)写成(n,N)了）

3. 等价地，（2）里面的目标函数稍加整理/变化以后是这样的：

$\min_\omega \mathcal{L} = \min_\omega \sum_{n=1}^{N}\max[0,1-y_n (\omega^T\cdot x_n)] + \frac{1}{2C} ||\omega||^2$

这样可以把SVM 目标函数理解成使用l2 regularization的hinge loss，而l2 regularization coefficient和C 是反比关系。 这时我们就可以用“分析regularization coefficient对learning的影响“这个思路来理解C的作用了

4. 最后提一个引申问题：

在linear svm里面，对feature 做线性变换会导致学出来的linear svm 在同一个test data （当然，我们会使用变换前和变换后的testing data做测试)给出不同的预测结果吗？==>是的，因为标准的SVM 里面自带regularization项(如果没有这个regularization term,对fature 做线性变换以后,可以对参数做相应的线性变换 $A^{-1}W$ 得到完全相同的预测结果)。
卡牌大师初入职场
0
举报回复
理由

举报取消

可以理解为对分类错误的容忍度或者对分类错误的惩罚力度

C越大表示惩罚越大，越不能容忍错误，容易造成over fitting

C越小与之相反，容易造成underfitting 。

工业上经常默认使用1。

然后会grid search尝试0.1,0.5,10等等数字
王腾云初入职场
0
举报回复
理由

举报取消

感觉楼上回答没有击中要害，所以怒答此题。。。。。

要理解C的含义，就需要理解 $\xi_{i}$ 的含义： $\xi_{i}$ 可以理解为hinge loss，而当几何间距（geometric margin）小于1时hinge loss时是一条直线（图像见答案末），那么乘以C可以理解为这条直线的斜率。可以类比L1正则和L2正则中的 $\lambda$ 。

———————————————————————————————-

以下是详细步骤：

SVM的目标问题：

应用拉格朗日乘子法得

$l(\omega ,b,\xi,\alpha ,r )=\frac{1}{2} \omega^{T}\omega+C\sum_{i=1}^{m}{\xi_i} -\sum_{i=1}^{m}{\alpha_i[y^{(i)}(\omega^T x^{(i)}+b)-1+\xi_i ]} - \sum_{i=1}^{m}{r_i\xi_i}$

那么对待优化变量求偏微分

$\frac{\partial l}{\partial\omega} =0 \Rightarrow w=\sum_{i=1}^{m}{\alpha_i y^{(i)} x^{(i)} }$ (1)

$\frac{\partial l}{\partial b} =0 \Rightarrow \sum_{i=1}^{m}{\alpha_i y^{(i)} } = 0$ (2)

$\frac{\partial l}{\partial\xi_{i}} =0 \Rightarrow \alpha_{i}=C-r_{i}$ (3)

根据KKT互补条件，

$\alpha_i[y^{(i)}(\omega^T x^{(i)}+b)-1+\xi_i ]=0$ (4)

$r_{i}\xi_{i}=0$ (5)

所以，将(3) (4) (5)带入以下式子

当 $\alpha_{i}=0 \Rightarrow r_{i}=C, \xi_{i}=0 \Rightarrow y^{(i)}(\omega^T x^{(i)}+b) \geq 1$ ，几何间距>=1样本的 $\xi_{i}=0$

当 $0<\alpha_{i}<C \Rightarrow r_{i}>0 , \xi_{i}=0 \Rightarrow y^{(i)}(\omega^T x^{(i)}+b)=1-\xi_{i} = 1$ ，几何间距为1的样本，也就是支持向量的 $\xi_{i}=0$

当 $\alpha_{i}=C \Rightarrow r_{i}=0, \xi_{i}\geq 0 \Rightarrow y^{(i)}(\omega^T x^{(i)}+b)=1-\xi_{i}\leq 1$ ，只有样本与决策边界的几何间距（geometric margin）小于1时， $\xi_{i}>0$ 才成立。而且他们之间的等式关系为 $\xi_{i}=1-y^{(i)}(\omega^T x^{(i)}+b)$ 。

———————————————————————————————-

hinge loss定义如下：

可以发现我们以上求出的 $\xi_{i}=1-y^{(i)}*h(x^{(i)})$ 就是hinge loss 的形式。

———————————————————————————————-

当y=1时，hinge loss图中蓝色的线条，纵坐标为hinge loss，横坐标为，即为几何间距。

也就是C=1的特例
Zhang Yao 初入职场
0
举报回复
理由

举报取消

楼上各位大神都回答的很详尽了，那我来从优化的角度答一发。偷懒，公式粗体什么的都没加，图也懒得上了XD。

我们只关注原问题，因为原问题比对偶问题更直观一些。并且把约束条件直接放到目标函数中，即

$\min_{w,b}~\frac{1}{2}\|w\|^2 + C\sum_i \ell[y_i(w^Tx_i+b)-1]$ ,

这里的 $\ell(\cdot)$ 是一个损失函数loss function，表示不满足hard margin时造成的损失，最常见的就是hinge loss，即 $\ell(z)=\max(0, 1-z)$ ，引入松弛变量slack variables就可以等价转写为楼上各位回答中的形式。我们这里就直接讨论更一般的情形。

C>0可以认为是一个罚参数，表示对后面一项的惩罚程度。理解这种问题的一个通用思路就是试试看在极端值会发生什么。

当C=0时， $C\sum_i \ell[y_i(w^Tx_i+b)-1]$ 直接忽略，也就是说不论分离超平面位置在哪里，都不会对目标函数造成损失，问题就变为 $\min~\frac{1}{2}\|w\|^2$ ，那么他的解就是 $w = \bold{0}$ 。

当C=inf时，损失函数即使只增加一点点，都会导致目标函数值变为正无穷，也就硬性要求 $\ell[y_i(w^Tx_i+b)-1]=0$ ，此时问题等价于hard margin，如果线性不可分，也就无可行解了。如果不这么极端，C只是充分大，那么就要求loss function尽可能的小，即尽最大可能满足hard margin约束，这就会导致过拟合。

C这类罚参数的一个问题就是没有更直接的物理意义，一种解决方法就是用另一个更直观的参数来替代，最著名的就是 $\nu-\mathrm{SVM}$ 了。（偷懒我就不写式子了）其中用参数 $\nu \in (0, 1]$ 取代了原来的C， $\nu$ 的意义是margin errors（原文中把其定义为 $\xi_i >0$ 的点）的比例的上界，也就是说我最多允许 $\nu m$ 个点越过margin bounds，不过 $\nu$ 也限定了支持向量比例的下界。

举个例子， $\nu=0.5$ ，表示我最多允许一半的数据，但同时，至少有一半的数据最终都会作为支持向量。

最后，libsvm和R中都包含了 $\nu-\mathrm{SVM}$ 哟！

参考文献：

Schölkopf B, Smola A J, Williamson R C, et al. New Support Vector Algorithms[J]. Neural Computation, 2000, 12(5):1207-1245.

Chang, ChihChung, Lin, et al. LIBSVM: A library for support vector machines[J]. Acm Transactions on Intelligent Systems & Technology, 2011, 2(3):389-396.
十全十美初入职场
0
举报回复
理由

举报取消

题主如果不想去探讨数学上的意义，那么记住结论就好了。 svm训练中，参数c取得越大，就是对错分样本的惩罚越大，极端情况下，就是训练出来的分类器使得每个训练样本都正确分类。那么想象一下，在有噪声样本的情况下，这么做会导致过拟合。

参数c取得越小，就会有越多的样本被训练出来的分类器错分，一些正常的样本也被当成噪声处理了。

所以应该取合适的c，不过如何取这个c也是挺麻烦的。
持觞仗剑初入职场
0
举报回复
理由

举报取消

如果你只是用SVM做个分类应用的话，那简单理解就可以了。

记住 C是惩罚参数 就好。

惩罚参数是用来惩罚什么的呢？答：惩罚训练误差 。

1、若C的值取得大一点，意味着对训练误差的惩罚力度大一点，此时能把训练数据分类的误差控制的很好（提高模型在训练数据集上的分类正确率），但也带来了分类间隔过小的问题。由于分类间隔过小，把训练所得的分类器向更大的测试样本推广时，泛化能力会受到影响。
2、若C的值取得适当小一点，往往能更好地平衡分类间隔和训练误差的关系。我们适当允许一些训练样本在分类时出错，以此获得更大的分类间隔，使得在推广到更大的测试样本时效果更好一些。

具体调参，一般是用 10折交叉验证（思路：把数据集分割依次测试）+网格搜索法（思路：先迈大步子再迈小步子) 进行的。

详细算法的话，参考一下周志华老师写的书，或者从知网上下一篇用SVM做实验的硕士论文，都会细讲。
彭一洋初入职场
0
举报回复
理由

举报取消

用于调节对模型复杂度的抑制程度