樱桃成人精品视频在线播放,欧美日韩国产精品一卡,久久av资源网

SVM��法入门

SunRise_at — Mon, 06 Aug 2012 08:58:00 GMT

转自�Q?font color="#000000" face="Verdana">http://blog.csdn.net/yangliuy/article/details/7316496
SVM入门�Q�一�Q�至�Q�三�Q�Refresh

�?之前的文章重新汇�~�一�?修改了一些错误和不当的说法，一起复�?然后�l�箋SVM之旅.

�Q�一�Q�SVM的简�?/strong>

支持向量�?Support Vector Machine)是Cortes和Vapnik�?995�q�首先提出的�Q�它在解军_��h��、非�U�性及高维模式识别中表现出许多�Ҏ��的优势，�q�能够推�q�应用到函数拟合�{�其他机器学习问题中[10]�?nbsp;
支持向量机方法是建立在统计学习理论的VC �l�理论和�l�构风险最��原理基��上的�Q�根据有限的��h��信息在模型的复杂性（卛_��特定训练��h��的学习精度，Accuracy�Q�和学习能力�Q�即无错误地识别��L��h��的能力）之间��L��最��x��P��以期获得最好的推广能力[14]�Q�或�U�泛化能力）�?/p>
以上是经常被有关SVM 的学术文献引用的介绍�Q�我来逐一分解�q�解释一下�?/p>
Vapnik是统计机器学习的大牛�Q�这惛_��都不用说�Q�他出版的《Statistical Learning Theory》是一本完整阐�q�统计机器学习思想的名著。在该书中详�l�的��了统计机器学习之所以区别于传统机器学习的本质，��在于统计机器学习能够精��的�l�出学习效果�Q�能够解�{�需要的��h��数等�{�一�p�d��问题。与�l�计机器学习的精密思维相比�Q�传�l�的机器学习基本上属于摸着矛_��q�河�Q�用传统的机器学习方法构造分�cȝ��l�完全成了一�U�技巧，一个�h做的�l�果可能很好�Q�另一个�h差不多的�Ҏ��做出来却很差�Q�缺乏指导和原则�?/p>
所谓VC�l�是对函数类的一�U�度量，可以��单的理解为问题的复杂�E�度�Q�VC�l�越高，一个问题就��复杂。正是因为SVM��x��的是VC�l�_��后面我们可以看到�Q�SVM解决问题的时候，和样本的�l�数是无关的�Q�甚��x��本是上万�l�的都可以，�q��得SVM很适合用来解决文本分类的问题，当然�Q�有�q�样的能力也因�ؓ引入了核函数�Q��?/p>
�l�构风险最��听上去文绉�l�，其实说的也无非是下面�q�回事�?/p>
机器学习本质上就是一�U�对问题真实模型的��D��Q�我们选择一个我们认为比较好的近似模型，�q�个�q�似模型��叫做一个假设）�Q�但毫无疑问�Q�真实模型一定是不知道的�Q�如果知道了�Q�我们干吗还要机器学习？直接用真实模型解决问题不��可以了�Q�对吧，哈哈�Q�既然真实模型不知道�Q�那么我们选择的假设与问题真实解之间究竟有多大差距�Q�我们就没法得知。比如说我们认�ؓ宇宙诞生�?50亿年前的一场大爆炸�Q�这个假设能够描�q�很多我们观察到的现象，但它与真实的宇宙模型之间�q�相差多��？谁也说不清，因�ؓ我们压根��׃��知道真实的宇宙模型到底是什么�?/p>
�q�个与问题真实解之间的误差，��叫做风险（更严格的��_��误差的篏�U�叫做风险）。我们选择了一个假设之后（更直观点��_��我们得到了一个分�c�d��以后�Q�，真实误差无从得知�Q�但我们可以用某些可以掌握的量来��D��它。最直观的想法就是��用分�c�d��在样本数据上的分�cȝ��l�果与真实结果（因�ؓ��h��是已�l�标注过的数据，是准��的数据�Q�之间的差值来表示。这个差值叫做经验风险Remp(w)。以前的机器学习�Ҏ��都把�l�验风险最��化作�ؓ努力的目标，但后来发现很多分�c�d��数能够在��h��集上��L��辑ֈ�100%的正��率�Q�在真实分类时却一塌糊涂（��x��谓的推广能力差，或泛化能力差�Q�。此时的情况便是选择了一个��够复杂的分类函数�Q�它的VC�l�很高）�Q�能够精��的��C��每一个样本，但对��h��之外的数据一律分�c�错误。回头看看经验风险最��化原则我们��׃��发现�Q�此原则适用的大前提是经验风险要��实能够��D��真实风险才行�Q�行话叫一��_��Q�但实际上能��D��么？�{�案是不能，因�ؓ��h��数相对于现实世界要分�cȝ��文本数来说简直九牛一毛，�l�验风险最��化原则只在�q�占很小比例的样本上做到没有误差�Q�当然不能保证在更大比例的真实文本上也没有误差�?/p>
�l�计学习因此而引入了泛化误差界的概念�Q�就是指真实风险应该�׃��部分内容�ȝ��Q�一是经验风险，代表了分�c�d��在给定样本上的误差；二是�|�信风险�Q�代表了我们在多大程度上可以信�Q分类器在未知文本上分�cȝ��l�果。很昄��Q�第二部分是没有办法�_��计算的，因此只能�l�出一个估计的区间�Q�也使得整个误差只能计算上界�Q�而无法计��准��的��|��所以叫做泛化误差界�Q�而不叫泛化误差）�?/p>
�|�信风险与两个量有关�Q�一是样本数量，昄��l�定的样本数量越大，我们的学习结果越有可能正��，此时�|�信风险��小�Q�二是分�c�d��数的VC�l�_��昄��VC�l�越大，推广能力��差�Q�置信风险会变大�?/p>
泛化误差界的公式为：

R(w)≤Remp(w)+Ф(n/h)

公式中R(w)��是真实风险�Q�Remp(w)��是�l�验风险�Q��?n/h)��是�|�信风险。统计学习的目标从经验风险最��化变�ؓ了寻求经验风险与�|�信风险的和最��，即结构风险最��?/p>
SVM正是�q�样一�U�努力最��化�l�构风险的算法�?/p>
SVM其他的特点就比较�Ҏ��理解了�?/p>
��样本，�q�不是说��h��的绝�Ҏ��量少�Q�实际上�Q�对��M��法来说�Q�更多的��h��几乎��L��能带来更好的效果�Q�，而是说与问题的复杂度比�v来，SVM��法要求的样本数是相�Ҏ��较少的�?/p>
非线性，是指SVM擅长应付��h��数据�U�性不可分的情况，主要通过村ּ�变量�Q�也有�h叫惩�|�变量）和核函数技术来实现�Q�这一部分是SVM的精髓，以后会详�l�讨论。多说一句，关于文本分类�q�个问题�I�竟是不是线性可分的�Q�尚没有定论�Q�因此不能简单的认�ؓ它是�U�性可分的而作��化处理，在水落石��Z��前，只好先当它是�U�性不可分的（反正�U�性可分也不过是线性不可分的一�U�特例而已�Q�我们向来不怕方法过于通用�Q��?/p>
高维模式识别是指��h��l�数很高�Q�例如文本的向量表示�Q�如果没有经�q�另一�p�d��文章�Q�《文本分�c�d��门》）中提到过的降�l�处理，出现几万�l�的情况很正常，其他��法基本��没有能力应付了�Q�SVM却可以，主要是因为SVM 产生的分�c�d��很简�z�，用到的样本信息很��（仅仅用到那些�U�C��?#8220;支持向量”的样本，此�ؓ后话�Q�，使得即��h��l�数很高�Q�也不会�l�存储和计算带来大麻烦（相对照而言�Q�kNN��法在分�c�L��p��用到所有样本，��h��数巨大，每个��h��l�数再一高，�q�日子就没法�q�了……�Q��?/p>
下一节开始正式讨论SVM。别嫌我说得太详�l�哦�?/p>
SVM入门�Q�二�Q�线性分�c�d��Part 1

�U�性分�c�d��(一定意义上,也可以叫做感知机) 是最��单也很有效的分类器�Ş�?在一个线性分�c�d��?可以看到SVM形成的思�\,�q�接触很多SVM的核心概�?

用一个二�l�空间里仅有两类��h��的分�c�问题来举个��例子。如图所�C?/p>

C1和C2是要区分的两个类别，在二�l��^面中它们的样本如上图所�C�。中间的直线��是一个分�c�d��敎ͼ�它可以将两类��h��完全分开。一般的�Q�如果一个线性函数能够将��h��完全正确的分开�Q�就�U�这些数据是�U�性可分的�Q�否则称为非�U�性可分的�?/p>
什么叫�U�性函数呢�Q�在一�l�空间里��是一个点�Q�在二维�I�间里就是一条直�U�，三维�I�间里就是一个��^面，可以如此惌��下去�Q�如果不��x��I�间的维敎ͼ��q�种�U�性函数还有一个统一的名�U?#8212;—��^面（Hyper Plane�Q�！

实际上，一个线性函数是一个实值函敎ͼ�卛_��数的值是�q�箋的实敎ͼ��Q�而我们的分类问题�Q�例如这里的二元分类问题——回答一个样本属于还是不属于一个类别的问题�Q�需要离散的输出��|��例如�?表示某个��h��属于�c�d��C1�Q�而用0表示不属于（不属于C1也就意味着属于C2�Q�，�q�时候只需要简单的在实值函数的基础上附加一个阈值即可，通过分类函数执行时得到的值大于还是小于这个阈值来��定�c�d��归属�?例如我们有一个线性函�?/p>
g(x)=wx+b

【看到好多�h都在问g(x)=0 �?g(x)的问题，我在�q�里帮楼主补充一下：g(x)实际是以w为法向量的一��超�q�面�Q�在二维�I�间表示��Z��直�U�（��是一��^行线�Q�他们的法向量都是w�Q�，而g(x)=0只是�q�么多��^行线中的一条。�?/p>
我们可以取阈��gؓ0�Q�这样当有一个样本xi需要判别的时候，我们��q��g(xi)的倹{��若g(xi)>0�Q�就判别为类别C1�Q�若g(xi)<0�Q�则判别为类别C2�Q�等于的时候我们就拒绝判断�Q�呵呵）。此时也�{��h于给函数g(x)附加一个符号函数sgn()�Q�即f(x)=sgn [g(x)]是我们真正的判别函数�?/p>
关于g(x)=wx+b�q�个表达式要注意三点�Q�一�Q�式中的x不是二维坐标�p�M��的横��_��而是��h��的向量表�C�，例如一个样本点的坐标是(3,8)�Q�则xT=(3,8) �Q�而不是x=3�Q�一般说向量都是说列向量�Q�因此以行向量�Ş式来表示�Ӟ��加上�{�|�）。二�Q�这个�Ş式�ƈ不局限于二维的情况，在n�l�空间中仍然可以使用�q�个表达式，只是式中的w成�ؓ了n�l�向量（在二�l�的�q�个例子中，w是二�l�向量，��Z��表示��h��方便��z�，以下均不区别列向量和它的转置�Q�聪明的读者一看便知）�Q�三�Q�g(x)不是中间那条直线的表辑ּ��Q�中间那条直�U�的表达式是g(x)=0�Q�即wx+b=0�Q�我们也把这个函数叫做分�c�面�?/p>
实际上很�Ҏ��看出来，中间那条分界�U��ƈ不是唯一的，我们把它�E�微旋�{一下，只要不把两类数据分错�Q�仍然可以达��C��面说的效果，�E�微�q�移一下，也可以。此时就牉|��C��个问题，对同一个问题存在多个分�c�d��数的时候，哪一个函数更好呢�Q�显然必��要先找一个指标来量化“�?#8221;的程度，通常使用的都是叫�?#8220;分类间隔”的指标。下一节我们就仔细说说分类间隔�Q�也补一补相关的数学知识�?/p>
SVM入门�Q�三�Q�线性分�c�d��Part 2

上回说到对于文本分类�q�样的不适定问题�Q�有一个以上解的问题称��Z��适定问题�Q�，需要有一个指标来衡量解决�Ҏ��Q�即我们通过训练建立的分�c�L��型）的好坏，而分�c�间隔是一个比较好的指标�?/p>
在进行文本分�cȝ��时候，我们可以让计��机�q�样来看待我们提供给它的训练��h��Q�每一个样本由一个向量（��是那些文本特征所�l�成的向量）和一个标讎ͼ�标示��个样本属于哪个类别）�l�成。如下：

Di=(xi,yi)

xi��是文本向量�Q�维数很高）�Q�yi��是分类标记�?/p>
在二元的�U�性分�c�M��Q�这个表�C�分�cȝ��标记只有两个��|��1�?1�Q�用来表�C�属于还是不属于�q�个�c�）。有了这�U�表�C�法�Q�我们就可以定义一个样本点到某个超�q�面的间隔：

δi=yi(wxi+b)

�q�个公式乍一看没什么神�U�的�Q�也说不��Z��么道理，只是个定义而已�Q�但我们做做变换�Q�就能看��Z��些有意思的东西�?/p>
首先注意到如果某个样本属于该�c�d��的话�Q�那么wxi+b>0�Q�记得么�Q�这是因为我们所选的g(x)=wx+b��通过大于0�q�是��于0来判断分�c�）�Q�而yi也大�?�Q�若不属于该�c�d��的话�Q�那么wxi+b<0�Q�而yi也小�?�Q�这意味着yi(wxi+b)��L��大于0的，而且它的值就�{�于|wxi+b|�Q�（也就是|g(xi)|�Q?/p>
现在把w和b�q�行一下归一化，即用w/||w||和b/||w||分别代替原来的w和b�Q�那么间隔就可以写成

【点到直�U�的距离�Q�做解析几何中�ؓ�Q?nbsp;
D = (Ax + By + c) /sqrt(A^2+B^2)
sqrt(A^2+B^2)��q��当于||W||, 其中向量W=[A, B];
(Ax + By + c)��q��当于g(X), 其中向量X=[x,y]。�?/p>
�q�个公式是不是看上去有点眼熟�Q�没错，�q�不��是解析几何中点xi到直�U�g(x)=0的距��d��式嘛�Q�（推广一下，是到��^面g(x)=0的距��， g(x)=0��是上节中提到的分类��^面）

��Tips�Q�||w||是什么符��P��||w||叫做向量w的范敎ͼ�范数是对向量长度的一�U�度量。我们常说的向量长度其实指的是它�?-范数�Q�范数最一般的表示形式为p-范数�Q�可以写成如下表辑ּ�

    向量w=(w1, w2, w3,…… wn)

它的p-范数�?/p>

看看把p换成2的时候，不就是传�l�的向量长度么？当我们不指明p的时候，��像||w||�q�样使用�Ӟ��意味着我们不关心p的��|��用几范数都可以；或者上文已�l�提��C��p的��|��Z��叙述方便不再重复指明�?/p>
当用归一化的w和b代替原��g��后的间隔有一个专门的名称�Q�叫做几何间隔，几何间隔所表示的正是点到超�q�面的欧氏距��，我们下面��q��U�几何间隔�ؓ“距离”。以上是单个点到某个��^面的距离�Q�就是间隔，后面不再区别�q�两个词�Q�定义，同样可以定义一个点的集合（��是一�l�样本）到某个超�q�面的距��Mؓ此集合中��超�q�面最�q�的点的距离。下面这张图更加直观的展�C�出了几何间隔的现实含义�Q?/p>

H是分�c�面�Q�而H1和H2是��^行于H�Q�且�q�离H最�q�的两类��h��的直�U�，H1与H�Q�H2与H之间的距��d��是几何间隔�?/p>
之所以如此关心几何间隔这个东西，是因为几何间隔与��h��的误分次数间存在关系�Q?/p>

其中�?#948;是样本集合到分类面的间隔�Q�R=max ||xi|| i=1,...,n�Q�即R是所有样本中�Q�xi是以向量表示的第i个样本）向量长度最长的��|��也就是说代表��h��的分布有多么�q�）。先不必�q�究误分�ơ数的具体定义和推导�q�程�Q�只要记得这个误分次��C��定程度上代表分类器的误差。而从上式可以看出�Q�误分次数的上界由几何间隔决定！�Q�当�Ӟ��是样本已知的时候）

��x��我们��明白�ؓ何要选择几何间隔来作��价一个解优劣的指标了�Q�原来几何间隔越大的解，它的误差上界��小。因此最大化几何间隔成了我们训练阶段的目标，而且�Q�与二把刀作者所写的不同�Q�最大化分类间隔�q�不是SVM的专利，而是早在�U�性分�c�L��期就已有的思想�?/p>
SVM入门�Q�四�Q�线性分�c�d��的求�?#8212;—问题的描�q�Part1

上节说到我们有了一个线性分�c�d��敎ͼ�也有了判断解优劣的标�?#8212;—��x��了优化的目标�Q�这个目标就是最大化几何间隔�Q�但是看�q�一些关于SVM的论文的��Z��定记得什么优化的目标是要最��化||w||�q�样的说法，�q�是怎么回事呢？回头再看看我们对间隔和几何间隔的定义�Q?/p>
间隔�Q?#948;=y(wx+b)=|g(x)|

几何间隔�Q?img style="border-bottom-style: none; border-right-style: none; border-top-style: none; border-left-style: none" alt="" src="http://www.blogjava.net/images/blogjava_net/zhenandaci/WindowsLiveWriter/SVMPart1_EEC8/clip_image002_2.gif" width="128" height="44" />

可以看出δ=||w||δ几何。注意到几何间隔与||w||是成反比的，因此最大化几何间隔与最��化||w||完全是一回事。而我们常用的�Ҏ��q�不是固定||w||的大��而寻求最大几何间隔，而是固定间隔�Q�例如固定�ؓ1�Q�，��L��最��的||w||�?/p>
而凡是求一个函数的最��|��或最大��|��的问题都可以�U�Cؓ��M��问题�Q�也叫作一个规划问题）�Q�又�׃��找最大值的问题��d��以通过加一个负号变为找最��值的问题�Q�因此我们下面讨论的时候都针对找最��值的�q�程来进行。一个寻优问题最重要的部分是目标函数�Q�顾名思义�Q�就是指��M��的目标。例如我们想��L��最��的||w||�q��g事，��可以用下面的式子表�C�：

但实际上对于�q�个目标�Q�我们常�怋�用另一个完全等��L��目标函数来代替，那就是：

(�?)

不难看出当||w||2辑ֈ�最��时�Q�||w||也达到最��，反之亦然�Q�前提当然是||w||描述的是向量的长度，因而是非负的）。之所以采用这�U��Ş式，是因为后面的求解�q�程会对目标函数作一�p�d��变换�Q�而式�Q?�Q�的形式会��变换后的形式更�ؓ��z�（正如聪明的读者所料，��d��的系��C��分之一和��^方，皆是为求导数所需�Q��?/p>
接下来我们自然会问的��是�Q�这个式子是否就描述了我们的问题呢？�Q�回想一下，我们的问题是有一堆点�Q�可以被分成两类�Q�我们要扑և�最好的分类面）

如果直接来解�q�个求最��值问题，很容易看出当||w||=0的时候就得到了目标函数的最��倹{��但是你也会发现�Q�无��Z��l�什么样的数据，都是�q�个解！反映在图中，��是H1与H2两条直线间的距离无限大，�q�个时候，所有的��h��点（无论正样本还是负��h��Q�都跑到了H1和H2中间�Q�而我们原本的意图是，H1右侧的被分�ؓ正类�Q�H2 左侧的被分�ؓ负类�Q�位于两�c�M��间的��h��则拒�l�分�c�（拒绝分类的另一�U�理解是分给哪一�c�都有道理，因而分�l�哪一�c�M��都没有道理）。这下可好，所有样本点都进入了无法分类的灰色地带�?/p>

造成�q�种�l�果的原因是在描�q�问题的时候只考虑了目标，而没有加入约束条�Ӟ��U�束条�g��是在求解过�E�中必须满��的条�Ӟ��体现在我们的问题中就是样本点必须在H1或H2的某一侧（或者至��在H1和H2上）�Q�而不能跑��C��者中间。我们前文提到过把间隔固定�ؓ1�Q�这是指把所有样本点中间隔最��的那一点的间隔定�ؓ1�Q�这也是集合的间隔的定义�Q�有点绕��_��Q�也��意味着集合中的其他炚w��隔都不会��于1�Q�按照间隔的定义�Q�满��些条件就相当于让下面的式子��L��成立�Q?/p>
    yi[(w·xi)+b]≥1 (i=1,2,…,l) �Q�l是�ȝ��h��敎ͼ�

但我们常�怹�惯让式子的值和0比较�Q�因而经常用变换�q�的形式�Q?/p>
    yi[(w·xi)+b]-1≥0 (i=1,2,…,l) �Q�l是�ȝ��h��敎ͼ�

因此我们的两�c�d��c�问题也被我们�{化成了它的数学�Ş式，一个带�U�束的最��值的问题�Q?/p>

下一节我们从最一般的意义上看看一个求最��值的问题有何特征�Q�以及如何来解�?/p>
SVM入门�Q�五�Q�线性分�c�d��的求�?#8212;—问题的描�q�Part2

从最一般的定义上说�Q�一个求最��值的问题��是一个优化问题（也叫��M��问题�Q�更文绉�l�的叫法是规�?#8212;—Programming�Q�，它同��L��两部分组成，目标函数和约束条�Ӟ��可以用下面的式子表示�Q?/p>
�Q�式1�Q?/p>
�U�束条�g用函数c来表�C�，��是constrain的意思啦。你可以看出一共有p+q个约束条�Ӟ��其中p个是不等式约束，q个等式约束�?/p>
关于�q�个式子可以�q�样来理解：式中的x是自变量�Q�但不限定它的维数必��Mؓ1�Q�视乎你解决的问题空间维敎ͼ��Ҏ��们的文本分类来说�Q�那可是成千上万啊）。要求f(x)在哪一点上取得最��|��反倒不太关心这个最��值到底是多少�Q�关键是哪一点）�Q�但不是在整个空间里找，而是在约束条件所划定的一个有限的�I�间里找�Q�这个有限的�I�间��是优化理论里所说的可行域。注意可行域中的每一个点都要求满��x��有p+q个条�Ӟ��而不是满��_��中一条或几条��可以（切记�Q�要满��每个�U�束�Q�，同时可行域边界上的点有一个额外好的特性，它们可以使不�{�式�U�束取得�{�号�Q�而边界内的点不行�?/p>
关于可行域还有个概念不得不提�Q�那��是凔R��Q�凸集是指有�q�么一个点的集合，其中��d��两个点连一条直�U�，�q�条�U�上的点仍然在这个集合内部，因此�?#8220;�?#8221;是很形象的（一个反例是�Q�二�l��^面上�Q�一个月牙�Ş的区域就不是凔R��Q�你随便��可以找��C��个点�q�反了刚才的规定�Q��?/p>
回头再来看我们线性分�c�d��问题的描�q�ͼ�可以看出更多的东�ѝ�?/p>
�Q�式2�Q?/p>
在这个问题中�Q�自变量��是w�Q�而目标函数是w的二�ơ函敎ͼ�所有的�U�束条�g都是w的线性函敎ͼ�哎，千万不要把xi当成变量�Q�它代表��h��Q�是已知的）�Q�这�U�规划问题有个很有名气的�U�呼——二次规划�Q�Quadratic Programming�Q�QP�Q�，而且可以更进一步的��_��׃��它的可行域是一个凸集，因此它是一个凸二次规划�?/p>
一下子提了�q�么多术语，实在不是��Z��让大家以后能向别人炫耀学识的渊博，�q�其实是我们�l�箋下去的一个重要前提，因�ؓ在动手求一个问题的解之前（好吧�Q�我承认�Q�是动计��机�?#8230;…�Q�，我们必须先问自己�Q�这个问题是不是有解�Q�如果有解，是否能找刎ͼ�

对于一般意义上的规划问题，两个问题的答案都是不一定，但凸二次规划让�h喜欢的地方就在于�Q�它有解�Q�教�U�书里面��Z��严�}�Q�常常加限定成分�Q�说它有全局最优解�Q�由于我们想扄��本来��是全局最优的解，所以不加也�|�）�Q�而且可以扑ֈ��Q�（当然�Q�依据你使用的算法不同，扑ֈ��q�个解的速度�Q�行话叫收敛速度�Q�会有所不同�Q?/p>
�Ҏ��Q�式2�Q�和�Q�式1�Q�还可以发现�Q�我们的�U�性分�c�d��问题只有不等式约束，因此形式上看��g��比一般意义上的规划问题要��单，但解��h��却�ƈ非如此�?/p>
因�ؓ我们实际上�ƈ不知道该怎么解一个带�U�束的优化问题。如果你仔细回忆一下高�{�数学的知识�Q�会记得我们可以��L��的解一个不带�Q何约束的优化问题�Q�实际上��是当年背得烂熟的函数求极值嘛�Q�求导再�?点呗�Q�谁不会啊？�W�）�Q�我们甚臌��会解一个只带等式约束的优化问题�Q�也是背得烂熟的�Q�求条�g极��|��记得么，通过��d��拉格朗日乘子�Q�构造拉格朗日函敎ͼ�来把�q�个问题转化为无�U�束的优化问题云云（如果你一时没想通，我提醒一下，构造出的拉格朗日函数就是�{化之后的问题形式�Q�它昄��没有带�Q何条�Ӟ��?/p>
读者问�Q�如果只带等式约束的问题可以转化为无�U�束的问题而得以求解，那么可不可以把带不等式约束的问题向只带等式约束的问题转化一下而得以求解呢�Q?/p>
聪明�Q�可以，实际上我们也正是�q�么做的。下一节就来说说如何做�q�个转化�Q�一旦�{化完成，求解对�Q何学�q�高�{�数学的人来��_��都是��菜一��啦�?/p>
SVM入门�Q�六�Q�线性分�c�d��的求�?#8212;—问题的�{化，直观角度

让我再一�ơ比较完整的重复一下我们要解决的问题：我们有属于两个类别的��h��点（�q�不限定�q�些点在二维�I�间中）若干�Q�如图，

圆�Ş的样本点定�ؓ正样本（�q�带着�Q�我们可以把正样本所属的�c�d��做正�c�）�Q�方形的点定��例。我们想求得�q�样一个线性函敎ͼ�在n�l�空间中的线性函敎ͼ��Q?/p>
g(x)=wx+b

使得所有属于正�cȝ��?img style="border-bottom-style: none; border-right-style: none; border-top-style: none; border-left-style: none" alt="" />+代入以后有g(x+)≥1�Q�而所有属于负�cȝ��点x-代入后有g(x-)≤-1�Q�之所以总跟1比较�Q�无论正一�q�是负一�Q�都是因为我们固定了间隔�?�Q�注意间隔和几何间隔的区别）。代入g(x)后的值如果在1�?1之间�Q�我们就拒绝判断�?/p>
求这��L��g(x)的过�E�就是求w�Q�一个n�l�向量）和b�Q�一个实敎ͼ�两个参数的过�E�（但实际上只需要求w�Q�求得以后找某些��h��点代入就可以求得b�Q�。因此在求g(x)的时候，w才是变量�?/p>
你肯定能看出来，一旦求��Z��w�Q�也��求��Z��b�Q�，那么中间的直�U�H��q��道了�Q�因为它��是wx+b=0嘛，哈哈�Q�，那么H1和H2也就知道了（因�ؓ三者是�q��的，而且盔R��的距��还是||w||军_��的）。那么w是谁军_��的？昄��是你�l�的��h��军_��的，一旦你在空间中�l�出了那些个��h��点，三条直线的位�|�实际上��唯一��定了（因�ؓ我们求的是最优的那三条，当然是唯一的）�Q�我们解优化问题的过�E�也只不�q�是把这个确定了的东西算出来而已�?/p>
��h��定了w�Q�用数学的语�a�描述�Q�就是w可以表示为样本的某种�l�合�Q?/p>
w=α1x1+α2x2+…+αnxn

式子中的αi是一个一个的敎ͼ�在严格的证明�q�程中，�q�些α被称为拉格朗日乘子）�Q�而xi是样本点�Q�因而是向量�Q�n��是��L��本点的个数。�ؓ了方便描�q�ͼ�以下开始严格区别数字与向量的乘�U�和向量间的乘积�Q�我会用α1x1表示数字和向量的乘积�Q�而用表示向量x1,x2的内�U�（也叫点积�Q�注意与向量叉积的区别）。因此g(x)的表辑ּ�严格的�Ş式应该是�Q?/p>
g(x)=+b

但是上面的式子还不够好，你回头看看图中正��h��和负��h��的位�|�，惛_��一下，我不动所有点的位�|�，而只是把其中一个正��h��点定��h��点（也就是把一个点的�Ş状从圆�Ş变�ؓ方�Ş�Q�，�l�果怎么��P��三条直线都必��ȝ��动（因�ؓ对这三条直线的要求是必须把方形和圆�Ş的点正确分开�Q�！�q�说明w不仅跟样本点的位�|�有养I��q�跟��h��的类别有养I��也就是和��h��?#8220;标签”有关�Q�。因此用下面�q�个式子表示才算完整�Q?/p>
w=α1y1x1+α2y2x2+…+αnynxn �Q�式1�Q?/p>
其中的yi��是�W�i个样本的标签�Q�它�{�于1或�?1。其实以上式子的那一堆拉格朗日乘子中�Q�只有很��的一部分不等�?�Q�不�{�于0才对w起决定作用）�Q�这部分不等�?的拉格朗日乘子后面所乘的��h��点，其实都落在H1和H2上，也正是这部分��h��Q�而不需要全部样本）唯一的确定了分类函数�Q�当�Ӟ��更严格的��_��q�些��h��的一部分��可以确定，因�ؓ例如��定一条直�U�，只需要两个点��可以，即便有三五个都落在上面，我们也不是全都需要。这部分我们真正需要的��h��点，��叫做支持（撑）向量�Q�（名字�q�挺形象吧，他们“�?#8221;起了分界�U�）

式子也可以用求和�W�号��写一下：

因此原来的g(x)表达式可以写为：

注意式子中x才是变量�Q�也��是你要分类哪篇文档�Q�就把该文��的向量表�C�Z��入到 x的位�|�，而所有的xi�l�统都是已知的样本。还注意到式子中只有xi和x是向量，因此一部分可以从内�U�符号中拿出来，得到g(x)的式子�ؓ�Q?/p>

发现了什么？w不见啦！从求w变成了求α�?/p>
但肯定有��Z��_��q��ƈ没有把原问题��化呀。嘿嘿，其实��化了�Q�只不过在你看不见的地方�Q�以�q�样的�Ş式描�q�问题以后，我们的优化问题少了很大一部分不等式约束（记得�q�是我们解不了极值问题的万恶之源�Q�。但是接下来先蟩�q�线性分�c�d��求解的部分，来看�?SVM在线性分�c�d��上所做的重大改进——核函数�?/p>
SVM入门�Q�七�Q��ؓ何需要核函数

生存�Q�还是毁灭？——哈姆��L��

可分�Q�还是不可分�Q?#8212;—支持向量�?/p>
之前一直在讨论的线性分�c�d��,器如其名�Q�汗�Q�这是什么说法啊�Q�，只能对线性可分的��h��做处理。如果提供的��h��U�性不可分�Q�结果很��单，�U�性分�c�d��的求解程序会无限循环�Q�永�q�也解不出来。这必然使得它的适用范围大大�~�小�Q�而它的很多优�Ҏ��们实在不原意攑ּ��Q�怎么办呢�Q�是否有某种�Ҏ��Q�让�U�性不可分的数据变得线性可分呢�Q?/p>
有！其思想说来也简单，来用一个二�l��^面中的分�c�问题作例子�Q�你一看就会明白。事先声明，下面�q�个例子是网�l�早��有的，我一时找不到原作者的正确信息�Q�在此借用�Q��ƈ加进了我自己的解说而已�?/p>
例子是下面这张图�Q?/p>
/

我们把横轴上端点a和b之间�U�色部分里的所有点定�ؓ正类�Q�两边的黑色部分里的点定��c�R��试问能扑ֈ�一个线性函数把两类正确分开么？不能�Q�因��Z��l�空间里的线性函数就是指直线�Q�显然找不到�W�合条�g的直�Uѝ�?/p>
但我们可以找��C��条曲�U�，例如下面�q�一条：

昄��通过点在�q�条曲线的上方还是下方就可以判断�Ҏ��属的�c�d��Q�你在横轴上随便找一点，��算�q�一点的函数��|��会发现负�cȝ��点函数��g��定比0大，而正�cȝ��一定比0��）。这条曲�U�就是我们熟知的二次曲线�Q�它的函数表辑ּ�可以写�ؓ�Q?/p>

问题只是它不是一个线性函敎ͼ�但是�Q�下面要注意看了�Q�新��Z��个向量y和a�Q?/p>

�q�样g(x)��可以�{化�ؓf(y)=�Q�你可以把y和a分别回带一下，看看�{�不�{�于原来的g(x)。用内积的�Ş式写你可能看不太清楚�Q�实际上f(y)的�Ş式就是：

g(x)=f(y)=ay

在�Q意维度的�I�间中，�q�种形式的函数都是一个线性函敎ͼ�只不�q�其中的a和y都是多维向量�|�了�Q�，因�ؓ自变量y的次��C��大于1�?/p>
看出妙在哪了么？原来在二�l�空间中一个线性不可分的问题，映射到四�l�空间后�Q�变成了�U�性可分的�Q�因此这也�Ş成了我们最初想解决�U�性不可分问题的基本思�\——向高�l�空间�{化，使其变得�U�性可分�?/p>
而�{化最关键的部分就在于扑ֈ�x到y的映��方法。遗憄��是，如何扑ֈ��q�个映射�Q�没有系�l�性的�Ҏ��Q�也��是��_��U�靠猜和凑）。具体到我们的文本分�c�问题，文本被表�C�Zؓ上千�l�的向量�Q�即使维数已�l�如此之高，也常常是�U�性不可分的，�q�要向更高的�I�间转化。其中的隑ֺ�可想而知�?/p>
��Tips:��Z��么说f(y)=ay是四�l�空间里的函�?

大家可能一时没看明白。回想一下我们二�l�空间里的函数定�?nbsp;
g(x)=ax+b
变量x是一�l�的�Q��ؓ什么说它是二维�I�间里的函数呢？因�ؓ�q�有一个变量我们没写出来，它的完整形式其实�?nbsp;
y=g(x)=ax+b
�?nbsp;
y=ax+b
看看�Q�有几个变量�Q�两个。那是几�l�空间的函数�Q�（作者五岁的弟弟�{�：五维的。作者：……�Q?nbsp;
再看�?nbsp;
f(y)=ay
里面的y是三�l�的变量�Q�那f(y)是几�l�空间里的函敎ͼ��Q�作者五岁的弟弟�{�：�q�是五维的。作者：……�Q?/p>
用一个具体文本分�cȝ��例子来看看这�U�向高维�I�间映射从而分�cȝ��Ҏ��如何�q�作�Q�想象一下，我们文本分类问题的原始空间是1000�l�的�Q�即每个要被分类的文��被表示��Z��?000�l�的向量�Q�，在这个维度上问题是线性不可分的。现在我们有一�?000�l�空间里的线性函�?/p>
f(x’)=+b

注意向量的右上角有个 ’哦。它能够��原问题变得可分。式中的 w’和x’都是2000�l�的向量�Q�只不过w’是定��|��而x’是变量（好吧,严格说来�q�个函数�?001�l�的,哈哈�Q�，现在我们的输入呢�Q�是一�?000�l�的向量x�Q�分�cȝ��q�程是先把x变换�?000�l�的向量x’�Q�然后求�q�个变换后的向量x’与向量w’的内�U�，再把�q�个内积的值和b相加�Q�就得到了结果，看结果大于阈��D��是小于阈值就得到了分�cȝ��果�?/p>
你发��C��什么？我们其实只关心那个高�l�空间里内积的��|��那个值算出来了，分类�l�果��q��出来了。而从理论上说�Q?x’是经由x变换来的�Q�因此广义上可以把它叫做x的函敎ͼ�有一个x�Q�就��定了一个x’�Q�对吧，��定不出�W�二个）�Q�而w’是常量，它是一个低�l�空间里的常量w�l�过变换得到的，所以给了一个w 和x的��|��有一个确定的f(x’)��g��其对应。这让我们��惻I��是否能有�q�样一�U�函数K(w,x),他接受低�l�空间的输入��|��却能��出高维�I�间的内�U��?lt;w’,x’>�Q?/p>
如果有这��L��函数�Q�那么当�l�了一个低�l�空间的输入x以后�Q?/p>
g(x)=K(w,x)+b

f(x’)=+b

�q�两个函数的计算�l�果��完全一��P��我们也就用不着费力��N��个映��关�p�，直接拿低�l�的输入往g(x)里面代就可以了（再次提醒�Q�这回的g(x)��׃��是线性函数啦�Q�因��Z��不能保证K(w,x)�q�个表达式里的x�ơ数不高�?哦）�?/p>
万幸的是�Q�这��L��K(w,x)��实存在�Q�发现凡是我们�h�c�能解决的问题，大都是��y得不能再巧，�Ҏ��得不能再�Ҏ��的问题，��L��恰好有些能投机取巧的地方才能解决�Q�由此感��C�h�cȝ��渺小�Q�，它被�U�C��核函敎ͼ�核，kernel�Q�，而且�q�不止一个，事实上，只要是满��了Mercer条�g的函敎ͼ�都可以作为核函数。核函数的基本作用就是接受两个低�l�空间里的向量，能够计算出经�q�某个变换后在高�l�空间里的向量内�U�倹{��几个比较常用的核函敎ͼ�俄，教课书里都列�q�，我就不敲了（懒！�Q��?/p>
回想我们上节说的求一个线性分�c�d��Q�它的�Ş式应该是�Q?/p>

现在�q�个��是高维�I�间里的�U�性函敎ͼ��Z��区别低维和高�l�空间里的函数和向量�Q�我改了函数的名字，�q�且�l�w和x都加上了 ’�Q�，我们��可以用一个低�l�空间里的函敎ͼ�再一�ơ的�Q�这个低�l�空间里的函数就不再是线性的啦）来代替，

又发��C��么了�Q�f(x’) 和g(x)里的α�Q�y�Q�b全都是一样一��L��Q�这��是��_��管�l�的问题是线性不可分的，但是我们��q��当它是线性问题来求解�Q�只不过求解�q�程中，凡是要求内积的时候就用你选定的核函数来算。这��h��出来�?#945;再和你选定的核函数一�l�合�Q�就得到分类器啦�Q?/p>
明白了以上这些，会自然的问接下来两个问题�Q?/p>
1�Q?既然有很多的核函敎ͼ�针对具体问题该怎么选择�Q?/p>
2�Q?如果使用核函数向高维�I�间映射后，问题仍然是线性不可分的，那怎么办？

�W�一个问题现在就可以回答你：�Ҏ��函数的选择�Q�现在还�~�Z��指导原则�Q�各�U�实验的观察�l�果�Q�不光是文本分类�Q�的��表明，某些问题用某些核函数效果很好�Q�用另一些就很差�Q�但是一般来�Ԍ��径向基核函数是不会出太大偏差的一�U�，首选。（我做文本分类�pȝ��的时候，使用径向基核函数�Q�没有参数调优的情况下，�l�大部分�c�d��的准��和召回都在85%以上�Q�可见。虽然libSVM的作者林��Z��认�ؓ文本分类用线性核函数效果更佳�Q�待考证�Q?/p>
对第二个问题的解军_��引出了我们下一节的主题�Q�松弛变量�?/p>
SVM入门�Q�八�Q�松弛变�?/strong>

现在我们已经把一个本来线性不可分的文本分�c�问题，通过映射到高�l�空间而变成了�U�性可分的。就像下图这��P��

圆�Ş和方形的点各有成千上万个�Q�毕竟，�q�就是我们训�l�集中文档的数量嘛，当然很大了）。现在想象我们有另一个训�l�集�Q�只比原先这个训�l�集多了一��文章，映射到高�l�空间以后（当然�Q�也使用了相同的核函敎ͼ��Q�也��多了一个样本点�Q�但是这个样本的位置是这��L��Q?/p>

��是图中黄色那个点，它是方�Ş的，因而它是负�cȝ��一个样本，�q�单独的一个样本，使得原本�U�性可分的问题变成了线性不可分的。这��L��似的问题�Q�仅有少数点�U�性不可分�Q�叫�?#8220;�q�似�U�性可�?#8221;的问题�?/p>
以我们�h�cȝ��常识来判断，说有一万个炚w��W�合某种规律�Q�因而线性可分）�Q�有一个点不符合，那这一个点是否��׃��表了分类规则中我们没有考虑到的斚w��呢（因而规则应该�ؓ它而做��Z��改）�Q?/p>
其实我们会觉得，更有可能的是�Q�这个样本点压根��是错误�Q�是噪声�Q�是提供训练集的同学人工分类时一打瞌睡错放进�ȝ��。所以我们会��单的忽略�q�个��h��点，仍然使用原来的分�c�d��Q�其效果丝毫不受影响�?/p>
但这�U�对噪声的容错性是人的思维带来的，我们的程序可没有。由于我们原本的优化问题的表辑ּ�中，��实要考虑所有的��h��点（不能忽略某一个，因�ؓ�E�序它怎么知道该忽略哪一个呢�Q�）�Q�在此基��上寻找正负类之间的最大几何间隔，而几何间隔本�w�代表的是距��，是非负的�Q�像上面�q�种有噪声的情况会��得整个问题无解。这�U�解法其实也叫做“��间�?#8221;分类法，因�ؓ他硬性的要求所有样本点都满��_��分类�q�面间的距离必须大于某个倹{�?/p>
因此�׃��面的例子中也可以看出�Q�硬间隔的分�c�L��其结果容易受��数点的控制�Q�这是很危险的（��管有句话说真理��L��掌握在少��C�h手中�Q�但那不�q�是那一��撮��以自慰的词句�|�了�Q�咱�q�是得民主）�?/p>
但解��x��法也很明显，��是仿照人的思�\�Q�允�怸�些点到分�c�d�^面的距离不满��_��先的要求。由于不同的训练集各点的间距��度不太一��P��因此用间隔（而不是几何间隔）来衡量有利于我们表达形式的简�z�。我们原先对��h��点的要求是：

意思是说离分类面最�q�的��h��点函数间隔也要比1大。如果要引入定w��性，��q��1�q�个��性的阈值加一个松弛变量，卛_��?/p>

因�ؓ村ּ�变量是非负的�Q�因此最�l�的�l�果是要求间隔可以比1��。但是当某些点出现这�U�间隔比1��的情况�Ӟ��q�些点也叫离��点�Q�，意味着我们攑ּ�了对�q�些点的�_��分类�Q�而这�Ҏ��们的分类器来说是�U�损失。但是放弃这些点也带来了好处�Q�那��是使分�c�面不必向这些点的方向移动，因而可以得到更大的几何间隔�Q�在低维�I�间看来�Q�分�c�边界也更��^滑）。显然我们必��L��衡这�U�损失和好处。好处很明显�Q�我们得到的分类间隔��大�Q�好处就��多。回��我们原始的��间隔分�c�d��应的优化问题�Q?/p>

||w||2��是我们的目标函敎ͼ�当然�p�L��可有可无�Q�，希望它越��越好，因而损失就必然是一个能使之变大的量�Q�能使它变小��׃��叫损�׃��Q�我们本来就希望目标函数��D��越好）。那如何来衡量损失，有两�U�常用的方式�Q�有人喜�Ƣ用

而有人喜�Ƣ用

其中l都是��h��的数目。两�U�方法没有大的区别。如果选择了第一�U�，得到的方法的��叫做二阶��Y间隔分类器，�W�二�U�就叫做一阶��Y间隔分类器。把损失加入到目标函数里的时候，��需要一个惩�|�因子（cost�Q�也��是libSVM的诸多参��C��的C�Q�，原来的优化问题就变成了下面这��P��

�q�个式子有这么几点要注意�Q?/p>
一是�ƈ非所有的��h��炚w��有一个松弛变量与其对应。实际上只有“��ȝ��?#8221;才有�Q�或者也可以�q�么看，所有没��ȝ��的点村ּ�变量都等�?�Q�对负类来说�Q�离��点��是在前面图中，跑到H2右侧的那些负��h��点，�Ҏ��c�L��_��是跑到H1左侧的那些正��h��点）�?/p>
【在�q�代求w的时候如何样本点非离��点�Q�即分类正确�Q�那么就讑֮�的松弛变量�ؓ0了。。。�?/p>
二是村ּ�变量的值实际上标示��Z��对应的点到底��ȝ��有多�q�，��D��大，点就��远�?/p>
三是惩罚因子C军_��了你有多重视��ȝ��点带来的损失�Q�显然当所有离��点的松弛变量的和一定时�Q�你定的C��大�Q�对目标函数的损�׃��大�Q�此时就暗示着你非�怸�愿意攑ּ��q�些��ȝ��点，最极端的情冉|��你把C定�ؓ无限大，�q�样只要�E�有一个点��ȝ��Q�目标函数的值马上变成无限大�Q�马上让问题变成无解�Q�这��退化成了硬间隔问题�?/p>
四是惩罚因子C不是一个变量，整个优化问题在解的时候，C是一个你必须事先指定的��|��指定�q�个��g��后，解一下，得到一个分�c�d��Q�然后用��试数据看看�l�果怎么��P��如果不够好，换一个C的��|��再解一�ơ优化问题，得到另一个分�c�d��Q�再看看效果�Q�如此就是一个参数寻优的�q�程�Q�但�q�和优化问题本��n决不是一回事�Q�优化问题在解的�q�程中，C一直是定��|��要记住�?/p>
五是��管加了村ּ�变量�q�么一��_��但这个优化问题仍然是一个优化问题（汗，�q�不废话么）�Q�解它的�q�程比�v原始的硬间隔问题来说�Q�没有�Q何更加特�D�的地方�?/p>
从大的方面说优化问题解的�q�程�Q�就是先试着��定一下w�Q�也��是��定了前面图中的三条直线�Q�这时看看间隔有多大�Q�又有多��点��ȝ��Q�把目标函数的值算一��，再换一�l�三条直�U�（你可以看刎ͼ�分类的直�U�位�|�如果移动了�Q�有些原来离��的点会变得不再��ȝ��Q�而有的本来不��ȝ��的点会变成离��点�Q�，再把目标函数的值算一��，如此往复（�q�代�Q�，直到最�l�找到目标函数最��时的w�?/p>
啰嗦了这么多�Q�读者一定可以马上自己�ȝ��出来�Q�松弛变量也��是个解决线性不可分问题的方法�Ş了，但是回想一下，核函数的引入不也是�ؓ了解决线性不可分的问题么�Q��ؓ什么要��Z��一个问题��用两�U�方法呢�Q?/p>
其实两者还有微妙的不同。一般的�q�程应该是这��P��q�以文本分类��Z��。在原始的低�l�空间中�Q�样本相当的不可分，无论你怎么扑ֈ��c�d�^面，��M��有大量的��ȝ��点，此时用核函数向高�l�空间映��一下，虽然�l�果仍然是不可分的，但比原始�I�间里的要更加接�q�线性可分的状态（��是辑ֈ�了近似线性可分的状态）�Q�此时再用松弛变量处理那些少�?#8220;冥顽不化”的离��点�Q�就��单有效得多啦�?/p>
本节中的�Q�式1�Q�也��实是支持向量机最最常用的�Ş式。至此一个比较完整的支持向量机框架就有了�Q�简单说来，支持向量机就是��用了核函数的软间隔线性分�c�L��?/p>
下一节会说说村ּ�变量剩下的一点点东西�Q�顺便搞个读者调查，看看大家�q�想侃侃SVM的哪些方面�?/p>
SVM入门�Q�九�Q�松弛变量（�l�）

接下来要说的东西其实不是村ּ�变量本��n�Q�但�׃��是�ؓ了��用松弛变量才引入的，因此攑֜��q�里也算合适，那就是惩�|�因子C。回头看一眼引入了村ּ�变量以后的优化问题：

注意其中C的位�|�，也可以回想一下C所��L��作用�Q�表征你有多么重视离��点�Q�C��大��重视，��不想丢掉它们）。这个式子是以前做SVM的�h写的�Q�大家也��p��么用�Q�但没有��M��规定说必��d��所有的村ּ�变量都��用同一个惩�|�因子，我们完全可以�l�每一个离��点都��用不同的C�Q�这时就意味着你对每个��h��的重视程度都不一��P��有些��h��丢了也就丢了�Q�错了也��错了，�q�些��q��一个比较小的C�Q�而有些样本很重要�Q�决不能分类错误�Q�比如中央下辄��文�g啥的�Q�笑�Q�，��q��一个很大的C�?/p>
当然实际使用的时候�ƈ没有�q�么极端�Q�但一�U�很常用的变形可以用来解军_��c�问题中��h��?#8220;偏斜”问题�?/p>
先来说说��h��的偏斜问题，也叫数据集偏斜（unbalanced�Q�，它指的是参与分类的两个类别（也可以指多个�c�d��Q�样本数量差异很大。比如说正类�?0�Q?00个样本，而负�c�d��l�了100个，�q�会引�v的问题显而易见，可以看看下面的图�Q?/p>

方�Ş的点是负�c�R��H�Q�H1�Q�H2是根据给的样本算出来的分�c�面�Q�由于负�cȝ��h��很少很少�Q�所以有一些本来是负类的样本点没有提供�Q�比如图中两个灰色的方�Ş点，如果�q�两个点有提供的话，那算出来的分�c�面应该是H’�Q�H2’和H1�Q�他们显然和之前的结果有出入�Q�实际上负类�l�的��h��点越多，��p��Ҏ��出现在灰色点附近的点�Q�我们算出的�l�果也就��接�q�于真实的分�c�面。但现在�׃��偏斜的现象存在，使得数量多的正类可以把分�c�面向负�cȝ��方向“�?#8221;�Q�因而媄响了�l�果的准��性�?/p>
对付数据集偏斜问题的�Ҏ��之一��是在惩�|�因子上作文章，惛_��大家也猜��C��Q�那��是�l�样本数量少的负�c�L��大的惩罚因子�Q�表�C�我们重视这部分��h��Q�本来数量就��，再抛弃一些，那�h家负�c�还�z�M��z�M��Q�，因此我们的目标函��C��因松弛变量而损��q��部分��变成了�Q?/p>

其中i=1…p都是正样本，j=p+1…p+q都是负样本。libSVM�q�个��法包在解决偏斜问题的时候用的就是这�U�方法�?/p>
那C+和C-怎么��定呢？它们的大��是试出来的�Q�参数调优）�Q�但是他们的比例可以有些�Ҏ��来确定。咱们先假定说C+�?�q�么大，那确定C-的一个很直观的方法就是��用两�c�L��本数的比来算�Q�对应到刚才丄��例子�Q�C-��可以定�?00�q�么大（因�ؓ10�Q?00�Q?00=100�Q?嘛）�?/p>
但是�q�样�q�不够好�Q�回看刚才的图，你会发现正类之所以可�?#8220;��”负类�Q�其实�ƈ不是因�ؓ负类��h��，真实的原因是负类的样本分布的不够�q�（没扩充到负类本应该有的区域）。说一个具体点的例子，现在想给政治�c�d��体育�cȝ��文章做分�c�，政治�c�L��章很多，而体育类只提供了几篇关于��球的文章，�q�时分类会明昑ց�向于政治�c�，如果要给体育�c�L��章增加样本，但增加的��h��仍然全都是关于篮球的�Q�也��是��_��没有��球�Q�排球，赛�R�Q�游泳等�{�）�Q�那�l�果会怎样呢？虽然体育�c�L��章在数量上可以达��C��政治�c�M��样多�Q�但�q�于集中了，�l�果仍会偏向于政�ȝ��Q�所以给C+和C-��定比例更好的方法应该是衡量他们分布的程度。比如可以算��他们在�I�间中占据了多大的体�U�，例如�l�负�c�L��一个超�?#8212;—��是高维�I�间里的球啦——它可以包含所有负�cȝ��h��Q�再�l�正�c�L��一个，比比两个球的半径�Q�就可以大致��定分布的情��c��显然半径大的分布就比较�q�，��q��一点的惩罚因子�?/p>
但是�q�样�q�不够好�Q�因为有的类别样本确实很集中�Q�这不是提供的样本数量多��的问题�Q�这是类别本�w�的特征�Q�就是某些话题涉及的面很�H�，例如计算机类的文章就明显不如文化�cȝ��文章那么“天马行空”�Q�，�q�个时候即便超球的半径差异很大�Q�也不应该赋予两个类别不同的惩罚因子�?/p>
看到�q�里读者一定疯了，因�ؓ说来说去�Q�这岂不成了一个解决不了的问题�Q�然而事实如此，完全的方法是没有的，�Ҏ��需要，选择实现��单又合用的就好（例如libSVM��q��接��用样本数量的比）�?/p>
SVM入门�Q�十�Q�将SVM用于多类分类

�?SVM的那几张囑֏�以看出来�Q�SVM是一�U�典型的两类分类器，卛_��只回�{�属于正�c�还是负�cȝ��问题。而现实中要解决的问题�Q�往往是多�cȝ��问题�Q�少部分例外�Q�例如垃��N��件过滤，��只需要确�?#8220;�?#8221;�q�是“不是”垃圾邮�g�Q�，比如文本分类�Q�比如数字识别。如何由两类分类器得到多�c�d��c�d��Q�就是一个值得研究的问题�?/p>
�q�以文本分类��Z��Q�现成的�Ҏ��有很多，其中一�U�一��x��逸的�Ҏ��Q�就是真的一�ơ性考虑所有样本，�q�求解一个多目标函数的优化问题，一�ơ性得到多个分�c�面�Q�就像下图这��P��

多个��^面把�I�间划分为多个区域，每个区域对应一个类别，�l�一��文章，看它落在哪个区域��q��道了它的分类�?/p>
看�v来很��对不对�Q�只可惜�q�种��法�q�基本停留在�U�R��上，因�ؓ一�ơ性求解的�Ҏ��计算量实在太大，大到无法实用的地步�?/p>
�E�稍退一步，我们��׃��惛_��所�?#8220;一�c�d��其余”的方法，��是每次仍然解一个两�c�d��cȝ��问题。比如我们有5个类别，�W�一�ơ就把类�?的样本定为正��h��Q�其�?�Q?�Q?�Q?的样本合��h��定�ؓ负样本，�q�样得到一个两�c�d��c�d��Q�它能够指出一��文章是�q�是不是�W?�cȝ��Q�第二次我们把类�? 的样本定为正��h��Q�把1�Q?�Q?�Q?的样本合��h��定�ؓ负样本，得到一个分�c�d��Q�如此下去，我们可以得到5个这��L��两类分类器（��L��和类别的数目一��_��。到了有文章需要分�cȝ��时候，我们��拿着�q�篇文章挨个分类器的问：是属于你的么�Q�是属于你的么？哪个分类器点头说是了�Q�文章的�c�d��q��定了。这�U�方法的好处是每个优化问题的规模比较��，而且分类的时候速度很快�Q�只需要调�?个分�c�d��q��道了�l�果�Q�。但有时也会出现两种很尴��的情况�Q�例如拿一��文章问了一圈，每一个分�c�d��都说它是属于它那一�cȝ��Q�或者每一个分�c�d��都说它不是它那一�cȝ��Q�前者叫分类重叠现象�Q�后者叫不可分类现象。分�c�重叠倒还好办�Q�随侉K��一个结果都不至于太��谱�Q�或者看看这��文章到各个��^面的距离�Q�哪个远��判�l�哪个。不可分�cȝ��象就着实难办了�Q�只能把它分�l�第6个类别了……更要命的是，本来各个�c�d��的样本数目是差不多的�Q�但“其余”的那一�c�L��本数��L��要数倍于正类�Q�因为它是除正类以外其他�c�d��的样本之和嘛�Q�，�q�就��Zؓ的造成了上一节所说的“数据集偏�?#8221;问题�?/p>
因此我们�q�得再退一步，�q�是解两�c�d��c�问题，�q�是每次选一个类的样本作正类��h��Q�而负�c�L��本则变成只选一个类�Q�称�?#8220;一对一单挑”的方法，哦，不对�Q�没有单挑，��是“一对一”的方法，呵呵�Q�，�q�就避免了偏斜。因此过�E�就是算��样一些分�c�d��Q�第一个只回答“是第1�c�还是第2�c?#8221;�Q�第二个只回�{?#8220;是第1�c�还是第3�c?#8221;�Q�第三个只回�{?#8220;是第1�c�还是第4�c?#8221;�Q�如此下去，你也可以马上得出�Q�这��L��分类器应该有5 X 4/2=10个（通式是，如果有k个类别，则�ȝ��两类分类器数目�ؓk(k-1)/2�Q�。虽然分�c�d��的数目多了，但是在训�l�阶�D�（也就是算��些分�c�d��的分�c�d�^面时�Q�所用的��L��间却�?#8220;一�c�d��其余”�Ҏ��很多，在真正用来分�cȝ��时候，把一��文章扔�l�所有分�c�d��Q�第一个分�c�d��会投��说它是“1”或�?#8220;2”�Q�第二个会说它是“1”或�?#8220;3”�Q�让每一个都投上自己的一��，最后统计票敎ͼ�如果�c�d��“1”得票最多，��判�q�篇文章属于�W?�c�R��这�U�方法显然也会有分类重叠的现象，但不会有不可分类现象�Q�因为��M��可能所有类别的��数都是0。看��h��够好么？其实不然�Q�想惛_��c�M��文章，我们调用了多��个分类器？10个，�q�还是类别数�?的时候，�c�d��数如果是1000�Q�要调用的分�c�d��数目会上升至�U?00,000个（�c�d��数的�q�x��量��Q�。这如何是好�Q?/p>
看来我们必须再退一步，在分�cȝ��时候下功夫�Q�我们还是像一对一�Ҏ��那样来训�l�，只是在对一��文章进行分�c�M��前，我们先按照下面图的样子来�l�织分类器（如你所见，�q�是一个有向无环图�Q�因此这�U�方法也叫做DAG SVM�Q?/p>

�q�样在分�c�L��,我们��可以先问分�c�d��“1�?”�Q�意思是它能够回�{?#8220;是第1�c�还是第5�c?#8221;�Q�，如果它回�{?�Q�我们就往左走�Q�再�?#8220;2�?”�q�个分类器，如果它还说是“5”�Q�我们就�l�箋往左走�Q�这样一直问下去�Q�就可以得到分类�l�果。好处在哪？我们其实只调用了4个分�c�d��Q�如果类别数是k�Q�则只调用k-1个）�Q�分�c�速度飞快�Q�且没有分类重叠和不可分�cȝ��象！�~�点在哪�Q�假如最一开始的分类器回�{�错误（明明是类�?的文章，它说成了5�Q�，那么后面的分�c�d��是无论如何也无法�U�正它的错误的（因�ؓ后面的分�c�d��压根没有出现“1”�q�个�c�d��标签�Q�，其实对下面每一层的分类器都存在�q�种错误向下累积的现象。�?/p>
不过不要被DAG�Ҏ��的错误篏�U�吓倒，错误累积在一对其余和一对一�Ҏ��中也都存在，DAG�Ҏ��好于它们的地方就在于�Q�篏�U�的上限�Q�不��是大是��，��L��有定论的�Q�有理论证明。而一对其余和一对一�Ҏ��中，��管每一个两�c�d��c�d��的泛化误差限是知道的�Q�但是合��h��做多�c�d��cȝ��时候，误差上界是多��，没�h知道�Q�这意味着准确率低�?也是有可能的�Q�这多让人郁闗��?/p>
而且现在DAG�Ҏ��根节点的选取�Q�也��是如何选第一个参与分�cȝ��分类器）�Q�也有一些方法可以改善整体效果，我们��d��望根节点��犯错误为好�Q�因此参与第一�ơ分�cȝ��两个�c�d��Q�最好是差别特别特别大，大到以至于不太可能把他们分错�Q�或者我们就��d��在两�c�d��c�M��正确率最高的那个分类器作根节点，或者我们让两类分类器在分类的时候，不光输出�c�d��的标�{�，�q�输��Z��个类�?#8220;�|�信�?#8221;的东东，当它对自��q��l�果不太自信的时候，我们��׃��光按照它的输��Q�把它旁边的那条路也��C��赎ͼ��{�等�?/p>
大Tips�Q�SVM的计��复杂度

使用SVM�q�行分类的时候，实际上是训练和分�c�M��个完全不同的�q�程�Q�因而讨论复杂度��׃��能一概而论�Q�我们这里所说的主要是训�l�阶�D늚�复杂度，卌��那个二次规划问题的复杂度。对�q�个问题的解�Q�基本上要划分�ؓ两大块，解析解和数��D��?/p>
解析解就是理��Z��的解�Q�它的�Ş式是表达式，因此它是�_��的，一个问题只要有解（无解的问题还跟着掺和什么呀�Q�哈哈）�Q�那它的解析解是一定存在的。当然存在是一回事�Q�能够解出来�Q�或者可以在可以承受的时间范围内解出来，��是另一回事了。对SVM来说�Q�求得解析解的时间复杂度最坏可以达到O(Nsv3)�Q�其中Nsv是支持向量的个数�Q�而虽然没有固定的比例�Q�但支持向量的个数多��也和训�l�集的大��有兟�?/p>
数��D��是可以使用的解�Q�是一个一个的敎ͼ�往往都是�q�似解。求数��D��的过�E�非常像�I��D法，从一个数开始，试一试它当解效果怎样�Q�不满��一定条�Ӟ��叫做停机条�g�Q�就是满��个以后就认�ؓ解��够精��了�Q�不需要��l�算下去了）��p��下一个，当然下一个数不是乱选的�Q�也有一定章法可循。有的算法，每次只尝试一个数�Q�有的就��试多个�Q�而且找下一个数字（或下一�l�数�Q�的�Ҏ��也各不相同，停机条�g也各不相同，最�l�得到的解精度也各不相同�Q�可见对求数��D��的复杂度的讨��Z��能脱开具体的算法�?/p>
一个具体的��法�Q�Bunch-Kaufman训练��法�Q�典型的旉��复杂度在O(Nsv3+LNsv2+dLNsv)和O(dL2)之间�Q�其中Nsv是支持向量的个数�Q�L是训�l�集��h��的个敎ͼ�d是每个样本的�l�数�Q�原始的�l�数�Q�没有经�q�向高维�I�间映射之前的维敎ͼ�。复杂度会有变化�Q�是因�ؓ它不光跟输入问题的规模有养I��不光和样本的数量�Q�维数有养I��Q�也和问题最�l�的解有养I��x��持向量有养I��Q�如果支持向量比较少�Q�过�E�会快很多，如果支持向量很多�Q�接�q�于��h��的数量，��׃��产生O(dL2)�q�个十分�p�糕的结果（�l?0�Q?00个样本，每个��h��1000�l�_��基本��׃��用算了，��不出来�Q�呵呵，而这�U�输入规模对文本分类来说太正�怺��Q��?/p>
�q�样再回头看��׃��明白��Z��么一对一�Ҏ��管要训�l�的两类分类器数量多�Q�但��L��间实际上比一对其余方法要��了�Q�因��Z��对其余方法每�ơ训�l�都考虑了所有样本（只是每次把不同的部分划分为正�c�L��者负�c�而已�Q�，自然慢上很多�?/p>

SunRise_at 2012-08-06 16:58 发表评论

自然语言理解�ȝ��

SunRise_at — Tue, 22 May 2012 06:55:00 GMT

  最�q�的工作都是��Q务，很简单的��Q务，水水的就写好了。因��得自己在自然语言处理斚w��了解甚少�Q�剩下的旉��在看《�h工智能》，最�q�再看第8章自然语�a�理解。很认真的看�q�了解过�Q�现在做一下�ȝ��?/font>

    自然语言理解现在大体分�ؓ5个层�ơ：语音分析�Q�词法分析，语义分析和语用分析�?/font>

    一.语音分析跌��Q�直接进入词法分析。所谓词法分析就是从句子中切分出单词�Q�找��汇的各个词素�Q�从中获得单词的语言学信息�ƈ��定单词的词义�?/font>

    1.for English

    repeat

        look for word in dictionary

        If  not found

        Then modify the word

Until word found or no further modification possible

所以在自然语言理解的词�怸�一般只放词根，支持词素分析可以大大的压�~�电子词典的规模。英语词法分析的隑ֺ�在于词义判断�Q�以为单词有很多解释�Q�要判定词义只能依靠句子中其他相兛_��词和词组的分析�?/span>

2.对于汉语

汉语中的每一字都是一个词素，但是要切分出各个词就非常困难�Q�最主要的就是切分歧义。一句话可以有多�U�拆分方式，要是遇到那种“下雨天留客天留我不留”�Q�基本就�ȝ��了�?/span>

二．句法分析

�q�个和汇�~�原理里的那个好像是一��L��Q�至于到底是不是一个，我也忘却了。主要分��Z��c�：��Z��规则的方法和��Z��l�计的方法�?/span>

1.短语�l�构语法

2.乔姆斯基形式语法

3.语法分析�?/font>

4.转移�|�络

5.扩充转移�|�络

具体�l�节自己查去�Q�我主要写一下扩充�{�Uȝ��l�（Augmented Transition Network,ANT�Q�，该语法属于一�U�增强型的上下文无关语法�?/font>

ANT主要对�{�Uȝ��l�中的弧附加了过�E�得到的�Q�过�E�的主要功能�Q�对文法特征�q�行赋倹{��前后把书翻看几遍也没有发现�Ҏ��法特征进行赋值是什么，暂理解成把一个单词赋�l?/font>ART�Q�当随着弧走到这�Ӟ��查词性部分是否等�?/font>ART。如果是则把ART赋值给NP,S\DET,否则�Q�失败引起回溯。第二个��是��查数或�h�U�条件是否满��I��q�据此允许或不允许�{�U�，整个ANT语法��构成了一个句法树�?/font>

   �?font face="Times New Roman">.语义分析�Q�百度去吧，��h��d��Q?/font>

   大规模真实文本的处理

   最�q�做的处理工作好像就是这些，在各�U�语料中提取各种库，里面的很多发现自�׃��断断�l�箋的在接触�?/span>

   �q�里的两个语料库一个是��Z��wordnet,另一�U�是hownet.hownet以前介绍�q�，直接wordnet.

  其实wordnet��是把所有的词构建成一��|��Q�整个名词组成一个��承关�p�R�?/font>



补充一下：在利�?font face="Times New Roman">worknet�q�行�怼�度计��的时候，词与词之间的距离对于路径相同的，层次高的要比层次低的层次低的距离�q�，�E�疏的要比�E�密的距��远。所以用worknet�?/font>hownet考虑更多的问题。对于句子与句子之间的相似度计算很容易实玎ͼ�但是旉��复杂度太高，上次做优化的时候，�?/font>89万次计算中，只有1000+的有效计��，所以选择把词与词之间的距��d��好�Q�直接读取，要快很多�?/font>

最后后面的词性标注和分词一直都是直接用公司的代码去调用的，自己�q�在学习中，期待在不久的��来能够掌握�q�些�?/span>

一天比一天多一点的�q�步��好�Q�快乐码农中�?/span>

SunRise_at 2012-05-22 14:55 发表评论

樱桃成人精品视频在线播放,欧美日韩国产精品一卡,久久av资源网

SVM���法入门

自然语言理解�ȝ��

SVM��法入门