支撑向量机快速训练方法研究.doc
约45页DOC格式手机打开展开
支撑向量机快速训练方法研究,本文共计45页,23279字;摘要支撑向量机(support vector machines,简称svm)是基于统计学习理论的一种新的机器学习技术。由于采用了使用结构风险最小化原则替代经验风险最小化原则,它较好的解决了小样本学习问题。又由于采用了核函数思想,它把非线性空间的问题转换到线性空间,...
内容介绍
此文档由会员 霜天盈月 发布
支撑向量机快速训练方法研究
本文共计45页,23279字;
摘 要
支撑向量机(Support Vector Machines,简称SVM)是基于统计学习理论的一种新的机器学习技术。由于采用了使用结构风险最小化原则替代经验风险最小化原则,它较好的解决了小样本学习问题。又由于采用了核函数思想,它把非线性空间的问题转换到线性空间,降低了算法的复杂度。正因为SVM理论有较为完备的理论基础和较好的学习性能,使得它成为继神经网络研究之后新的研究热点,并将推动机器学习理论和技术有重大的发展。尽管SVM理论的性能在许多实际问题中得到了验证,但是该算法在计算上存在着一些问题,包括训练算法速度慢、算法复杂而难以实现以及检测阶段运算量大等等。本文针对上面的问题,主要对SVM算法进行了研究,并针对大规模数据集提出一种新的训练方法。为此,本文集中进行了下面一些研究工作。
首先对SVM理论进行基本概念上的介绍,并深入探讨了SVM算法的基本理论。然后对四种具体的SVM算法——SVMlight、SMO、BSVM和LIBSVM算法进行了深入研究,并利用标准数据对三种算法性能进行比较。
其次针对大规模训练集,为了克服训练算法速度慢,提高训练速度,提出了一种分块LIBSVM算法。这种算法将分块算法和LIBSVM两种算法相结合,将大规模问题分解为许多子块,并对每个子块进行快速优化。运用这种方法有望使大规模训练问题得到快速解决。
最后将SVM算法应用到舌象分析中。根据舌象数据的特点,分析将SVM应用于舌象分析的可行性。
关键词:支撑向量机,训练算法,CLIBSVM算法,舌象分析
ABSTRACT
Support Vector Machines (SVM) is a new pattern recognition technology, which is based on Statistical Learning Theory. It can solve small-sample learning problems better by using Experiential Risk Minimization in place of Structural Risk Minimization. Moreover, this theory can change the problem in non-linearity space to that in the linearity space in order to reduce the algorithm complexity by using the kernel function idea. Because it has quite perfect theoretical properties and good learning performance, SVM theory becomes the new research hotspot after the research of Artificial Nerve Net and pushes the development in machine learning theory and technology. However, SVM theory performance has been validated in many practical applications, there are still some drawbacks. For example: train speed is slow, algorithm is complex and check phase operation is large, etc. According to above problems, this dissertation mainly focuses on the SVM algorithm research and tries to find a fast training algorithm. So, the following research works are done.
目 录
1.绪论----------------------------------------------------------------------5
1.1论文背景-------------------------------------------------------------5
1.2论文研究内容---------------------------------------------------------6
2.模式识别系统--------------------------------------------------------------8
2.1模式识别系统概述-----------------------------------------------------8
2.2支撑向量机在模式识别中的应用----------------------------------------10
3.统计学习理论和支撑向量机原理---------------------------------------------11
3.1统计学习理论的主要内容----------------------------------------------11
3.1.1 边界理论与VC维-----------------------------------------------11
3.1.2 推广误差边界--------------------------------------------------11
3.1.3 结构风险最小化原理--------------------------------------------12
3.2支撑向量机的原理----------------------------------------------------14
3.2.1 最优分类面----------------------------------------------------14
3.2.2 线性可分情况--------------------------------------------------15
3.2.3 线性不可分情况------------------------------------------------17
3.2.4 非线性情况----------------------------------------------------18
4.支撑向量机快速训练算法及其实现-------------------------------------------19
4.1支撑向量机训练算法的研究现状----------------------------------------19
4.2 SVMlight算法----------------------------------------------------------20
4.2.1算法的基本思想-------------------------------------------------20
4.2.2算法原理-------------------------------------------------------21
4.3 SMO算法-------------------------------------------------------------25
4.3.1算法的基本思想-------------------------------------------------25
4.3.2算法原理-------------------------------------------------------25
4.4 BSVM算法------------------------------------------------------------29
4.4.1算法的基本思想-------------------------------------------------29
4.4.2算法原理-------------------------------------------------------30
4.5 LIBSVM算法----------------------------------------------------------31
4.5.1算法的基本思想-------------------------------------------------31
4.5.2算法原理-------------------------------------------------------31
4.6四种算法的比较实验---------------------------------------------------34
5.一种超大规模训练问题的解决方法-------------------------------------------38
5.1四种算法的优缺点分析------------------------------------------------38
5.2大规模训练问题的解决方案--------------------------------------------38
5.2.1分块LIBSVM方法的提出------------------------------------------38
5.2.2分块LIBSVM算法的实现------------------------------------------39
5.2.3五种算法的比较实验及结果分析-----------------------------------40
6.支撑向量机在舌象分析中的应用---------------------------------------------41
6.1计算机舌象分析方法简介----------------------------------------------41
6.2支撑向量机在舌象分析中的应用思路------------------------------------41
结束语---------------------------------------------------------------------43
致谢-----------------------------------------------------------------------44
参考文献-------------------------------------------------------------------45
参考文献
1. 边肇祺,张学工,模式识别(第2版),北京:清华大学出版社,1999.12.
2. Richard O. Duda and Peter E. Hart and David G. Stork,李宏乐,姚天翔译,Pattern Classification,北京:机械工业出版社,2003.9.
3. 范昕炜,支撑向量机算法的研究及其应用,浙江大学博士毕业论文,2003.5.
4. 沈培华,支持矢量机的算法研究和应用,硕士毕业论文,2002.1.
5. Thorsten Joachims, Making Large-Scale SVM Learning Practical. LS-8 Report 24. Dortmund, USA. 15. June, 1998.
本文共计45页,23279字;
摘 要
支撑向量机(Support Vector Machines,简称SVM)是基于统计学习理论的一种新的机器学习技术。由于采用了使用结构风险最小化原则替代经验风险最小化原则,它较好的解决了小样本学习问题。又由于采用了核函数思想,它把非线性空间的问题转换到线性空间,降低了算法的复杂度。正因为SVM理论有较为完备的理论基础和较好的学习性能,使得它成为继神经网络研究之后新的研究热点,并将推动机器学习理论和技术有重大的发展。尽管SVM理论的性能在许多实际问题中得到了验证,但是该算法在计算上存在着一些问题,包括训练算法速度慢、算法复杂而难以实现以及检测阶段运算量大等等。本文针对上面的问题,主要对SVM算法进行了研究,并针对大规模数据集提出一种新的训练方法。为此,本文集中进行了下面一些研究工作。
首先对SVM理论进行基本概念上的介绍,并深入探讨了SVM算法的基本理论。然后对四种具体的SVM算法——SVMlight、SMO、BSVM和LIBSVM算法进行了深入研究,并利用标准数据对三种算法性能进行比较。
其次针对大规模训练集,为了克服训练算法速度慢,提高训练速度,提出了一种分块LIBSVM算法。这种算法将分块算法和LIBSVM两种算法相结合,将大规模问题分解为许多子块,并对每个子块进行快速优化。运用这种方法有望使大规模训练问题得到快速解决。
最后将SVM算法应用到舌象分析中。根据舌象数据的特点,分析将SVM应用于舌象分析的可行性。
关键词:支撑向量机,训练算法,CLIBSVM算法,舌象分析
ABSTRACT
Support Vector Machines (SVM) is a new pattern recognition technology, which is based on Statistical Learning Theory. It can solve small-sample learning problems better by using Experiential Risk Minimization in place of Structural Risk Minimization. Moreover, this theory can change the problem in non-linearity space to that in the linearity space in order to reduce the algorithm complexity by using the kernel function idea. Because it has quite perfect theoretical properties and good learning performance, SVM theory becomes the new research hotspot after the research of Artificial Nerve Net and pushes the development in machine learning theory and technology. However, SVM theory performance has been validated in many practical applications, there are still some drawbacks. For example: train speed is slow, algorithm is complex and check phase operation is large, etc. According to above problems, this dissertation mainly focuses on the SVM algorithm research and tries to find a fast training algorithm. So, the following research works are done.
目 录
1.绪论----------------------------------------------------------------------5
1.1论文背景-------------------------------------------------------------5
1.2论文研究内容---------------------------------------------------------6
2.模式识别系统--------------------------------------------------------------8
2.1模式识别系统概述-----------------------------------------------------8
2.2支撑向量机在模式识别中的应用----------------------------------------10
3.统计学习理论和支撑向量机原理---------------------------------------------11
3.1统计学习理论的主要内容----------------------------------------------11
3.1.1 边界理论与VC维-----------------------------------------------11
3.1.2 推广误差边界--------------------------------------------------11
3.1.3 结构风险最小化原理--------------------------------------------12
3.2支撑向量机的原理----------------------------------------------------14
3.2.1 最优分类面----------------------------------------------------14
3.2.2 线性可分情况--------------------------------------------------15
3.2.3 线性不可分情况------------------------------------------------17
3.2.4 非线性情况----------------------------------------------------18
4.支撑向量机快速训练算法及其实现-------------------------------------------19
4.1支撑向量机训练算法的研究现状----------------------------------------19
4.2 SVMlight算法----------------------------------------------------------20
4.2.1算法的基本思想-------------------------------------------------20
4.2.2算法原理-------------------------------------------------------21
4.3 SMO算法-------------------------------------------------------------25
4.3.1算法的基本思想-------------------------------------------------25
4.3.2算法原理-------------------------------------------------------25
4.4 BSVM算法------------------------------------------------------------29
4.4.1算法的基本思想-------------------------------------------------29
4.4.2算法原理-------------------------------------------------------30
4.5 LIBSVM算法----------------------------------------------------------31
4.5.1算法的基本思想-------------------------------------------------31
4.5.2算法原理-------------------------------------------------------31
4.6四种算法的比较实验---------------------------------------------------34
5.一种超大规模训练问题的解决方法-------------------------------------------38
5.1四种算法的优缺点分析------------------------------------------------38
5.2大规模训练问题的解决方案--------------------------------------------38
5.2.1分块LIBSVM方法的提出------------------------------------------38
5.2.2分块LIBSVM算法的实现------------------------------------------39
5.2.3五种算法的比较实验及结果分析-----------------------------------40
6.支撑向量机在舌象分析中的应用---------------------------------------------41
6.1计算机舌象分析方法简介----------------------------------------------41
6.2支撑向量机在舌象分析中的应用思路------------------------------------41
结束语---------------------------------------------------------------------43
致谢-----------------------------------------------------------------------44
参考文献-------------------------------------------------------------------45
参考文献
1. 边肇祺,张学工,模式识别(第2版),北京:清华大学出版社,1999.12.
2. Richard O. Duda and Peter E. Hart and David G. Stork,李宏乐,姚天翔译,Pattern Classification,北京:机械工业出版社,2003.9.
3. 范昕炜,支撑向量机算法的研究及其应用,浙江大学博士毕业论文,2003.5.
4. 沈培华,支持矢量机的算法研究和应用,硕士毕业论文,2002.1.
5. Thorsten Joachims, Making Large-Scale SVM Learning Practical. LS-8 Report 24. Dortmund, USA. 15. June, 1998.