基于svm的文本分类器的设计与实现_独家原创.doc

  
约41页DOC格式手机打开展开

基于svm的文本分类器的设计与实现_独家原创,基于svm的文本分类器的设计与实现1.98万字自己原创的毕业论文,已经通过校内系统检测,重复率低,仅在本站独家出售,大家放心下载使用摘要 文本分类是指计算机将一篇文章归于预先给定的某一类或某几类的过程。支持向量机是一种机器学习方法,它是以统计学理论为基础,较好地解决了非线性、高维数、局部小样本等实际问题。文本分类是基于...
编号:99-480893大小:536.56K
分类: 论文>计算机论文

内容介绍

此文档由会员 小丑88 发布

基于SVM的文本分类器的设计与实现

1.98万字
自己原创的毕业论文,已经通过校内系统检测,重复率低,仅在本站独家出售,大家放心下载使用

摘要 文本分类是指计算机将一篇文章归于预先给定的某一类或某几类的过程。支持向量机是一种机器学习方法,它是以统计学理论为基础,较好地解决了非线性、高维数、局部小样本等实际问题。文本分类是基于内容的自动信息管理的核心技术。文本向量的最大特点是稀疏性大和维数高,支持向量机对于处理高维数的问题具有较大的优势。因此,支持向量机非常适用于文本分类问题,在文本分类中具有很大的应用潜力。
本文简单介绍了文本分类的发展、研究现状、以及文本分类的过程。并在此基础上对 SVM 算法的理论进行了研究,同时在该算法的基础上研究了基于 SVM 算法的文本分类系统,系统包含训练过程的文本预处理、特征处理、文本表示,训练样本集,得到分类器;并使用分类器对测试样本测试,最后对系统结构和运行结果进行了简单的分析。

关键词:文本分类 支持向量机 SVM 机器学习


Design and Implementation of the Text Classifier Based on SVM

Abstract Text Classification refers to that The computer will classify an article to a certain category or categories. Support vector machine (SVM) is a learning method, it is based on statistical learning theory, it can well resolve such practical Problems as nonlinearity, high dimension and local minima. Text categorization is a key technique in content-based automatic information management. The biggest features of text vectors are high dimensional and extremely sparse. SVM is particularly suited for text categorization and have great potential in text categorization, as SVM have advantages in dealing with high dimensional problems. A large number of experiments have shown that support vector machine has not only simpler structure, but also better performance, especially its better generalization ability.
This article briefly introduced the development of text classification, research, and the process of text classification ,and researched on the theory of SVM algorithm. This system contains preprocessing, feature selection processing and classification module constructing. At the same time a simple text classification system that is based on SVM algorithm was researched, and at last some analysis of system structure and the results of operation was done.

Keywords: Text Classification SVM Machine learing.

目 录
第一章 绪论 1
1.1 课题研究的背景与意义 1
1.2 国内外研究现状 2
1.2.1国外研究现状 2
1.2.2国内研究现状 3
1.2.3存在问题 3
1.3 本文研究内容 4
1.4 本文的组织结构 5
第二章 文本分类的主要技术 6
2.1 文本分类的过程 6
2.2 文本预处理 6
2.2.1 中文分词 6
2.2.2 停用词处理 8
2.3 特征处理 9
2.3.1频率统计 9
2.3.2降维技术 10
2.3.3特征权重 11
2.4 文本表示 12
第三章 基于支持向量机文本分类相关理论介绍 15
3.1支持向量机定义 15
3.2支持向量机的优势 17
3.3支持向量机在文本分类应用中存在的主要问题 17
3.4支持向量机的主要思想 18
3.4.1最优超平面 18
3.4.2线性可分的支持向量机分类 19
3.4.3线性不可分的支持向量机分类 19
3.4.4非线性情况 20
3.5常用支持向量机训练算法 22
第四章 基于SVM的文本分类器系统设计 23
4.1 系统开发环境 23
4.2 系统设计 23
4.2.1 语料库设计 23
4.2.2 主要功能模块设计 24
4.2.3 系统评价标准 27
第五章 SVM文本分类器系统的实验分析 28
5.1 系统运行过程 28
5.3 结果及分析 32
结 论 36
致 谢 37
参考文献 38