基于支持向量机的文本分类算法研究.doc
约47页DOC格式手机打开展开
基于支持向量机的文本分类算法研究, 2万字自己原创的毕业论文,仅在本站独家出售,重复率低,推荐下载使用摘要:随着互联网技术的飞速发展,网上的电子文档数量急剧增加。人们选择可选择的信息变多,但是信息的选择也变得繁琐,这就使得文本的自动分类越来越受人们的重视,而支持向量机和文本分类问题有着良好的结合点,从而使得基于支持向量机...
内容介绍
此文档由会员 淘宝大梦 发布
基于支持向量机的文本分类算法研究
2万字
自己原创的毕业论文,仅在本站独家出售,重复率低,推荐下载使用
摘要:随着互联网技术的飞速发展,网上的电子文档数量急剧增加。人们选择可选择的信息变多,但是信息的选择也变得繁琐,这就使得文本的自动分类越来越受人们的重视,而支持向量机和文本分类问题有着良好的结合点,从而使得基于支持向量机的文本分类成为这个领域的研究热点,支持向量机是一种基于结构风险最小化准则的分类学习机模型,它的应用十分广泛。本文分类中,文本特征的提取和合理选择是实现文本分类的一个关键步骤。文本分类一般分为预处理、统计、特征提取、训练和测试评价这几个步骤。
本文主要研究基于支持向量机的分本分类,首先,从《中国学习者英语语料库》中同一作文题目的英语作文作为语料,再根据作文得分不同将作文进行分类,将对作文分类的问题转化为对文本分类的问题;其次是对这些作文进行特征的提取,组成特征向量,这些特征主要包括英语作文中的句子数量、字符总数、名词代词比和定冠词频率误差等方面;最后利用支持向量机分类器根据提取的特征对作文进行分类,对比语料分类结果,看分类器的准确率,调整惩罚参数c和高斯径向核函数的参数来提高分类器的性能。实验表明当,时,分类器的准确率达到最高78.7234%。
关键词:特征提取;文本分类;支持向量机
Research on Support Vector Machine Classification Method
Abstract: With the rapid development of Internet technology,There is a sharp increase in the number of electronic documents online.People choose alternative information becomes much, but also becomes tedious selection information, which makes automatic text classification by the people more and more attention, and support vector machines, and text classification has a good combination of points, so that based on SVM text classification has become a hot research in this area, support vector machine is a structural risk minimization criteria for classification based on machine learning model, it is widely used. In this paper, classification, feature extraction and reasonable choice of texts is a key step towards text classification. Text classification is generally divided into pre-processing, statistics, feature extraction, training and testing and eva luation these steps.
In this paper,based on support vector machine of the classification, first, from the "Chinese Learner English Corpus" in the same essay topic as a corpus of English composition, according to the essay writing scores of different classification,will be transformed into the problem of writing score for text classification problems,followed by the extraction of these feature writing, composition feature vectors,these features include English composition in terms of the number of sentences, the total number of characters, nouns and pronouns than the definite article frequency errors.Then use the support vector machine classifier based on the extracted features for classification essay,compare corpus classification results,see the classification accuracy rate adjustment penalty parameter and kernel function parameters to improve the classification performance.Adjust the penalty parameter c and radial Gaussian kernel function parameters to improve the classification performance. Experiments show that when penalty parameter c =1.4, when kernel function parameters g=0.08, classifiers highest 78.7234% accuracy rate.
Keyword:feature selection;text categorization;Support Vector Machine
目 录
第一章 引言 1
1.1 研究背景及意义 1
1.2国内外研究现状 2
1.2.1 文本分类研究现状 2
1.2.2 SVM研究现状 5
1.3 论文内容介绍 6
第二章 文本分类 7
2.1 文本自动分类概述 7
2.2 文本分类关键技术 7
2.2.1 文本的表示 7
2.2.2 文本特征的提取 9
2.2.3 权重计算 11
2.2.4 常用的文本分类算法 12
2.3 文本分类的主要应用 13
第三章 支持向量机简介 15
3.1 SVM产生与发展 15
3.2 支持向量机简介 16
3.3 支持向量机分类 16
3.3.1 线性可分支持向量分类机 16
3.3.2 近似线性可分问题 18
3.3.3 线性不可分问题 18
3.4 常用的核函数 20
3.4.1 核函数及特征 20
3.4.2 核函数的判定和常用的核函数 20
3.4.3 常用的核函数 20
第四章 基于支持向量机的文本分类算法在六级作文分类中的应用 22
4.1 文本处理的一般流程: 22
4.2 特征提取流程 24
4.3 实验步骤 26
4.4特征提取流程图 27
第五章 实验结果 33
5.1 实验过程结果 33
5.2 SVM性能测试 36
第六章 总结 39
6.1 本文总结 39
6.2 未来工作 39
致 谢 41
参考文献 42
2万字
自己原创的毕业论文,仅在本站独家出售,重复率低,推荐下载使用
摘要:随着互联网技术的飞速发展,网上的电子文档数量急剧增加。人们选择可选择的信息变多,但是信息的选择也变得繁琐,这就使得文本的自动分类越来越受人们的重视,而支持向量机和文本分类问题有着良好的结合点,从而使得基于支持向量机的文本分类成为这个领域的研究热点,支持向量机是一种基于结构风险最小化准则的分类学习机模型,它的应用十分广泛。本文分类中,文本特征的提取和合理选择是实现文本分类的一个关键步骤。文本分类一般分为预处理、统计、特征提取、训练和测试评价这几个步骤。
本文主要研究基于支持向量机的分本分类,首先,从《中国学习者英语语料库》中同一作文题目的英语作文作为语料,再根据作文得分不同将作文进行分类,将对作文分类的问题转化为对文本分类的问题;其次是对这些作文进行特征的提取,组成特征向量,这些特征主要包括英语作文中的句子数量、字符总数、名词代词比和定冠词频率误差等方面;最后利用支持向量机分类器根据提取的特征对作文进行分类,对比语料分类结果,看分类器的准确率,调整惩罚参数c和高斯径向核函数的参数来提高分类器的性能。实验表明当,时,分类器的准确率达到最高78.7234%。
关键词:特征提取;文本分类;支持向量机
Research on Support Vector Machine Classification Method
Abstract: With the rapid development of Internet technology,There is a sharp increase in the number of electronic documents online.People choose alternative information becomes much, but also becomes tedious selection information, which makes automatic text classification by the people more and more attention, and support vector machines, and text classification has a good combination of points, so that based on SVM text classification has become a hot research in this area, support vector machine is a structural risk minimization criteria for classification based on machine learning model, it is widely used. In this paper, classification, feature extraction and reasonable choice of texts is a key step towards text classification. Text classification is generally divided into pre-processing, statistics, feature extraction, training and testing and eva luation these steps.
In this paper,based on support vector machine of the classification, first, from the "Chinese Learner English Corpus" in the same essay topic as a corpus of English composition, according to the essay writing scores of different classification,will be transformed into the problem of writing score for text classification problems,followed by the extraction of these feature writing, composition feature vectors,these features include English composition in terms of the number of sentences, the total number of characters, nouns and pronouns than the definite article frequency errors.Then use the support vector machine classifier based on the extracted features for classification essay,compare corpus classification results,see the classification accuracy rate adjustment penalty parameter and kernel function parameters to improve the classification performance.Adjust the penalty parameter c and radial Gaussian kernel function parameters to improve the classification performance. Experiments show that when penalty parameter c =1.4, when kernel function parameters g=0.08, classifiers highest 78.7234% accuracy rate.
Keyword:feature selection;text categorization;Support Vector Machine
目 录
第一章 引言 1
1.1 研究背景及意义 1
1.2国内外研究现状 2
1.2.1 文本分类研究现状 2
1.2.2 SVM研究现状 5
1.3 论文内容介绍 6
第二章 文本分类 7
2.1 文本自动分类概述 7
2.2 文本分类关键技术 7
2.2.1 文本的表示 7
2.2.2 文本特征的提取 9
2.2.3 权重计算 11
2.2.4 常用的文本分类算法 12
2.3 文本分类的主要应用 13
第三章 支持向量机简介 15
3.1 SVM产生与发展 15
3.2 支持向量机简介 16
3.3 支持向量机分类 16
3.3.1 线性可分支持向量分类机 16
3.3.2 近似线性可分问题 18
3.3.3 线性不可分问题 18
3.4 常用的核函数 20
3.4.1 核函数及特征 20
3.4.2 核函数的判定和常用的核函数 20
3.4.3 常用的核函数 20
第四章 基于支持向量机的文本分类算法在六级作文分类中的应用 22
4.1 文本处理的一般流程: 22
4.2 特征提取流程 24
4.3 实验步骤 26
4.4特征提取流程图 27
第五章 实验结果 33
5.1 实验过程结果 33
5.2 SVM性能测试 36
第六章 总结 39
6.1 本文总结 39
6.2 未来工作 39
致 谢 41
参考文献 42