中文文本分类中的特征选择研究.pdf
约37页PDF格式手机打开展开
中文文本分类中的特征选择研究,文本作为最 重要的电子数据形式之一,增长速度更为惊人。为了从规模庞大的文本集里获取有用的信息,需要快速有效的方法。基于机器学习的文本分类技术可以在较大程度上解决文本库杂乱无章的现象,帮助人们将大量的文本自动分门别类。文本自动分类技术有广阔的应用前景,因此得到了广泛的关注,对其相关方面的研究也取得很大的进展。 特征选择是...
内容介绍
此文档由会员 wanli1988go 发布
文本作为最 重要的电子数据形式之一,增长速度更为惊人。为了从规模庞大的文本集里获取有用
的信息,需要快速有效的方法。基于机器学习的文本分类技术可以在较大程度上解决
文本库杂乱无章的现象,帮助人们将大量的文本自动分门别类。文本自动分类技术有
广阔的应用前景,因此得到了广泛的关注,对其相关方面的研究也取得很大的进展。
特征选择是文本自动分类中最重要的环节之一,是本文研究的重点。特征选择是
一个从原始特征集中抽取出它的一个由重要词汇组成的真子集的过程。通过一个评估
函数给原始特征集里的每个特征打分,选取分值高于阈值的特征。
高效的文本分类分类器要求组成其向量空间的特征应该带有较强的分类信息,同
时向量空间能很好的兼顾各个类别里的文本的信息。 本文分析了典型的特征选择算法
DF 和 MI 的优点和不足,并以此为基础提出了基于二类信息差值的特征提取方法
(IDTC) ,IDTC 强调特征对任意两个类别的分类作用,理论上能很好的满足文本分类
中对特征集的要求。实验结果表明,使用 IDTC 选择方法的分类器,比使用 DF 和 MI
选择方法的分类器的效果要好得多,并有不逊于使用其他特征选择算法的
Abstract
Along with the swift and violent development of information technology and rapid
popularization of the Internet technology, the amount of the information that is stored in
computer systems increases explosively. Electronic text is one of the most important form
of data in computer systems, and the growth of it is more astonishing, so does the growth
of text that written in Chinese. In order to gain useful information from the large scale text
set, fast and effective methods are needed. As one of important instrument of the data
mining technology, automatic text classification technology, which is based on machine
learning technology, can help people solve the problem of information disorder to a great
extent. It can assign a text to one of the predefined categories automatically, so as to help
people to index texts more conveniently, and find the useful information easier. Automatic
text classification technology can be used in many areas because it is very useful, therefore,
it becomes a hot point people focus on in research areas and big progress has been made in
research of it.
In the progress of automatic text classification, there are two most important factors
的信息,需要快速有效的方法。基于机器学习的文本分类技术可以在较大程度上解决
文本库杂乱无章的现象,帮助人们将大量的文本自动分门别类。文本自动分类技术有
广阔的应用前景,因此得到了广泛的关注,对其相关方面的研究也取得很大的进展。
特征选择是文本自动分类中最重要的环节之一,是本文研究的重点。特征选择是
一个从原始特征集中抽取出它的一个由重要词汇组成的真子集的过程。通过一个评估
函数给原始特征集里的每个特征打分,选取分值高于阈值的特征。
高效的文本分类分类器要求组成其向量空间的特征应该带有较强的分类信息,同
时向量空间能很好的兼顾各个类别里的文本的信息。 本文分析了典型的特征选择算法
DF 和 MI 的优点和不足,并以此为基础提出了基于二类信息差值的特征提取方法
(IDTC) ,IDTC 强调特征对任意两个类别的分类作用,理论上能很好的满足文本分类
中对特征集的要求。实验结果表明,使用 IDTC 选择方法的分类器,比使用 DF 和 MI
选择方法的分类器的效果要好得多,并有不逊于使用其他特征选择算法的
Abstract
Along with the swift and violent development of information technology and rapid
popularization of the Internet technology, the amount of the information that is stored in
computer systems increases explosively. Electronic text is one of the most important form
of data in computer systems, and the growth of it is more astonishing, so does the growth
of text that written in Chinese. In order to gain useful information from the large scale text
set, fast and effective methods are needed. As one of important instrument of the data
mining technology, automatic text classification technology, which is based on machine
learning technology, can help people solve the problem of information disorder to a great
extent. It can assign a text to one of the predefined categories automatically, so as to help
people to index texts more conveniently, and find the useful information easier. Automatic
text classification technology can be used in many areas because it is very useful, therefore,
it becomes a hot point people focus on in research areas and big progress has been made in
research of it.
In the progress of automatic text classification, there are two most important factors