中文文本分类系统的设计和实现.doc

约35页DOC格式手机打开展开

中文文本分类系统的设计和实现,本文共35页10819字摘要:文档自动分类系统是信息处理领域中的一项重要研究课题。本课题论述了一个中文文档自动分类系统的设计思想、实现过程、开发环境、运行环境和开发工具,并着重介绍了系统实现中一些主要技术问题的处理,如文分类模型、特征提取、词典构造等。关键词文本分类分类模型vsm特征提取ab...
编号:10-22243大小:3.88M
分类: 论文>计算机论文

内容介绍

此文档由会员 张阳阳 发布

中文文本分类系统的设计和实现

本文共35页 10819字

摘要:文档自动分类系统是信息处理领域中的一项重要研究课题。本课题论述了一个中文文档自动分类系统的设计思想、实现过程、开发环境、运行环境和开发工具,并着重介绍了系统实现中一些主要技术问题的处理,如文分类模型、特征提取、词典构造等。
关键词 文本分类 分类模型 VSM 特征提取

Abstract:The text classifier is an important research thesis in information field.This thesis has made a brief introduction on the analysis ideas,the realization procedure,the development conditions,the application methods and so on.And it offers a solution of some technological problems,such as,text categorization model,feature extraction and dictionary formlization.
Key words:Text categorization;Categorization model;Vector space model;Feature extraction
目 录
1、绪论 1
1.1 课题背景 1
1.2 系统概述 2
2、相关技术介绍 5
2.1 DELPHI的概述 5
2.2 Delphi开发数据库应用程序 6
2.3 Delphi应用程序框架和设计 6
2.3.1 项目文件 7
2.3.2 单元文件 7
2.3.3 Form文件 7
2.3.4 资源文件 7
2.3.5项目选项和桌面设置文件 7
2.3.6包文件 8
2.4 Delphi多媒体应用程序 8
3、系统的设计 8
3.1 系统需求分析 8
3.2 设计的基本思想 9
3.3 系统的结构设计 9
3.3.1 系统结构图 9
3.3.2 模块功能描述 10
3.4 关键技术 11
3.4.1 文档表示与特征匹配 11
3.4.2 特征提取 12
3.4.3 阀值确定 13
3.4.4 词条切分 14
3.4.5词典结构与词频统计 14
4、系统的实现 17
4.1 功能模块的实现和程序框图 17
4.1.1 创建一个工程 17
4.1.2 语料库维护模块 18
4.1.3 词典维护模块 18
4.1.4 特征提取 18
4.1.5 文档分类模块 19
4.2 系统开发环境 21
4.3 运行环境 22
5、总结 23
参 考 文 献 24
附录 25

参 考 文 献

[1] 杨宇.《Delphi6.0教程使用手册》.北京科海集团公司.2001/12
[2] 网冠科技.《Delphi6.0时尚编程百例》.机械工业出版社.2001/10
[3] 肖帆.《实用编程教程》.北京希望电子出版社.2001/10
[4] 严蔚敏.《数据结构》.清华大学出版社.1999/7
[5] 上网查找相关内容:基于相邻字对信息的中文文档分类研究、基于Bayes算法的Web网页识别、基于向量空间模型的中文文本自动文本分类。