基于dbscan的文本聚类算法的实现.docx

  
约41页DOCX格式手机打开展开

基于dbscan的文本聚类算法的实现,基于dbscan的文本聚类算法的实现1.7万字 41页原创作品,已通过查重系统摘要随着信息技术的发展,特别是普及internet应用,电子文本信息是快速增加的。如何组织有效,快速地管理这些海量的信息,准确地获取用户所需的信息是信息科学和技术领域的一大挑战。文本聚类是一个重要的智能信息处理技术,在信息过滤,信息检索,文本...
编号:99-1151386大小:576.51K
分类: 论文>计算机论文

内容介绍

此文档由会员 马甲线女神 发布

基于DBSCAN的文本聚类算法的实现

1.7万字 41页 原创作品,已通过查重系统


摘要随着信息技术的发展,特别是普及INTERNET应用,电子文本信息是快速增加的。如何组织有效,快速地管理这些海量的信息,准确地获取用户所需的信息是信息科学和技术领域的一大挑战。文本聚类是一个重要的智能信息处理技术,在信息过滤,信息检索,文本数据库和数字图书馆等方面具有极大的价值,可以应用于自然语言处理,文本挖掘,机器学习,模式识别等领域。
DBSCAN 是一个比较有代表性的基于密度的聚类算法。它将簇定义为密度相连的点的最大集合能够把具有足够高密度的区域划分成为簇并可在有“噪声”的空间数据库中发现任意形状的聚类。论文实现了基于DBSCAN的中文文本聚类系统。主要步骤如下:
(1)中文的文本预处理,使用分词器对文本进行分词;
(2)特征选择,文档频率(DF)特征选择算法;
(3)权重计算,实现TF * IDF权重算法;
(4)实现DBSCAN基于文本的聚类算法。
系统首先将准备好的新闻文本输入数据库中对其进行文本预处理。包括分词,特征选取,建立文章的特征向量等预处理环节。然后根据特征向量进行聚类得出聚类中心。在此基础上建立文章的向量模型依次计算其与聚类中心的相似度把文本内容相似度高的划分为一类。得出聚类结果后最后对聚类结果进行了分析。


关键词:中文文本聚类 分词 特征选择 权重计算