基于层次式凝聚聚类的文本聚类算法的实现.docx

  
约34页DOCX格式手机打开展开

基于层次式凝聚聚类的文本聚类算法的实现,the implementation of text clustering algorithm based on hierarchical clustering algorithm1.76万字 34页原创作品,已通过查重系统摘要 文本聚类是数据挖掘的一个重要分支,是划分文本与处理数...
编号:99-592191大小:757.33K
分类: 论文>计算机论文

内容介绍

此文档由会员 马甲线女神 发布

基于层次式凝聚聚类的文本聚类算法的实现
The Implementation of text Clustering Algorithm based on
Hierarchical Clustering Algorithm

1.76万字 34页 原创作品,已通过查重系统


摘要 文本聚类是数据挖掘的一个重要分支,是划分文本与处理数据的重要方法和手段,文本聚类已经在国内外各领域取得了广泛的应用。文本聚类算法主要分为基于层次的方法、基于网格的方法、基于模型的方法、基于密度的方法。凝聚的层次聚类是一种自底向上的策略,首先将每个对象作为一个簇,然后合并这些原子簇为越来越大的簇,直到所有的对象都在一个簇中,或者某个终结条件被满足。
论文主要研究了如何将文本集表示成为数学上可分析处理的形式,用中文分词组件对文本信息进行预处理(分词、切词、去除无用词),用向量空间模型建立文本信息特征,最后基于Java实现了基于层次式凝聚类文本聚类的系统。


关键词:文本聚类 层次式凝聚类 AGENES 文本预处理 权重计算