基于层次式凝聚聚类的文本聚类算法的实现.docx
约34页DOCX格式手机打开展开
基于层次式凝聚聚类的文本聚类算法的实现,the implementation of text clustering algorithm based on hierarchical clustering algorithm1.76万字 34页原创作品,已通过查重系统摘要 文本聚类是数据挖掘的一个重要分支,是划分文本与处理数...
内容介绍
此文档由会员 马甲线女神 发布
基于层次式凝聚聚类的文本聚类算法的实现
The Implementation of text Clustering Algorithm based on
Hierarchical Clustering Algorithm
1.76万字 34页 原创作品,已通过查重系统
摘要 文本聚类是数据挖掘的一个重要分支,是划分文本与处理数据的重要方法和手段,文本聚类已经在国内外各领域取得了广泛的应用。文本聚类算法主要分为基于层次的方法、基于网格的方法、基于模型的方法、基于密度的方法。凝聚的层次聚类是一种自底向上的策略,首先将每个对象作为一个簇,然后合并这些原子簇为越来越大的簇,直到所有的对象都在一个簇中,或者某个终结条件被满足。
论文主要研究了如何将文本集表示成为数学上可分析处理的形式,用中文分词组件对文本信息进行预处理(分词、切词、去除无用词),用向量空间模型建立文本信息特征,最后基于Java实现了基于层次式凝聚类文本聚类的系统。
关键词:文本聚类 层次式凝聚类 AGENES 文本预处理 权重计算
The Implementation of text Clustering Algorithm ba
Hierarchical Clustering Algorithm
1.76万字 34页 原创作品,已通过查重系统
摘要 文本聚类是数据挖掘的一个重要分支,是划分文本与处理数据的重要方法和手段,文本聚类已经在国内外各领域取得了广泛的应用。文本聚类算法主要分为基于层次的方法、基于网格的方法、基于模型的方法、基于密度的方法。凝聚的层次聚类是一种自底向上的策略,首先将每个对象作为一个簇,然后合并这些原子簇为越来越大的簇,直到所有的对象都在一个簇中,或者某个终结条件被满足。
论文主要研究了如何将文本集表示成为数学上可分析处理的形式,用中文分词组件对文本信息进行预处理(分词、切词、去除无用词),用向量空间模型建立文本信息特征,最后基于Java实现了基于层次式凝聚类文本聚类的系统。
关键词:文本聚类 层次式凝聚类 AGENES 文本预处理 权重计算