基于k-means的文本聚类算法的实现.doc
约33页DOC格式手机打开展开
基于k-means的文本聚类算法的实现,基于k-means的文本聚类算法的实现realization of text clustering algorithm based on k-means1.78万字33页原创作品,已通过查重系统摘要 文本蕴含了大量有价值的信息,开发价值很高,它作为信息的载体,有必要采取一种手段来挖掘数据,这样能方便、快捷地从文本中提取...
内容介绍
此文档由会员 马甲线女神 发布
基于K-Means的文本聚类算法的实现
Realization of Text Clustering Algorithm based on K-Means
1.78万字 33页 原创作品,已通过查重系统
摘要 文本蕴含了大量有价值的信息,开发价值很高,它作为信息的载体,有必要采取一种手段来挖掘数据,这样能方便、快捷地从文本中提取用户想要的东西,文本聚类作为处理和组织大量文本数据的关键技术,能够在很大程度上解决信息爆炸和信息杂乱所带来的问题,文本聚类依据著名的聚类假设,同类文档的相似度较大,而不同类文档的相似度较小。文本聚类的目标是将文本集合分成多个簇,使得在同一个簇中的文本内容具有较高的相似度,而不同簇中的文本内容差别较大。
论文的语料库来源于搜狗语料库,用搜狗语料库文本来验证文本聚类效果。论文采用MManlyzer中文分词器分词,分词以后对词语进行标记,参照停用词表将停用词去除,计算词语的tf 、idf、tf*idf值,将文本转化为数据形式,建立向量数据模型。论文用向量余弦值来计算文本之间的相似度,用K-Means算法实现文本聚类,不断对数据进行迭代,达到收敛要求时,终止迭代过程,从而达到文本聚类的效果,最后输出聚类结果。系统实现由系统分析、目标设计、预处理模块、构造向量模块、K-Means文本聚类模块组成。具体过程包括文本预处理、计算tf*idf权重值、文本向量表示和K-Means聚类算法等几个方面。
关键词: 文本聚类 聚类算法 K-Means算法
Realization of Text Clustering Algorithm ba
1.78万字 33页 原创作品,已通过查重系统
摘要 文本蕴含了大量有价值的信息,开发价值很高,它作为信息的载体,有必要采取一种手段来挖掘数据,这样能方便、快捷地从文本中提取用户想要的东西,文本聚类作为处理和组织大量文本数据的关键技术,能够在很大程度上解决信息爆炸和信息杂乱所带来的问题,文本聚类依据著名的聚类假设,同类文档的相似度较大,而不同类文档的相似度较小。文本聚类的目标是将文本集合分成多个簇,使得在同一个簇中的文本内容具有较高的相似度,而不同簇中的文本内容差别较大。
论文的语料库来源于搜狗语料库,用搜狗语料库文本来验证文本聚类效果。论文采用MManlyzer中文分词器分词,分词以后对词语进行标记,参照停用词表将停用词去除,计算词语的tf 、idf、tf*idf值,将文本转化为数据形式,建立向量数据模型。论文用向量余弦值来计算文本之间的相似度,用K-Means算法实现文本聚类,不断对数据进行迭代,达到收敛要求时,终止迭代过程,从而达到文本聚类的效果,最后输出聚类结果。系统实现由系统分析、目标设计、预处理模块、构造向量模块、K-Means文本聚类模块组成。具体过程包括文本预处理、计算tf*idf权重值、文本向量表示和K-Means聚类算法等几个方面。
关键词: 文本聚类 聚类算法 K-Means算法