xml文档检索结果的聚类算法.doc

约27页DOC格式手机打开展开

xml文档检索结果的聚类算法,27页共计14304字摘要现有的搜索引擎得到的检索结果,虽经过相关度排序,仍包含较多与用户查询请求不相关的文档。为提高检索效率,需对检索结果进行聚类。可扩展标记语言xml是信息表达和数据交换的格式和标准,具有自描述性和可扩展性等特点,近年来广泛应用于数据交换、web服务、内容管理、web集成等领域。本文对web检索结果...
编号:45-70819大小:394.50K
分类: 论文>计算机论文

内容介绍

此文档由会员 bfxqt 发布

27页共计14304字
摘 要
现有的搜索引擎得到的检索结果,虽经过相关度排序,仍包含较多与用户查询请求不相关的文档。为提高检索效率,需对检索结果进行聚类。可扩展标记语言XML是信息表达和数据交换的格式和标准,具有自描述性和可扩展性等特点,近年来广泛应用于数据交换、Web服务、内容管理、Web集成等领域。
本文对Web检索结果聚类和XML文档聚类的国内外研究现状进行了深入分析,并综合考虑了XML技术和文档聚类等,对结果文档(片段)采取了新的建模方法:用标签路径和元素特征来表示XML文档的结构语义、用文本中的关键词来表示文档的内容信息,用标签路径、元素特征和文本内容三个向量来表示XML文档(片段)。同时用传统的Cosine度量来计算相似度并以最小最大化原则初始化簇,对经典k-means算法加以改进。实验表明,聚类质量较好,也有一定的稳定性。
目 录

1 引言 1
1.1 选题的意义 1
1.2 国内外研究现状 1
1.2.1 Web检索结果聚类 1
1.2.2 XML文档聚类 2
1.3 本实验的目标与论文结构安排 3
2 相关技术分析 3
2.1 XML技术 3
2.1.1 XML的发展历史简介 4
2.1.2 XML的特点 5
2.1.3 XML文档的数据结构 6
2.2 文档聚类 7
2.2.1 聚类的概念 7
2.2.2 文档聚类的概念、作用和应用 8
2.2.3 文档聚类的体系结构 8
2.2.4 文档相似性矩阵 9
2.2.5 聚类算法 9
2.3 聚类效果的评价标准 12
2.3.1 熵 12
2.3.2 F标准 13
3 设计思想 13
3.1 XML检索结果聚类 14
3.2 XML检索结果文档建模 14
3.3 XML文档关键词相关度的计算方法 15
3.4 相似性度量 15
3.5 聚类算法的伪代码描述 16
4 开发实验 17
4.1 实验用的数据集、实验环境 17
4.2 对结果的评价 18
5 总结与展望 20

【关键词】XML;文档检索;建模;k-means聚类算法
参考文献
[1] 王志梅,张俊林,李秋山. Web检索结果快速聚类方法的研究与实现. 计算机工程与设计, 2004, 25(12): 2231-2233, 2290
[2] 张健沛, 刘洋, 杨静, 代坤. 搜索引擎结果聚类算法研究. 计算机工程, 2004, 30(5): 95-97
[3] 杨海涛. 一个基于搜索结果的个性化推荐系统: [硕士学位论文]. 郑州: 郑州大学信息工程学院计算机应用技术专业, 2006
[4] 闫利国, 贺飞. XML文档结构相似测度研究. 计算机应用研究, 2006, (3): 44-46
[5] 郝晓丽, 冯志勇. XML结构聚类. 计算机应用, 2005, 25(6): 1398-1400
[6] 梁作鹏, 吴文明, 董逸生. 一种基于结构信息总结树的XML文档聚类方法. 应用科学学报, 2005, 23(1): 71-74
[7] 陆翠明, 李芳. XML文档相似性的仿真研究. 计算机仿真, 2005, 22(12): 300-302, 310
[8] 张丙奇, 白硕, 赵章界. XML数据相似度研究. 计算机工程, 2005, 31(11): 25-27, 126
[博士论文]. 北京: 中国科学院计算技术研究所, 2004
[9] 梁作鹏, 业宁, 董逸生. PBC:一种基于路径的XML文档聚类方法. 应用科学学报, 2005, 23(4): 399-403
[10] 丁跃潮, 张涛. XML实用教程. 北京: 北京大学出版社,2006
[11] Raymond T.Ng, Jiawei Han. Efficient and effective clustering methods for spatial data mining.Proc. of VLDB Conf, 1994,144-155
[12] Andreas Hotho, Steffen Staab, Gerd Stumme. Ontologies Improve Text Document Clustering. icdm, Third IEEE International Conference on Data Mining (ICDM'03). Melbourne, Florida, 2003. p541