于主题的web文档聚类研究.doc

约6页DOC格式手机打开展开

于主题的web文档聚类研究,于主题的web文档聚类研究页数 6 字数 5599 摘要:网络资源的不断膨胀和新旧信息的迅速更迭,使传统的手工分检的方法难以适应对海量电子数据的管理需要。web文档聚类可以快速地将文档进行自动归类,并能够发现新的信息资源。针对web文档数据的复杂性,本文提出了通过二次特征提取和聚类的方法,将web文档按照主题进行自动聚...
编号:10-28519大小:1.22M
分类: 论文>计算机论文

内容介绍

此文档由会员 李亮亮 发布

于主题的Web文档聚类研究

页数 6 字数 5599

摘要:网络资源的不断膨胀和新旧信息的迅速更迭,使传统的手工分检的方法难以适应对海量电子数据的管理需要。Web文档聚类可以快速地将文档进行自动归类,并能够发现新的信息资源。针对Web文档数据的复杂性,本文提出了通过二次特征提取和聚类的方法,将Web文档按照主题进行自动聚类。在主题特征被有效提取的同时,实现了较高质量的Web文档聚类。

关键词:Web文档聚类,OPTICS算法,特征提取,K近邻准则,二次特征提取和聚类的方法

参考文献:
[1]M.Ester, H.-P.Kriegel, J.Sander, and X.Xu. “A density-based algorithm for discovering clusters in large spatial databases.” In Proc. 1996 Int. Conf.Knowledge Discovery and Data Mining(KDD’96),1996.
[2]M.Ankerst, M.Breunig, H.-P. Kriegel, and J.Sander. “OPTICS:Ordering points to identify the clustering structure.” In Proc.1999 ACM-SIGMOD Int. Conf. Management of the Data(SIGMOD’99),1999
[3]边肇祺,张学工等。《模式识别》,北京,清华大学出版社,2000
[4]Jiawei Han, Micheline Kamber著, 范明, 孟晓峰等译, 《数据挖掘——概念与技术》, 机械工业出版社, 2001
[5]Yang, Y., Pedersen, J.O. “A Comparative Study on Feature Selection in Text Categorization.” Proc. of the 14th International Conference on Machine Learning ICML97