基于主题的web文档聚类研究.doc
约6页DOC格式手机打开展开
基于主题的web文档聚类研究,基于主题的web文档聚类研究 全文5页5599字叙述详尽摘要:网络资源的不断膨胀和新旧信息的迅速更迭,使传统的手工分检的方法难以适应对海量电子数据的管理需要。web文档聚类可以快速地将文档进行自动归类,并能够发现新的信息资源。针对web文档数据的复杂性,本文提出了通过二次特征提取和聚类的方法,将web文档按照主题进行自...
内容介绍
此文档由会员 周伯通 发布
基于主题的Web文档聚类研究
全文5页5599字 叙述详尽
摘要:网络资源的不断膨胀和新旧信息的迅速更迭,使传统的手工分检的方法难以适应对海量电子数据的管理需要。Web文档聚类可以快速地将文档进行自动归类,并能够发现新的信息资源。针对Web文档数据的复杂性,本文提出了通过二次特征提取和聚类的方法,将Web文档按照主题进行自动聚类。在主题特征被有效提取的同时,实现了较高质量的Web文档聚类。
关键词:Web文档聚类;OPTICS算法;特征提取;K近邻准则;二次特征提取和聚类的方法
1.概述
当前,电子文档的增长速度远远超出了人所能接受的能力,不仅网页的数量惊人,而且内容繁杂,信息超载的问题日益突出,信息检索的难度越来越大。多数网站在进行信息资源分类管理时,仍然采用人工分检的方式,劳动强度和效率自然都不理想。目前,一些网站利用计算机分类的方法将网页进行自动归类,但是需要大量的人工标注的语料来训练计算机,这种方法用于静态的、固定的数据模型分类能够取得较好效果,而面对网络上更迭频繁、种类不断翻新并且实时性较强的网络信息适应性较差。自适应学习的方法利用有代表性的少数文档训练初始模型,然后在对新网页分类的同时主动学习,不断增强适应力。这种方法能够满足实时性的要求,但是由于初始样本数据稀疏,在学习时面临着模型恶化的风险,导致分类性能降低。
聚类能够在没有训练样本的条件下,自动产生分类模型。不仅可以节省人力,而且还会发现新的信息资源,便于对其进一步分析和利用。我们采用了二次特征提取和聚类的方法,并结合使用密度算法和K近邻准则将Web文档按照主题进行聚类。一些实验表明,该方法取得了较好的实际应用效果。
参考文献:
[1]M.Ester, H.-P.Kriegel, J.Sander, and X.Xu. “A density-based algorithm for discovering clusters in large spatial databases.” In Proc. 1996 Int. Conf.Knowledge Discovery and Data Mining(KDD’96),1996.
[2]M.Ankerst, M.Breunig, H.-P. Kriegel, and J.Sander. “OPTICS:Ordering points to identify the clustering structure.” In Proc.1999 ACM-SIGMOD Int. Conf. Management of the Data(SIGMOD’99),1999
[3]边肇祺,张学工等。《模式识别》,北京,清华大学出版社,2000
[4]Jiawei Han, Micheline Kamber著, 范明, 孟晓峰等译, 《数据挖掘——概念与技术》, 机械工业出版社, 2001
[5]Yang, Y., Pedersen, J.O. “A Comparative Study on Feature Selection in Text Categorization.” Proc. of the 14th International Conference on Machine Learning ICML97
[6]Eui-Hong Han, George Karypis and Vipin Kumar. “Text Categorization Using Weight Adjusted k-Nearest Neighbor Classification”. Pacific-Asia Conference on Knowledge Discovery and Data Minings, 2001
[7]韩客松, 王永成, 陈桂林, 《无词典高频字串快速提取和统计算法研究》, 中文信息学报, 2001,15(2)
全文5页5599字 叙述详尽
摘要:网络资源的不断膨胀和新旧信息的迅速更迭,使传统的手工分检的方法难以适应对海量电子数据的管理需要。Web文档聚类可以快速地将文档进行自动归类,并能够发现新的信息资源。针对Web文档数据的复杂性,本文提出了通过二次特征提取和聚类的方法,将Web文档按照主题进行自动聚类。在主题特征被有效提取的同时,实现了较高质量的Web文档聚类。
关键词:Web文档聚类;OPTICS算法;特征提取;K近邻准则;二次特征提取和聚类的方法
1.概述
当前,电子文档的增长速度远远超出了人所能接受的能力,不仅网页的数量惊人,而且内容繁杂,信息超载的问题日益突出,信息检索的难度越来越大。多数网站在进行信息资源分类管理时,仍然采用人工分检的方式,劳动强度和效率自然都不理想。目前,一些网站利用计算机分类的方法将网页进行自动归类,但是需要大量的人工标注的语料来训练计算机,这种方法用于静态的、固定的数据模型分类能够取得较好效果,而面对网络上更迭频繁、种类不断翻新并且实时性较强的网络信息适应性较差。自适应学习的方法利用有代表性的少数文档训练初始模型,然后在对新网页分类的同时主动学习,不断增强适应力。这种方法能够满足实时性的要求,但是由于初始样本数据稀疏,在学习时面临着模型恶化的风险,导致分类性能降低。
聚类能够在没有训练样本的条件下,自动产生分类模型。不仅可以节省人力,而且还会发现新的信息资源,便于对其进一步分析和利用。我们采用了二次特征提取和聚类的方法,并结合使用密度算法和K近邻准则将Web文档按照主题进行聚类。一些实验表明,该方法取得了较好的实际应用效果。
参考文献:
[1]M.Ester, H.-P.Kriegel, J.Sander, and X.Xu. “A density-based algorithm for discovering clusters in large spatial databases.” In Proc. 1996 Int. Conf.Knowledge Discovery and Data Mining(KDD’96),1996.
[2]M.Ankerst, M.Breunig, H.-P. Kriegel, and J.Sander. “OPTICS:Ordering points to identify the clustering structure.” In Proc.1999 ACM-SIGMOD Int. Conf. Management of the Data(SIGMOD’99),1999
[3]边肇祺,张学工等。《模式识别》,北京,清华大学出版社,2000
[4]Jiawei Han, Micheline Kamber著, 范明, 孟晓峰等译, 《数据挖掘——概念与技术》, 机械工业出版社, 2001
[5]Yang, Y., Pedersen, J.O. “A Comparative Study on Feature Selection in Text Categorization.” Proc. of the 14th International Conference on Machine Learning ICML97
[6]Eui-Hong Han, George Karypis and Vipin Kumar. “Text Categorization Using Weight Adjusted k-Nearest Neighbor Classification”. Pacific-Asia Conference on Knowledge Discovery and Data Minings, 2001
[7]韩客松, 王永成, 陈桂林, 《无词典高频字串快速提取和统计算法研究》, 中文信息学报, 2001,15(2)