网页净化方法的研究与实现_独家原创.doc

  
约37页DOC格式手机打开展开

网页净化方法的研究与实现_独家原创,网页净化方法的研究与实现1.3万字自己原创的毕业论文,已经通过校内系统检测,重复率低,仅在本站独家出售,大家放心下载使用摘要 随着internet的快速发展,万维网已经发展成为一个庞大的信息空间,为人们提供了极其丰富的信息资源,也使网页数据成为目前各种应用和研究的重要数据源之一。网页数据通常包含了各种内容, 如广告、导...
编号:80-480906大小:2.40M
分类: 论文>计算机论文

内容介绍

此文档由会员 小丑88 发布

网页净化方法的研究与实现

1.3万字
自己原创的毕业论文,已经通过校内系统检测,重复率低,仅在本站独家出售,大家放心下载使用

摘要 随着Internet的快速发展,万维网已经发展成为一个庞大的信息空间,为人们提供了极其丰富的信息资源,也使网页数据成为目前各种应用和研究的重要数据源之一。网页数据通常包含了各种内容, 如广告、导航条、相关链接、正文等, 然而对于不同的研究和应用来说, 并非所有内容都是必需的, 相反, 不相关的内容反而会影响研究以及应用的效果和效率, 因此网页去噪是一个基础问题, 是提高Web应用的程序性能的关键技术之一,也是目前热点研究的问题。
本文首先对网页去噪的必要性进行了简要说明, 并对网页去噪进行了定义和分类, 然后简单概介绍了几种网页去噪的方法及其特点,接着深入分析了一种基于模板的网页净化方法。该方法提出了一种数据结构——风格树(Style Tree,SST),来表示一个网站给定的网页文档集合的结构和内容。通过遍历网站风格树(Site Style Tree ,SST)来计算出SST树中每个元素节点它自身和它所有的子节点的重要性,然后和指定的阈值进行比较,确定哪些是噪音,再把它们删除。
实验表明,本文重点提出的算法能够对模板型的网页进行有效的净化。
关键词 网页去噪    信息提取   模板 万维网


Study and implementation of the algorithm Webpage purification
Abstract Along with the rapid development of Internet,WWW (world wide web) has become a huge information web-space providing valuable information resources. What is more, the rapid development of the Internet has made a variety of Web applications and Web data, which become the major source of data for a lot of research. A Web page usually consists of subject matter, in addition, there including advertising, navigation bar, related links, copyright information, welcome message and other topics unrelated with the contents as well. However, for different kinds of studies and applications, not all content is very necessary; on the contrary, the unrelated content will affect the effectiveness and efficiency of the research and applications. Therefore Web page cleaning is a key technique to improve the service qualities of Web application systems, and it is a highlighted topic of information retrieva l with booming search engines.
At the beginning, this paper gives a brief introduction to the necessity of Web page cleaning and its related concepts. Then a simple overview introduces several methods of Webpage denoising and its characteristics, after in-depth analysis of a purification method based on template Webpage. The method proposes a data structure -- style tree (Style Tree, SST), to represent the structure and content of a web site given Webpage document collection. By traversing the site style tree (Site Style Tree, SST) to calculate the importance of each element of the SST node in the tree itself and all its child nodes, then compare and a specified threshold, determining what is noise.
From the experimental results ,we can find this paper puts forward the algorithm of template type Webpage effectively purify.
Key words Web page cleaning information extraction template world wide web


目 录
第一章 引 言 1
1.1 研究背景 1
1.2 研究现状 1
1.3 研究内容 1
1.4 论文结构 2
第二章 相关知识 3
2.1 网页正文的定义及分类 3
2.2 网页表示 4
2.3 HTML 4
2.3.1 HTML基本语法 4
2.3.2 HTML的特点 5
2.4 网页去噪的定义和分类 6
2.5 信息抽取 6
2.5.1 信息抽取概述 7
2.5.2 Web信息抽取 8
2.6 网页地址树 8
2.7 网页净化方法效果评估 8
第三章 网页净化算法 10
3.1 基于启发式规则的网页净化算法 10
3.1.1 基于内容规则的网页净化算法 10
3.1.2 基于视觉的网页净化算法 10
3.2 基于机器学习的网页净化算法 11
3.2.1 一个框架 11
3.2.2 L-Extractor算法 12

第四章 网页自动分类 13
4.1 页面分类 13
4.2 网页相似度计算 13
4.2.1 最长公共子序列 14
4.2.2 比较网页结构相似度 15
第五章 基于模板的网页净化算法 17
5.1 文档树 17
5.2 风格树 19
5.2.1 风格节点 21
5.2.2 元素节点 21
5.2.3 风格树创建过程 22
5.3 确定噪音元素 22
5.3.1 节点重要性 24
5.3.2 综合重要性 25
5.4 整体算法 27
5.5算法测试 27
5.5.1 测试环境 27
5.5.2 测试过程 28
5.5.3 测试结果 28
5.6 在搜索引擎中的应用 29
结 论 31
致 谢 32
参考文献 33