网页信息提取与净化的研究.rar
网页信息提取与净化的研究,(63页)内容提要信息提取是搜索引擎最关键的一个步骤,怎么样从互联网这个信息大平台最精确的获得有用信息已成为当前搜索引擎研究的热点。本文介绍了几种最新的信息提取方法,在此基础上提出了基于dom树的正文提取方法。把底层html文档解析成为dom树的形式,根据用户设置参数来设置过滤器,该过滤器对每一个节点进行判断,如果节点...
该文档为压缩文件,包含的文件列表如下:
内容介绍
原文档由会员 白痴学东西 发布
(63页)内容提要
信息提取是搜索引擎最关键的一个步骤,怎么样从互联网这个信息
大平台最精确的获得有用信息已成为当前搜索引擎研究的热点。
本文介绍了几种最新的信息提取方法,在此基础上提出了基于
DOM树的正文提取方法。把底层HTML文档解析成为DOM树的形式,
根据用户设置参数来设置过滤器,该过滤器对每一个节点进行判断,如
果节点与用户设置参数匹配则对该节点进行记录、修改属性以及删除的
操作。另外本文进一步提出了基于DOM树的网络噪声净化方法,针对
同一模板产生的网页集自动检验出噪声存在的位置。该方法以DOM树
节点为操作对象,计算出每个节点的信息量,通过信息量的大小来判断
节点是否属于噪声。
基于DOM树的正文提取方法简便可行。相对于本文所介绍的几种
方法,DOM树的正文提取的侧重点是不同的,其他的提取方法都是通
过讨论如何判断正文节点或者正文块实现内容过滤,本文则把提取的重
点放在剔除对用户来说无用的节点上面,这是一个方向上的变化。
关键词:Web信息,DOM树,正文提取,网络净化
目录
第一章前言........................................................................
1.1研究意义.............................................................................
1.2搜索引擎介绍.....................................................................
1.3正文提取的重要性.............................................................
1.4小结..............................................................................
第二章正文提取........................................................................
2.1正文提取的几种方法介绍.................................................
2.2基于DOM树的正文提取.....................................................
2.3正文提取器功能介绍.........................................................
2.4正文提取器实现.................................................................
2.5结果分析.............................................................................
2.6小结...............................................................................
第三章网页净化噪声................................................................
3.1网页噪声净化的几种常用方法.........................................
3.2基于DOM树的网页噪声净化.............................................
3.3数据分析.............................................................................
3.3小结...............................................................................
第四章网页分类........................................................................
4.1文本分类介绍.....................................................................
4.2网页分类的几个研究方向.................................................
4.3网页分类的改进方法.........................................................
4.4小结...............................................................................
第五章总结与展望....................................................................
5.1全文总结.............................................................................5.2进一步的工作.....................................................................
参考文献......................................................................................
摘要......................................................................................
ABSTRACT.................................................................................
致谢......................................................................................
信息提取是搜索引擎最关键的一个步骤,怎么样从互联网这个信息
大平台最精确的获得有用信息已成为当前搜索引擎研究的热点。
本文介绍了几种最新的信息提取方法,在此基础上提出了基于
DOM树的正文提取方法。把底层HTML文档解析成为DOM树的形式,
根据用户设置参数来设置过滤器,该过滤器对每一个节点进行判断,如
果节点与用户设置参数匹配则对该节点进行记录、修改属性以及删除的
操作。另外本文进一步提出了基于DOM树的网络噪声净化方法,针对
同一模板产生的网页集自动检验出噪声存在的位置。该方法以DOM树
节点为操作对象,计算出每个节点的信息量,通过信息量的大小来判断
节点是否属于噪声。
基于DOM树的正文提取方法简便可行。相对于本文所介绍的几种
方法,DOM树的正文提取的侧重点是不同的,其他的提取方法都是通
过讨论如何判断正文节点或者正文块实现内容过滤,本文则把提取的重
点放在剔除对用户来说无用的节点上面,这是一个方向上的变化。
关键词:Web信息,DOM树,正文提取,网络净化
目录
第一章前言........................................................................
1.1研究意义.............................................................................
1.2搜索引擎介绍.....................................................................
1.3正文提取的重要性.............................................................
1.4小结..............................................................................
第二章正文提取........................................................................
2.1正文提取的几种方法介绍.................................................
2.2基于DOM树的正文提取.....................................................
2.3正文提取器功能介绍.........................................................
2.4正文提取器实现.................................................................
2.5结果分析.............................................................................
2.6小结...............................................................................
第三章网页净化噪声................................................................
3.1网页噪声净化的几种常用方法.........................................
3.2基于DOM树的网页噪声净化.............................................
3.3数据分析.............................................................................
3.3小结...............................................................................
第四章网页分类........................................................................
4.1文本分类介绍.....................................................................
4.2网页分类的几个研究方向.................................................
4.3网页分类的改进方法.........................................................
4.4小结...............................................................................
第五章总结与展望....................................................................
5.1全文总结.............................................................................5.2进一步的工作.....................................................................
参考文献......................................................................................
摘要......................................................................................
ABSTRACT.................................................................................
致谢......................................................................................