搜索引擎设计.doc

约28页DOC格式手机打开展开

搜索引擎设计,1.8万字28页摘要搜索引擎按其工作方式主要可分为三种,分别是全文搜索引擎(full text search engine)、目录索引类搜索引擎(search index/directory)和元搜索引擎(meta search engine)。全文搜索引擎是最广泛也是用得最多的一种,一般所说的搜索引擎都指的是全文搜索...
编号:45-5560大小:280.00K
分类: 论文>计算机论文

内容介绍

此文档由会员 王芸 发布

1.8万字 28页
摘要
搜索引擎按其工作方式主要可分为三种,分别是全文搜索引擎(Full Text Search Engine)、目录索引类搜索引擎(Search Index/Directory)和元搜索引擎(Meta Search Engine)。全文搜索引擎是最广泛也是用得最多的一种,一般所说的搜索引擎都指的是全文搜索引擎。
针对当前搜索引擎的系统结构,在对目前大部分搜索引擎技术研究的基础上,综合其设计思路,给出了一个新的信息检索系统的框架原型,它比现有搜索引擎更加优化,是一种新的搜索引擎结构,也就是对网页中的信息处理问题提取进行了研究。根据HTLM的规则,对其进行部分的提取,然后把其导入数据库,从而能够对信息正确、快速的提取。提取运用的是正则表达式,尽管最初的正则表达式出现于理论计算机科学的自动控制理论和形式语言理论中。在这些领域中有对计算(自动控制)的模型和对形式语言描述与分类的研究。现在它能广泛的使用在很多领域,所以本次研究就是要运用正则表达式来完成项目的开发。

目录
前言
第一章 绪论
第二章 搜索引擎的概况与分析
2.1搜索引擎分类
2.1.1全文搜索引擎
2.1.2目录索引
2.1.3元搜索引擎
2.2搜索引擎的结构
2.2.1 Robot爬行程序
2.2.2索引模块
2.2.3 搜索模块
2.3垂直搜索引擎技术
2.3.1垂直搜索引擎
2.3.2 垂直搜索的划分
2.3.3垂直搜索引擎的相关技术
2.4小结
第三章 正则表达式
第四章 系统的设计与开发
4.1 系统概述
4.2 有向ROBOT
4.2.1搜索Robot
4.2.2挖掘Robot
4.2.3收集Robot
4.3索引器
4.4 网页的分析提取
4.4.1网页内容的提取
4.4.2网页分析
4.5 数据表
4.6 交互界面
4.7 小结
结束语
参考文献
致谢