web搜索引擎的设计与实现.doc

约55页DOC格式手机打开展开

web搜索引擎的设计与实现,54页共计25135字摘要随着网络的迅猛发展。网络成为信息的极其重要的来源地,越来越多的人从网络上获取自己所需要的信息,这就使得像google[40],百度[39]这样的通用搜索引擎变成了人们寻找信息必不可少的工具。本文在深入研究了通用搜索引擎基本原理、架构设计和核心技术的基础上,结合小型搜索引擎的需求,参照了天网,l...
编号:68-71733大小:602.50K
分类: 论文>计算机论文

内容介绍

此文档由会员 bfxqt 发布

54页共计25135字


摘 要
随着网络的迅猛发展。网络成为信息的极其重要的来源地,越来越多的人从网络上获取自己所需要的信息,这就使得像Google[40],百度[39]这样的通用搜索引擎变成了人们寻找信息必不可少的工具。
本文在深入研究了通用搜索引擎基本原理、架构设计和核心技术的基础上,结合小型搜索引擎的需求,参照了天网,lucene等搜索引擎的原理,构建了一个运行稳定,性能良好而且可扩充的小型搜索引擎系统,本文不仅仅完成了对整个系统的设计,并且完成了所有的编码工作。
本文论述了搜索引擎的开发背景以及搜索引擎的历史和发展趋势,分析了小型搜索引擎的需求,对系统开发中的一些问题,都给出了解决方案, 并对方案进行详细设计,编码实现。论文的主要工作及创新如下:
1.在深刻理解网络爬虫的工作原理的基础上,使用数据库的来实现爬虫部分。
2.在深刻理解了中文切词原理的基础之上,对lucene的切词算法上做出了改进的基础上设计了自己的算法,对改进后的算法实现,并进行了准确率和效率的测试,证明在效率上确实提高。
3.在理解了排序索引部分的原理之后,设计了实现索引排序部分结构,完成了详细流程图和编码实现,对完成的代码进行测试。
4.在完成搜索部分设计后,觉得效率上还不能够达到系统的要求,于是为了提高系统的搜索效率,采用了缓存搜索页面和对搜索频率较高词语结果缓存的两级缓存原则来提高系统搜索效率。


目录
第一章 绪论 1
1.1搜索引擎出现的背景及意义 1
1.2搜索引擎的发展历史及趋势 1
1.3本文主要工作 3
1.4论文结构 4
第二章 系统结构 5
2.1概述 5
2.2系统结构 5
2.2.1爬虫 6
2.2.2信息处理 6
2.2.3排序和索引 6
2.2.4搜索 6
2.3搜索引擎主要指标及分析 6
2.4开发语言 7
2.5小结 8
第三章 爬虫 9
3.1概述 9
3.2爬虫结构分析 9
3.2.1爬虫初始化 10
3.2.2从网页中提取url 11
3.2.3 URL存储 12
3.2.4从数据库中提取url 12
3.3小结 13
第四章 信息处理 14
4.1概述 14
4.2转换 15
4.3切词 18
4.3.1中文切词 19
4.3.2中文切词测试 25
4.3.3英文切词 27
4.3.4数字切词 28
4.3.5符号处理 29
4.3.6词语存储 30
4.4小结 31
第五章 排序索引 33
5.1概述 33
5.2统计相关url 33
5.3排序 34
5.4索引 36
5.5小结 37
第六章 搜索 38
6.1概述 38
6.2实现搜索 38
6.3性能优化 41
6.4小结 42
第七章 总结与展望 43
7.1总结 43
7.3 展望 44
参考文献 47
致 谢 49

关键词:搜索引擎,网络爬虫,中文切词,排序索引


参考文献
[21] 严威,赵政.开发中文搜索引擎汉语处理的关键技术.计算机工程[J],1999,vol.25:5~8
[22] 钟涛,陈新明,万钧,张世永.中文文本WEB搜索引擎的设计与实现.计算机工程与应用[J],2001,vol.17:149~151
[23] 赵立刚.搜索引擎的研究与实现:[硕士学位论文][D].吉林大学.2005,46~48
[24] 向晖,郭一平,王亮. 基于Lucene的中文字典分词模块的设计与实现.现代图书情报技术.2006(8):45~50
[25] 张文忠,赵明生,朱精南. 基于内容的网页特征提取.计算机工程与应用2001.10 1~3
[26] 陈庆伟,刘军.基于Lucene的网站全文搜索的设计与实现.科技情报开发与经济,2005,15(15):242-244
[27] 刘刚,于力超.搜索引擎中网络蜘蛛的设计与实现 电脑与信息技术2007 Vol.15 No.4
[28] 胡涛,路红英. 基于Nutch的搜索引擎的研究. 计算机时代2007年 第1期
[29] 王继成.基于元数据的Web信息检索技术研究[D],南京大学计算机学
院,2000.
[30] Kunihiko Sadakane.Compressed Text Databases with Effcient Query Algorithms based on the
Compressed Suffix Array.ISAAC[J],2000,vol.5:410~421
[31] U.Manber,G.Myers.Suffix arrays:A New Method for On-Line String Searches.SIAM Journal on
Computing[J],1993,vol.22(5):935~948
[32] Michael J.Cafarella,Oren Etzioni.A Search Engine for Natural Language Applications.WWW[J],
2005,vol.2:3~7
[33] Lei Zhang,Bhavani Sridharan,Kinshuk.On-line Knowledge Management Search Engine.The 3rd
IEEE International Conference on Advanced Learning Technologies Conference Proceedings,IEEE
Computer Society[J],2004,vol.2:304~305
[34] Yihong Zhao,Prasad M.Deshpande,Jeffrey F.Naughton.An Array-Based Algorithm for
Simultaneous Multidimensional Aggregates.Proc.1997 ACM-SIGMOD Int.Conf.Management of
Data[J],1997,vol.24:159~170