一个小型搜索引擎的设计与实现.doc

约42页DOC格式手机打开展开

一个小型搜索引擎的设计与实现,页数:42字数:22941 目录摘要4关键词4引言6第1章 搜索引擎的概述71.1 搜索引擎的定义及对世界的影响71.2 搜索引擎的分类71.2.1 通用型搜索引擎71.2.2 元搜索引擎81.2.3 主题性搜索引擎81.3 目前搜索引擎的研究现状及未来发展方向91.4 本论文研究的背景、目...
编号:99-62786大小:363.00K
分类: 论文>其他论文

内容介绍

此文档由会员 cnlula 发布

一个小型搜索引擎的设计与实现


页数:42 字数:22941


目录

摘要 4
关键词 4
引言 6
第1章 搜索引擎的概述 7
1.1 搜索引擎的定义及对世界的影响 7
1.2 搜索引擎的分类 7
1.2.1 通用型搜索引擎 7
1.2.2 元搜索引擎 8
1.2.3 主题性搜索引擎 8
1.3 目前搜索引擎的研究现状及未来发展方向 9
1.4 本论文研究的背景、目的及意义 10
第2章 系统需求分析 11
2.1 搜索引擎需求分析 11
2.2 搜索引擎工作流程 12
2.3 系统逻辑模型图 12
2.4 系统数据流 13
第3章 系统概要设计 15
3.1 网络蜘蛛系统 15
3. 2 分析系统 17
3. 3 存储系统 18
3.3.1 存储系统数据库 18
3.3.2 索引的建立 18
3.3.3 建立索引的方法 19
第4章 系统中相关算法设计 20
4.1 网络蜘蛛算法 20
4.1.1 网络蜘蛛的基本原理 20
4.1.2 网页更新问题 21
4.1.3 重复网页检测 21
4.2 分析系统算法 22
4.2.1 分词算法分析 22
4.2.2 基于PageRank算法的分析流程的设计 24
4.3 存储系统算法 25
4.3.1 建立索引的数据结构 25
4.3.2 原始数据库 25
4.3.3 文本索引 26
4.3.4 采样表 26
4.3.5 前向索引 26
4.3.6 后向索引 27
第5章 系统实现及部分代码 28
5.1 系统的运行环境 28
5.2 网络蜘蛛的实现 28
5.2.1 HTML解析 28
5.2.2 处理HTML页面 28
5.2.3 多线程 29
5.3 分析系统的实现 30
5.3.1 中文分词组件的实现 30
5.3.2 建立索引的类的实现 34
5.3.3 搜索索引的类的实现 36
5.4 存储系统的实现 37
5.4.1 文件的读写实现 37
5.4.2 数据库的设计实现 38
总结 40
参考文献: 41
致谢: 42


摘要:随着计算机和网络技术的飞速发展,网络资源每年都以指数级规律增长。用户要在浩瀚的信息海洋里查找信息,需要有效的搜索依据。于是,搜索引擎应运而生。
本文首先介绍了搜索引擎的概念及其当前发展状况,接着探讨了搜索引擎的未来发展方向,说明了当前流行的搜索引擎在搜索局域网内资源时的无奈并指出了本搜索引擎系统开发的目的和意义。结合当前局域网信息搜索的需求情况,笔者选择使用C#开发语言以及IIS5.0构建了一个简单的搜索引擎系统。在开发过程中笔者对搜索引擎系统进行了总体规划、详细设计以及相关算法的设计。本系统的设计分成三个功能模块来完成,分别实现了网络蜘蛛、网页分析建立索引、数据存储的功能。在设计的过程中,本系统采用了宽度优先搜索BFS来实现网络蜘蛛的网页抓取;利用字符串匹配和基于统计的分词相结合的分词算法实现中文分词;通过PageRank技术实现查询结果的优化排序。通过对这三个模块的功能完善,实现了此搜索引擎系统的基本功能。最后,本论文对此搜索引擎系统的开发设计过程进行了总结和展望。
关键词:搜索引擎;网络蜘蛛;分析系统;存储系统;

The Design and Implement of a Mini Search Engine

He Nan
Faculty of Computer & Information Science,Southwest China University,ChongQing ,400715,China

Abstract:With the rapid development of computer and network technology,the amount of network resource is in creasing in exponential order.To efficiently search information in the vast sea of data,powerful retreeval system is required.Search engines are designed to meet such requirement.
This thesis first introduces the conception of the search engine and the situation of the development of the search engine.Then,it discusses the exposure of the search engines’ development;shows the disability of our popular search engines when they are searching the intranet resource..Moreover,it points out the motive and significance of opening up this search engine.Secondly,the author choose the C# program language and IIS5.0 to construct a simple search engine system to meet the requirement of the intranet search engine when people retreeval information.During the period of the developing,the author carries on the macrocosm layout ,the detailed and the related arithmetic design. This system involves three function mold pieces totally, carrying out network spider,the web page analysis to build up the index and database save.This search engine system uses BFS method to achive the webcrawler;using character string matching and the tokenize arithmetic according to statisticing to tokenize Chinese strings;using PageRank teconology to optimize the order of the results returned from the search engine after entering the query sting,totally accomplish the basic fuction of the search engine.In the end ,this thesis summarizes and prospects the development of the search engine system .
Keywords:Searching engine;WebCrawler;Analysis system;Storage system;