校园网搜索引擎设计.doc
校园网搜索引擎设计,摘 要 随着internet的迅速发展与广泛应用,网络上的信息与日俱增,如何在海量的信息中快速地定位自己感兴趣的信息,已成为人们最关注的问题之一。而搜索引擎技术在用户和信息源之间架起了一道沟通的桥梁,为用户提供了一个有效的信息检索手段。因此,本着整合校园网资源的目的,在研究搜索引擎的基本原理、核心...
内容介绍
此文档由会员 秋风2013 发布校园网搜索引擎设计
摘 要
随着Internet的迅速发展与广泛应用,网络上的信息与日俱增,如何在海量的信息中快速地定位自己感兴趣的信息,已成为人们最关注的问题之一。而搜索引擎技术在用户和信息源之间架起了一道沟通的桥梁,为用户提供了一个有效的信息检索手段。因此,本着整合校园网资源的目的,在研究搜索引擎的基本原理、核心技术和处理流程的基础上,结合校园网搜索引擎的个性化需求,本文设计了一个灵活、可配置、具有良好可扩展性且效率较高的校园网搜索引擎系统。
论文介绍了系统开发的背景和国内外搜索引擎技术的发展现状,并详细地说明了该搜索引擎系统的开发过程和方法。首先从功能需求和非功能需求两个方面对校园网搜索引擎的个性化需求进行分析,然后根据需求分析的结果提出了系统的实现目标和原则,继而从系统的功能架构和技术架构两个方面描述了系统的整体功能和总体流程,最后具体描述了插件机制的设计和爬取模块、文档解析模块及检索和索引模块几个关键模块的详细设计。
关键词:校园网;搜索引擎;网络爬虫;文档解析;索引
The Desine Of Campus Network Search Engine
ABSTRACT
With the Internet's rapid development ,How the information in the mass rapid positioning information of interest to them has become one of the most concern. The search engine technology between users and information sources to build a bridge to provide users with an effective means of information retrieva l. Therefore, based on integration of campus network resources, in the study of the basic principles of search engine, the core technology and processes, based on the campus network search engine combined with the individual requirements, the paper design of a flexible, configurable, can be a good scalability and efficient search engine of campus network systems.
This paper introduces the context of system development and search engine technology at home and abroad to develop the status quo, and a detailed description of the search engine system development process and methods. First, from the functional requirements and non-functional requirements of the campus network the two aspects of the personalized search engine needs analysis, needs analysis based on the results of the system to achieve the objectives and principles, and then from the system architecture and technical structure of the two aspects describes the system's overall function and the overall process, and finally describes the plug-in mechanism for the specific design and climbing access module, document analysis and retrieva l and indexing module of several modules of the detailed design of key modules.
KEY WORDS:Campus Network; search engine; network reptiles; document analysis; Index
目 录
前 言 1
第1章 绪论 2
§1.1 系统开发背景 2
§1.2 国内外搜索引擎发展现状 2
§1.2.1 国内外技术发展概况 2
§1.2.2 搜索引擎发展现状 3
§1.3 本文的主要工作 4
§1.4 本文的组织结构 4
第2章 系统架构设计 5
§2.1 需求分析 5
§2.2 系统设计目标和原则 5
§2.3 系统功能架构设计 6
§2.3.1 系统功能描述 6
§2.3.2 系统总体流程 7
§2.3.3 爬取模块设计 8
§2.3.4 中文分词模块 10
§2.3.5 索引和检索模块 11
§2.4 系统技术架构设计 15
§2.4.1 插件机制 15
§2.4.2 MapRedtic分布式处理模型 17
第3章 系统详细设计 20
§3.1 插件机制的详细设计 20
§3.1.1 重要概念 20
§3.1.2 类装载策略 21
§3.1.3 类图 22
§3.1.4 配置文件结构 23
§3.1.5 扩展点设计 24
§3.2分布式处理和存储 24
§3.3主要模块详细设计 25
§3.3.1爬取模块 25
§3.3.2文档解析模块 27
§3.3.3索引和检索模块 28
结 论 31
参考文献 32
致 谢 34