

一种面向学术的垂直搜索引擎的设计与实现,2.2万字58页 原创作品,已通过查重系统 摘 要随着internet的迅速发展,web己经发展成为包含多种信息资源、站点分布全球的海量信息服务网络。搜索引擎是一种用于帮助web用户查询信息的搜索工具,它以一定的策略在internet中搜集、发现信息,对信息进行理解、提取、组织和处...
分类: 论文>计算机论文



原文档由会员 马甲线女神 发布


2.2万字 58页 原创作品,已通过查重系统

摘 要 随着Internet的迅速发展,Web己经发展成为包含多种信息资源、站点分布全球的海量信息服务网络。搜索引擎是一种用于帮助Web用户查询信息的搜索工具,它以一定的策略在Internet中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检服务和信息导航。用户迫切需要一个数据分类细致、精确、全面、更新及时的面向特定主题的搜索技术和方法来获得主题资源信息。在这种需求的推动下,垂直搜索引擎应运而生。

关键词:搜索引擎 信息抓取 倒排文件 信息检索

Abstract With the rapid development of Internet Web has become a mass of information service network that contains a variety of information resources sites all over the world. Search engines are designed to help Web users to query information which collect a certain strategy in the Internet find information understand the information extract organize and process then provide navigation and information retrieva l services for users. Users need a data classification detailed accurate comprehensive and timely updates of search techniques and methods for the specific topics to get the theme of resource information urgently. In this demand driven vertical search engines emerged. This article researches search engine related technologies through the analysis of the overall structure of search engines and classified directory-style search engine based on the query string method design the system structure vertical search engine and one of the key technologies involved: Web Collector information extraction technology Chinese word and retrieva l technology in-depth study. Expecting to make a contribution for advancing technological developments in this field. In the overall design uses a modular thinking Vertical search engines are divided into sub-collection indexing subsystem,retrieva l subsystem and the user interface sub-collection subsystem gather information about the academic aspect of the page by crawlers then the indexing subsystem begin to sort the information and create indexing table when a user input the keywords by the user interface the search subsystem retrieve and give the found information back to the user interface and then the user interface show to user about the content. Various subsystems are relatively independent achieve more convenient. I hope I can deepen my theoretical knowledge and understanding through this design.

Keywords search engine information capture inverted file information retrieva l.

目 录
第一章:绪论 5
1.1研究背景 5
1.2搜索引擎的现状分析及存在问题 6
第二章:相关技术原理及开发技术 9
2.1 问题的定义 9
2.2 相关技术 9
2.2.1.信息收集和储存技术 9
2.2.2.信息预处理技术 9
2.2.3.信息索引技术 11
2.2.4. 检索结果处理技术 13
2.3. 系统开发工具选择及开发环境 13
第三章:需求分析 17
3.1系统设计目标 17
3.2 功能需求 17
第四章:垂直搜索引擎的总体结构设计 20
4.1.前台搜索引擎 21
4.2.后台数据库 24
第五章:详细设计步骤 27
5.1 搜集子系统 27
5.1.1 Web搜集器算法 28
5.1.2 主要类、接口和数据库 29
5.1.3 web搜集器执行流程 33
5.2 索引子系统 36
5.2.1原始网页索引 39
5.2.2索引网页库 39
5.2.3分析网页 40
5.2.4建立倒排文件 40
5.3 检索子系统 42
5.3.1 向量空间模型的实现 48
5.3.2 页面距离检索 49
5.4 用户接口 52
第六章:总结 56
致 谢 58
参考文献 59