一种面向学术的垂直搜索引擎的设计与实现.zip
一种面向学术的垂直搜索引擎的设计与实现,2.2万字58页 原创作品,已通过查重系统 摘 要随着internet的迅速发展,web己经发展成为包含多种信息资源、站点分布全球的海量信息服务网络。搜索引擎是一种用于帮助web用户查询信息的搜索工具,它以一定的策略在internet中搜集、发现信息,对信息进行理解、提取、组织和处...
该文档为压缩文件,包含的文件列表如下:
内容介绍
原文档由会员 马甲线女神 发布
一种面向学术的垂直搜索引擎的设计与实现
2.2万字 58页 原创作品,已通过查重系统
摘 要 随着Internet的迅速发展,Web己经发展成为包含多种信息资源、站点分布全球的海量信息服务网络。搜索引擎是一种用于帮助Web用户查询信息的搜索工具,它以一定的策略在Internet中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检服务和信息导航。用户迫切需要一个数据分类细致、精确、全面、更新及时的面向特定主题的搜索技术和方法来获得主题资源信息。在这种需求的推动下,垂直搜索引擎应运而生。
论文研究了搜索引擎的相关技术,通过分析基于查询串方式的搜索引擎和分类目录式搜索引擎的整体结构,设计了垂直搜索引擎的系统结构,并对其中涉及的关键技术:Web搜集器、信息抽取技术和检索技术进行了研究和实现,期望对推进本领域的技术发展作一点贡献。在总体设计方面采用的是模块化思想,垂直搜索引擎被分为搜集子系统、索引子系统和检索子系统,搜集子系统通过爬虫收集关于学术方面的网页信息,然后将内容交给索引子系统进行整理分类排序,建立索引表,当用户通过用户接口输入需要查询的关键词后,检索子系统进行检索,然后将所查到的信息反馈给用户接口,再由用户接口将内容呈现给用户,各子系统相对独立,实现较为方便。期望通过这次设计可以加深我对所学的理论知识的理解。
关键词:搜索引擎 信息抓取 倒排文件 信息检索
Abstract With the rapid development of Internet Web has become a mass of information service network that contains a variety of information resources sites all over the world. Search engines are designed to help Web users to query information which collect a certain strategy in the Internet find information understand the information extract organize and process then provide navigation and information retrieva l services for users. Users need a data classification detailed accurate comprehensive and timely updates of search techniques and methods for the specific topics to get the theme of resource information urgently. In this demand driven vertical search engines emerged. This article researches search engine related technologies through the analysis of the overall structure of search engines and classified directory-style search engine based on the query string method design the system structure vertical search engine and one of the key technologies involved: Web Collector information extraction technology Chinese word and retrieva l technology in-depth study. Expecting to make a contribution for advancing technological developments in this field. In the overall design uses a modular thinking Vertical search engines are divided into sub-collection indexing subsystem,retrieva l subsystem and the user interface sub-collection subsystem gather information about the academic aspect of the page by crawlers then the indexing subsystem begin to sort the information and create indexing table when a user input the keywords by the user interface the search subsystem retrieve and give the found information back to the user interface and then the user interface show to user about the content. Various subsystems are relatively independent achieve more convenient. I hope I can deepen my theoretical knowledge and understanding through this design.
Keywords search engine information capture inverted file information retrieva l.
目 录
第一章:绪论 5
1.1研究背景 5
1.2搜索引擎的现状分析及存在问题 6
第二章:相关技术原理及开发技术 9
2.1 问题的定义 9
2.2 相关技术 9
2.2.1.信息收集和储存技术 9
2.2.2.信息预处理技术 9
2.2.3.信息索引技术 11
2.2.4. 检索结果处理技术 13
2.3. 系统开发工具选择及开发环境 13
第三章:需求分析 17
3.1系统设计目标 17
3.2 功能需求 17
第四章:垂直搜索引擎的总体结构设计 20
4.1.前台搜索引擎 21
4.2.后台数据库 24
第五章:详细设计步骤 27
5.1 搜集子系统 27
5.1.1 Web搜集器算法 28
5.1.2 主要类、接口和数据库 29
5.1.3 web搜集器执行流程 33
5.2 索引子系统 36
5.2.1原始网页索引 39
5.2.2索引网页库 39
5.2.3分析网页 40
5.2.4建立倒排文件 40
5.3 检索子系统 42
5.3.1 向量空间模型的实现 48
5.3.2 页面距离检索 49
5.4 用户接口 52
第六章:总结 56
致 谢 58
参考文献 59
2.2万字 58页 原创作品,已通过查重系统
摘 要 随着Internet的迅速发展,Web己经发展成为包含多种信息资源、站点分布全球的海量信息服务网络。搜索引擎是一种用于帮助Web用户查询信息的搜索工具,它以一定的策略在Internet中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检服务和信息导航。用户迫切需要一个数据分类细致、精确、全面、更新及时的面向特定主题的搜索技术和方法来获得主题资源信息。在这种需求的推动下,垂直搜索引擎应运而生。
论文研究了搜索引擎的相关技术,通过分析基于查询串方式的搜索引擎和分类目录式搜索引擎的整体结构,设计了垂直搜索引擎的系统结构,并对其中涉及的关键技术:Web搜集器、信息抽取技术和检索技术进行了研究和实现,期望对推进本领域的技术发展作一点贡献。在总体设计方面采用的是模块化思想,垂直搜索引擎被分为搜集子系统、索引子系统和检索子系统,搜集子系统通过爬虫收集关于学术方面的网页信息,然后将内容交给索引子系统进行整理分类排序,建立索引表,当用户通过用户接口输入需要查询的关键词后,检索子系统进行检索,然后将所查到的信息反馈给用户接口,再由用户接口将内容呈现给用户,各子系统相对独立,实现较为方便。期望通过这次设计可以加深我对所学的理论知识的理解。
关键词:搜索引擎 信息抓取 倒排文件 信息检索
Abstract With the rapid development of Internet Web has become a mass of information service network that contains a variety of information resources sites all over the world. Search engines are designed to help Web users to query information which collect a certain strategy in the Internet find information understand the information extract organize and process then provide navigation and information retrieva l services for users. Users need a data classification detailed accurate comprehensive and timely updates of search techniques and methods for the specific topics to get the theme of resource information urgently. In this demand driven vertical search engines emerged. This article researches search engine related technologies through the analysis of the overall structure of search engines and classified directory-st
Keywords search engine information capture inverted file information retrieva l.
目 录
第一章:绪论 5
1.1研究背景 5
1.2搜索引擎的现状分析及存在问题 6
第二章:相关技术原理及开发技术 9
2.1 问题的定义 9
2.2 相关技术 9
2.2.1.信息收集和储存技术 9
2.2.2.信息预处理技术 9
2.2.3.信息索引技术 11
2.2.4. 检索结果处理技术 13
2.3. 系统开发工具选择及开发环境 13
第三章:需求分析 17
3.1系统设计目标 17
3.2 功能需求 17
第四章:垂直搜索引擎的总体结构设计 20
4.1.前台搜索引擎 21
4.2.后台数据库 24
第五章:详细设计步骤 27
5.1 搜集子系统 27
5.1.1 Web搜集器算法 28
5.1.2 主要类、接口和数据库 29
5.1.3 web搜集器执行流程 33
5.2 索引子系统 36
5.2.1原始网页索引 39
5.2.2索引网页库 39
5.2.3分析网页 40
5.2.4建立倒排文件 40
5.3 检索子系统 42
5.3.1 向量空间模型的实现 48
5.3.2 页面距离检索 49
5.4 用户接口 52
第六章:总结 56
致 谢 58
参考文献 59