职位信息垂直搜索引擎的系统与实现.doc

  
约38页DOC格式手机打开展开

职位信息垂直搜索引擎的系统与实现,1.5万字38页原创作品,已通过查重系统摘要 目前就业信息发布途径增多,出现了如智联招聘、51job等大大小小的招聘信息网站。同一个招聘信息可以发布在不同网站,而每个网站的信息只限站内搜索。为了方便求职者能够及时、快速的获取职位招聘信息,本论文就这种实际情况并基于垂直搜索引擎的特点设计并...
编号:99-591635大小:870.50K
分类: 论文>计算机论文

内容介绍

此文档由会员 马甲线女神 发布

职位信息垂直搜索引擎的系统与实现

1.5万字 38页 原创作品,已通过查重系统


摘要 目前就业信息发布途径增多,出现了如智联招聘、51job等大大小小的招聘信息网站。同一个招聘信息可以发布在不同网站,而每个网站的信息只限站内搜索。为了方便求职者能够及时、快速的获取职位招聘信息,本论文就这种实际情况并基于垂直搜索引擎的特点设计并实现了职位信息垂直搜索引擎。
本论文在深入研究垂直搜索引擎的关键技术的基础上分析设计并实现了基于Lucene的职位信息垂直搜索引擎系统。本系统主要包含如下个功能模块:
(1)网页采集模块:该模块负责抓取下载招聘网站上的网页,其能够抓取有效的招聘信息页面,过滤掉与主题无关的网页。本系统通过设计专业的网络爬虫,采用广度优先策略来实现该功能模块。
(2)网页解析模块:网页解析模块的功能是过滤掉网页上无用的信息(网页去噪),提取出仅与主题相关的信息。如:正文内容、标题、超链接、信息来源和更新时间等信息,以供相关度分析模块进行下一步的处理判断。本系统使用开源工具包HTMLParser,采用基于HTML网页结构的方法实现对网页信息的提取。
(3)索引和数据存储模块:该模块为网页解析模块提取出的结构化信息创建索引,并将结构化信息存储到数据库中。本系统借助全文检索框架Lucene,采用基于词典的中文分词方法对结构化信息建立索引,并对索引进行优化处理。
(4)检索模块:信息检索模块的目的是接收用户提交的查询分析查询并从索引库中检索出相关的文档根据文档与查询的相关度进行排序将排序后的文档列表返回给用户
最后建立职位信息垂直搜索引擎系统Web页面,完成了对整个系统的构建工作。


关键词:垂直搜索引擎 专业网络爬虫 Lucene 广度优先 HTMLParser 网页去噪 中文分词