基于视觉分割的职位信息抽取技术的研究与实现.doc
约48页DOC格式手机打开展开
基于视觉分割的职位信息抽取技术的研究与实现,摘 要 随着互联网的迅速发展,网络招聘已经成为一种比较流行的招聘方式。如今越来越多的企业在公司网站上发布招聘信息,求职者也纷纷在网上寻找自己喜欢的工作岗位。但是面对这些信息数据量的不断增大,我们需要浏览和筛选的数据也越来越多,有时候甚至会因为找不到公司的招聘信息,而在与招聘不相...
内容介绍
此文档由会员 那年三月 发布
基于视觉分割的职位信息抽取技术的研究与实现
摘 要 随着互联网的迅速发展,网络招聘已经成为一种比较流行的招聘方式。如今越来越多的企业在公司网站上发布招聘信息,求职者也纷纷在网上寻找自己喜欢的工作岗位。但是面对这些信息数据量的不断增大,我们需要浏览和筛选的数据也越来越多,有时候甚至会因为找不到公司的招聘信息,而在与招聘不相关的信息上浪费大量时间,因此如何从大量的、非结构化的网络信息中快速和准确的抽取我们需要的信息非常重要。
网页内容的表现性和互动性很强,因此从某种程度上,网页传达了一些视觉信息,这些视觉信息对于信息抽取过程会有很大的帮助。本文从人们用眼睛观察网页的角度出发,利用网页所呈现出来的布局结构和视觉特征,分别用DOM树结构和VIPS 算法对页面进行视觉分割处理,在页面分割的基础上,抽取特定块内的文本信息,并通过关键词查找抽取人们所感兴趣的视觉块内的信息。