聚焦爬虫设计与实现.doc

  
约64页DOC格式手机打开展开

聚焦爬虫设计与实现,2.46万字64页 包括外文翻译,原创作品,通过查重系统摘要 爬行器(crawler)又可称为网络机器人(robot)或蜘蛛(spider),通过提取和跟踪网页之间的超文本链接(hypertextlink),来发现和收集internet上的可搜索网站的每个页面。由于爬行入口也就是初始网页的不同,以及爬...
编号:99-583740大小:2.30M
分类: 论文>计算机论文

内容介绍

此文档由会员 第二波打卡 发布

聚焦爬虫设计与实现

2.46万字 64页 包括外文翻译,原创作品,通过查重系统


摘 要

爬行器(Crawler)又可称为网络机器人(Robot)或蜘蛛(Spider),通过提取和跟踪网页之间的超文本链接(Hypertextlink),来发现和收集Internet上的可搜索网站的每个页面。由于爬行入口也就是初始网页的不同,以及爬行策略的不同,不同的爬虫会搜集到不同的网络资源使用通用搜索引擎、通用爬虫程序搜索时,由于检索结果中常常包含较多的与专业知识相关性很小的内容,专业人员需要耗费较多的时间和精力来剔除相关度小的无用信息。网络信息的海量性和动态性,也使得一个爬虫程序亦或是一个搜索引擎都不可能对所有信息进行索引。因此,面向某个特定领域的主题搜索引擎、主题爬虫、或称为聚焦搜索引擎、聚焦爬虫就成为一个重要的发展趋势,本篇文章将研究一个基于考研主题的聚焦爬虫。


关键词:本体;主题;聚焦;爬虫;特征向量,相关度