网络爬虫的设计与分析.doc

  
约35页DOC格式手机打开展开

网络爬虫的设计与分析,摘要 随着互联网的快速发展,社会对信息的获得越来越显得重要,而在互联网时代利用网络爬虫搜集网页已经成为一种有效的手段,网络爬虫是一种自动搜集互联网信息的程序。其功能强大,应用广泛,能够为搜索引擎采集网络信息,也可以作为定向信息采集器,定向采集某些网站下的特定信息,如政府的舆情监控应用,企业的信息采集...
编号:129-1471030大小:685.50K
分类: 论文>计算机论文

内容介绍

此文档由会员 那年三月 发布

网络爬虫的设计与分析


摘要 随着互联网的快速发展,社会对信息的获得越来越显得重要,而在互联网时代利用网络爬虫搜集网页已经成为一种有效的手段,网络爬虫是一种自动搜集互联网信息的程序。其功能强大,应用广泛,能够为搜索引擎采集网络信息,也可以作为定向信息采集器,定向采集某些网站下的特定信息,如政府的舆情监控应用,企业的信息采集等。
  本文利用JAVA实现了一个基于广度优先算法的多线程爬虫程序。本论文阐述了网络爬虫实现中一些主要问题:为何使用广度优先的爬行策略,以及如何实现广度优先爬行;为何要使用多线程,以及如何实现多线程;爬虫执行时的数据存储方案;网页信息解析功能等。