基于文本的web图片搜索引擎的研究.doc

约65页DOC格式手机打开展开

基于文本的web图片搜索引擎的研究,65页共计39501字摘要本文研究工作是针对web图片搜索引擎的应用背景,以构建大型web图片搜索引擎为目标,提出基于文本检索方式的web图片搜索引擎设计方案。文中介绍和研究了一系列与web图片搜索引擎相关的技术,包括网页抓取、相关性排序(vsm和lsi)、信息提取、信息索引等,这些技术将被应用到文中提出的系统设计方案...
编号:45-37707大小:1.19M
分类: 论文>计算机论文

内容介绍

此文档由会员 bfxqt 发布

65页共计39501字
摘 要
本文研究工作是针对Web图片搜索引擎的应用背景,以构建大型Web图片搜索引擎为目标,提出基于文本检索方式的Web图片搜索引擎设计方案。
文中介绍和研究了一系列与Web图片搜索引擎相关的技术,包括网页抓取、相关性排序(VSM和LSI)、信息提取、信息索引等,这些技术将被应用到文中提出的系统设计方案中。
本文重点地研究如何从HTML文档中提取图片相关信息,保证高效和准确的实现图片检索。在对真实数据进行实验和分析的基础上,提出了若干关键技术,用于系统的设计,现归纳如下:
1) 本文提出的方法通过细致地分析HTML文件的标记、标记、网页标题、网页的超链接文本、图片URL、标记、关联的结构、结构、图片周围文本等部分的结构特点,并利用真实数据进行实验验证,总结了9条提取模式,用于从这些结构中提取与图片相关的信息,以保证提取到的信息相关性程度较高。研究了三种具体的提取方法:基于DOM的方法、基于字符串的方法和基于Wrapper的方法。
2) 提出了过滤无用图片的方法,提高了系统中图片的可用度。该方法将图片文件大小小于某一阈值,图片的长或宽小于某一阈值,图片的长宽比例超过某一阈值以及同一网页内通过引用次数超过某一阈值的图片作为无用图片剔除。
3) 通过统计分析总结出HTML文件中表现出的一些潜在规律,比如JPG和GIF的区别、标记的不同意义以及图片引用次数的不同意义。得到如下结论:JPG重要性大于GIF;标记来源图片的重要性大于标记的图片;引用次数越高的图片重要性越高,而引用次数高的图片需要经过过滤才能保证重要性较高。
4) 粗略地探讨了将LSI算法应用于图片搜索引擎来整合文字和内容信息的方法,并通过简单实验进行了效果验证。
5) 设计并实现了一个基于文本的Web图片搜索引擎,给出了系统的总体结构图,并对获取网页、提取信息、图片抓取和死链检查、生成缩略图、建立索引和提供查询这6个工作流程进行了详细的描述,最后对系统的使用效果和性能进行了简单评测。
目 录
第1章 引言 1
1.1 背景 1
1.2 图片检索系统概述 3
1.2.1 系统应用领域 3
1.2.2 用户检索方式 3
1.2.3 系统评价 4
1.3 研究现状 5
1.4 现有图片检索系统简介 5
1.5 本文的主要工作 8
第2章 相关技术 10
2.1 网页抓取技术 10
2.1.1 基本原理 10
2.1.2 大型Spider的问题 10
2.2 相关性排序技术 11
2.2.1 VSM 12
2.2.2 VSM的改良:LSI 13
2.3 信息提取技术 15
2.3.1 基于内容的提取技术 15
2.3.2 基于文本的提取技术 17
2.4 信息索引技术 17
2.4.1 索引方式 18
2.4.2 提高索引的性能 19
2.5 其它相关技术 20
2.6 本章小结 21
第3章 WEB上的图片信息提取 22
3.1 HTML简介 22
3.2 图片信息提取模式 23
3.3 HTML信息提取方法 27
3.3.1 HTML文档的规范化 27
3.3.2 基于DOM的提取方法 27
3.3.3 基于字符串的提取方法 28
3.3.4 基于Wrapper的提取方法 28
3.4 无用图片过滤 30
3.5 挖掘HTML的潜在规律 31
3.5.1 GIF和JPG的区别 31
3.5.2
的不同意义 32
3.5.3 图片引用次数的分析 32
3.6 基于文本和基于内容的整合模式 34
3.7 本章小结 37
第4章 WEB图片搜索引擎的设计和实现 38
4.1 系统简介 38
4.2 系统详细工作流程 40
4.2.1 获取网页 40
4.2.2 提取信息 40
4.2.3 图片抓取和死链检查 42
4.2.4 生成缩略图 42
4.2.5 建立索引 43
4.2.6 提供查询 47
4.3 系统评测 50
4.4 本章小结 51
第5章 总结和展望 52
5.1 主要工作总结 52
5.2 技术发展方向 52
参 考 文 献 54
致 谢 58

关键词:Web图片搜索引擎 图像检索 基于文本 基于内容 信息提取
参 考 文 献
[1]. 中国互联网络信息中心(CNNIC)。《2003年中国互联网络信息资源数量调查报告》(2004.4.1)。http://www.cnnic.com.cn/index/0E/00/12/index.htm
[2]. Arvind Arasu et al. Searching The Web. ACM Transactions on Internet Technology, Volume 1, Issue 1, Pages 2 – 43, August 2001
[3]. Lawrence Page, Sergey Brin. The pagerank citation ranking: Bringing order to the Web. In Technical report, Computer Science Department, Stanford University, 1998.
[4]. E. V. Munson and Y. Tsymbalenko. To Search for Images on the Web, Look at the Text, Then Look at the Images, in Proceedings of the First International Workshop on Web Document Analysis, Seattle, pages 39-42, September 2001.
[5]. M. La Cascia, S. Sethi, and S. Sclaroff . Combining Textual and Visual Cues for Content-based Image Retrieval on the World Wide Web. Proc. IEEE Workshop on Content-Based Access of Image and Video Libraries, June 1998
[6]. 百度图片搜索。http://image.baidu.com
[7]. Google图像搜索。http://images.google.com/
[8]. ImageRover. http://www.cs.bu.edu/groups/ivc/ImageRover
[9]. WebSeer. http://infolab.cs.uchicago.edu/Webseer
[10]. WebSeek. http://www.ctr.columbia.edu/WebSEEk/
[11]. ImageSpace. http://www.wi.leidenuniv.nl/home/lim/image.scape.HTML
[12]. Scott C. Deerwester, Susan T. Dumais, Thomas K. Landauer, George W. Furnas, and Richard A. Harshman. Indexing by Latent Semantic Analysis. Journal of the American Society of Information Science, 41(6):391--407, 1990
[13]. Landauer, T. K., Foltz, P. W., and Laham, D. Introduction to Latent Semantic Analysis. Discourse Processes, 25, 259-284, 1998
[14]. H.T. Shen, B.C. Ooi, and K.L. Tan. Giving Meanings to WWW Images. ACM Multimedia'2000, pp 39-48
[15]. Zheng Chen, Liu Wenyin, Feng Zhang, Minjing Li and Hongjiang Zhang. Web Mining for Web Image Retrieval. Journal of the American Society for Information Science, vol. 52, No. 10, pp. 831-839, 2001
[16]. Zheng Chen, Liu Wenyin, Rui Yang, Mingjing Li and HongJiang Zhang. A Web Media Agent. WWW Posters 2001. The 3rd Annual Conference on World Wide Web Applications, September 5-7, 2001