频道

热门频道

用户中心

豆知微信公众号

微信二维码

社会实践报告范文大全

上传

基于文本的web图片搜索引擎的研究.doc

约65页DOC格式手机打开展开

基于文本的web图片搜索引擎的研究,65页共计39501字摘要本文研究工作是针对web图片搜索引擎的应用背景，以构建大型web图片搜索引擎为目标，提出基于文本检索方式的web图片搜索引擎设计方案。文中介绍和研究了一系列与web图片搜索引擎相关的技术，包括网页抓取、相关性排序（vsm和lsi）、信息提取、信息索引等，这些技术将被应用到文中提出的系统设计方案...
编号:45-37707大小:1.19M
分类: 论文>计算机论文

内容介绍

此文档由会员 bfxqt 发布

65页共计39501字
摘要
本文研究工作是针对Web图片搜索引擎的应用背景，以构建大型Web图片搜索引擎为目标，提出基于文本检索方式的Web图片搜索引擎设计方案。
文中介绍和研究了一系列与Web图片搜索引擎相关的技术，包括网页抓取、相关性排序（VSM和LSI）、信息提取、信息索引等，这些技术将被应用到文中提出的系统设计方案中。
本文重点地研究如何从HTML文档中提取图片相关信息，保证高效和准确的实现图片检索。在对真实数据进行实验和分析的基础上，提出了若干关键技术，用于系统的设计，现归纳如下：
1) 本文提出的方法通过细致地分析HTML文件的标记、标记、网页标题、网页的超链接文本、图片URL、标记、关联的和结构、结构、图片周围文本等部分的结构特点，并利用真实数据进行实验验证，总结了9条提取模式，用于从这些结构中提取与图片相关的信息，以保证提取到的信息相关性程度较高。研究了三种具体的提取方法：基于DOM的方法、基于字符串的方法和基于Wrapper的方法。
2) 提出了过滤无用图片的方法，提高了系统中图片的可用度。该方法将图片文件大小小于某一阈值，图片的长或宽小于某一阈值，图片的长宽比例超过某一阈值以及同一网页内通过引用次数超过某一阈值的图片作为无用图片剔除。
3) 通过统计分析总结出HTML文件中表现出的一些潜在规律，比如JPG和GIF的区别、和标记的不同意义以及图片引用次数的不同意义。得到如下结论：JPG重要性大于GIF；标记来源图片的重要性大于标记的图片；引用次数越高的图片重要性越高，而引用次数高的图片需要经过过滤才能保证重要性较高。
4) 粗略地探讨了将LSI算法应用于图片搜索引擎来整合文字和内容信息的方法，并通过简单实验进行了效果验证。
5) 设计并实现了一个基于文本的Web图片搜索引擎，给出了系统的总体结构图，并对获取网页、提取信息、图片抓取和死链检查、生成缩略图、建立索引和提供查询这6个工作流程进行了详细的描述，最后对系统的使用效果和性能进行了简单评测。
目录
第1章引言 1
1.1 背景 1
1.2 图片检索系统概述 3
1.2.1 系统应用领域 3
1.2.2 用户检索方式 3
1.2.3 系统评价 4
1.3 研究现状 5
1.4 现有图片检索系统简介 5
1.5 本文的主要工作 8
第2章相关技术 10
2.1 网页抓取技术 10
2.1.1 基本原理 10
2.1.2 大型Spider的问题 10
2.2 相关性排序技术 11
2.2.1 VSM 12
2.2.2 VSM的改良：LSI 13
2.3 信息提取技术 15
2.3.1 基于内容的提取技术 15
2.3.2 基于文本的提取技术 17
2.4 信息索引技术 17
2.4.1 索引方式 18
2.4.2 提高索引的性能 19
2.5 其它相关技术 20
2.6 本章小结 21
第3章 WEB上的图片信息提取 22
3.1 HTML简介 22
3.2 图片信息提取模式 23
3.3 HTML信息提取方法 27
3.3.1 HTML文档的规范化 27
3.3.2 基于DOM的提取方法 27
3.3.3 基于字符串的提取方法 28
3.3.4 基于Wrapper的提取方法 28
3.4 无用图片过滤 30
3.5 挖掘HTML的潜在规律 31
3.5.1 GIF和JPG的区别 31
3.5.2 和的不同意义 32
3.5.3 图片引用次数的分析 32
3.6 基于文本和基于内容的整合模式 34
3.7 本章小结 37
第4章 WEB图片搜索引擎的设计和实现 38
4.1 系统简介 38
4.2 系统详细工作流程 40
4.2.1 获取网页 40
4.2.2 提取信息 40
4.2.3 图片抓取和死链检查 42
4.2.4 生成缩略图 42
4.2.5 建立索引 43
4.2.6 提供查询 47
4.3 系统评测 50
4.4 本章小结 51
第5章总结和展望 52
5.1 主要工作总结 52
5.2 技术发展方向 52
参考文献 54
致谢 58

关键词：Web图片搜索引擎图像检索基于文本基于内容信息提取
参考文献
[1]. 中国互联网络信息中心（CNNIC）。《2003年中国互联网络信息资源数量调查报告》（2004.4.1）。http://www.cnnic.com.cn/index/0E/00/12/index.htm
[2]. Arvind Arasu et al. Searching The Web. ACM Transactions on Internet Technology, Volume 1, Issue 1, Pages 2 – 43, August 2001
[3]. Lawrence Page, Sergey Brin. The pagerank citation ranking: Bringing order to the Web. In Technical report, Computer Science Department, Stanford University, 1998.
[4]. E. V. Munson and Y. Tsymbalenko. To Search for Images on the Web, Look at the Text, Then Look at the Images, in Proceedings of the First International Workshop on Web Document Analysis, Seattle, pages 39-42, September 2001.
[5]. M. La Cascia, S. Sethi, and S. Sclaroff . Combining Textual and Visual Cues for Content-based Image Retrieval on the World Wide Web. Proc. IEEE Workshop on Content-Based Access of Image and Video Libraries, June 1998
[6]. 百度图片搜索。http://image.baidu.com
[7]. Google图像搜索。http://images.google.com/
[8]. ImageRover. http://www.cs.bu.edu/groups/ivc/ImageRover
[9]. WebSeer. http://infolab.cs.uchicago.edu/Webseer
[10]. WebSeek. http://www.ctr.columbia.edu/WebSEEk/
[11]. ImageSpace. http://www.wi.leidenuniv.nl/home/lim/image.scape.HTML
[12]. Scott C. Deerwester, Susan T. Dumais, Thomas K. Landauer, George W. Furnas, and Richard A. Harshman. Indexing by Latent Semantic Analysis. Journal of the American Society of Information Science, 41(6):391--407, 1990
[13]. Landauer, T. K., Foltz, P. W., and Laham, D. Introduction to Latent Semantic Analysis. Discourse Processes, 25, 259-284, 1998
[14]. H.T. Shen, B.C. Ooi, and K.L. Tan. Giving Meanings to WWW Images. ACM Multimedia'2000, pp 39-48
[15]. Zheng Chen, Liu Wenyin, Feng Zhang, Minjing Li and Hongjiang Zhang. Web Mining for Web Image Retrieval. Journal of the American Society for Information Science, vol. 52, No. 10, pp. 831-839, 2001
[16]. Zheng Chen, Liu Wenyin, Rui Yang, Mingjing Li and HongJiang Zhang. A Web Media Agent. WWW Posters 2001. The 3rd Annual Conference on World Wide Web Applications, September 5-7, 2001

TA们正在看...

相关文档

关于我们
关于豆知
联系我们

网站声明
侵权处理
免责申明

帮助中心
呼吸机
帮助中心

官方微信

支付宝红包

豆知网教育科研学术文档分享平台

可信/实名双认证网站川公网安备 51010502011102号

豆知 . 豆知文库版权所有 - 2008-2025 蜀ICP备2023009049号-1