基于向量空间模型的internet信息检索.doc

约25页DOC格式手机打开展开

基于向量空间模型的internet信息检索,基于向量空间模型的internet信息检索页数 27 字数 8596摘要随着万维网(www)上的信息以指数级的增长,它已成为世界上最大的以及增长最快的信息资源所在。在www上使用的用户不难发现,通常他们所需要的信息被淹没在这巨大的信息量中。信息检索已经成为人们获取有用信息不可缺少的工具。布尔模型检索虽然具有简单、速度快...
编号:10-28306大小:738.00K
分类: 论文>计算机论文

内容介绍

此文档由会员 赵亮 发布

基于向量空间模型的INTERNET信息检索

页数 27 字数 8596

摘 要
随着万维网(WWW)上的信息以指数级的增长,它已成为世界上最大的以及增长最快的信息资源所在。在WWW上使用的用户不难发现,通常他们所需要的信息被淹没在这巨大的信息量中。信息检索已经成为人们获取有用信息不可缺少的工具。布尔模型检索虽然具有简单、速度快和查询表达式易于掌握等优点,但因其不够精确,不能反映不同特征词对一个文档的重要程度,且检索结果地位平等,无法进行有效的排序。在向量空间模型检索中,文档和查询都是使用向量来表示,检索过程即计算文档响亮和查询向量之间的相似度,可以根据相似度的不同,对查询结果进行排序,还可以根据检索结果,进一步做出相关检索(relevance feedback)。文章通过使用向量空间模型作为检索模型,实现一个简单的检索系统。

关键词:向量空间模型,信息检索,检索模型

Abstract
With the amount of information growing at an exponential rate, the World Wide Web (WWW) is often referred to as the world’s largest and fastest growing information source. It is not uncommon that the users on WWW often find themselves overwhelmed with the large amount of information that might be of their interest and usefulness. Information Retrieval turns more and more important for the users to get useful information. The retrieval model using Boolean Model has some advantages such as simple, quickly and easy to query, but, it can’t reflect the term’s significance to the document and the results can’t be sorted. In Vector Space Model, documents and queries are represented by an n-dimensional vector, The retrieval process is to calculated the similarity between document vector and query vector. The result can be sorted by similarity and do relevance feedback. In this paper, a simple retrieval system using Vector Space Model is actualized.

Keywords: Vector Space Model; Information retrieval; Retrieval Model.

目 录
1 引言…………………………………………………………………………(4)
2 信息检索模型………………………………………………………………(4)
2.1 布尔模型 …………………………………………………………………(4)
2.2 向量空间模型 ……………………………………………………………(5)
3 检索系统的设计与实现……………………………………………………(8)
3.1 信息检索结构 ……………………………………………………………(8)
3.2 文档的获取与存储 ………………………………………………………(9)
3.3 文档的特征提取与表示 …………………………………………………(10)
3.4 搜索实现 …………………………………………………………………(12)
3.5 结果与分析 ………………………………………………………………(13)
4 结束语………………………………………………………………………(14)
致谢………………………………………………………………………………(14)
参考文献…………………………………………………………………………(14)
附录一……………………………………………………………………………(16)
附录二……………………………………………………………………………(18)
附录三……………………………………………………………………………(21)