信息检索结果间基于分数的相似性比较.doc
约25页DOC格式手机打开展开
信息检索结果间基于分数的相似性比较,原创毕业论文,仅在本站独家提交,大家放心使用摘要 相似性是信息科学,尤其是信息检索领域中一个很热门的研究课题,在信息检索中,检索系统针对用户的信息需求从文档集中检出相应文档。当用户提交一个查询请求后,检索系统会利用倒排索引、文档集统计信息和其他一些数据,自动给出与查询相关的文档集合,同...
内容介绍
此文档由会员 好声音v5 发布
信息检索结果间基于分数的相似性比较
原创毕业论文,仅在本站独家提交,大家放心使用
摘要 相似性是信息科学,尤其是信息检索领域中一个很热门的研究课题,在信息检索中,检索系统针对用户的信息需求从文档集中检出相应文档。当用户提交一个查询请求后,检索系统会利用倒排索引、文档集统计信息和其他一些数据,自动给出与查询相关的文档集合,同时按照各篇文档与查询计算出的相关度进行排序,最后将排序后的结果集推送给用户。对于不同的信息检索系统,它们对同样的查询所产生的结果会有一定的相似性,本课题旨在研究何种方法能够准确判断这种相似性,主要对一些排好序的标准的数据集进行实验,通过计算欧式距离和曼哈顿距离,比较相似性。如何检索出满足用户查询的信息即如何提高检索的准确性是信息检索中的关键问题。本课题对提高信息检索准确性的模型也有一定的帮助。
关键词 信息检索 相似性 分数
Score-based similarity comparison of information retrieva l results
Abstract similary of information science, especially in the field of information retrieva l is a hot research topic,In information retrieva l, relevance is a matching relationship which is mainly retrieva l system according to the user's information needs from the document set between the document and the user demand .The user submits a query, retrieva l system will use the inverted index, document set of statistical information and other data, to automatically give the query related document collection,at the same time the document and the query according to the calculated correlation are sorted,and set the sorted result to the user.For different information retrieva l system, it has the same query results and have certain similarity,This paper aims to study how to accurately judge the similarity, based on some sorted data sets by calculating the Euclidean distance and the Manhattan distance , and compare the similarity.How to retrieve the query information which also is how to improve the retrieva l accuracy is the key problem in information retrieva l.This paper will help to improve the accuracy of information retrieva l model.
Key words information retrieva l similarity score
目 录
第一章 引言 1
第二章 问题的提出 2
2.1 信息检索 2
2.1.1 信息检索的早期发展 2
2.1.2 图书馆和数字图书馆中的信息检索 3
2.2 信息检索系统 3
2.3 查询 4
2.3.1 单词查询 4
2.3.2 布尔查询 4
2.3.3 上下文查询 4
2.4 结果排序 5
2.5 评价结果 5
2.5.1 TREC会议 5
2.5.2 TREC会议的评价指标 6
2.6 结果相似性比较 6
第三章 数据来源 7
3.1 TREC参考集 7
3.1.1 TREC会议的基准任务 7
3.1.2 TREC会议的评价指标 8
3.2 TREC2005文档集 8
3.2.1 主题 8
3.2.2 数据集 9
3.2.3 任务 9
3.3 TREC5文档集 10
3.3.1 主题 10
3.3.2 数据集 10
3.3.3 任务 11
第四章 系统分析 12
第五章 分数相关性比较的设计 12
5.1 设计原理 13
5.2 部分设计 14
5.2.1 文件读写 14
5.2.2 构造数组 14
5.2.3 分数0-1规范化 14
5.2.4 计算欧式距离和曼哈顿距离 15
结 论 19
致谢 20
参考文献 21
原创毕业论文,仅在本站独家提交,大家放心使用
摘要 相似性是信息科学,尤其是信息检索领域中一个很热门的研究课题,在信息检索中,检索系统针对用户的信息需求从文档集中检出相应文档。当用户提交一个查询请求后,检索系统会利用倒排索引、文档集统计信息和其他一些数据,自动给出与查询相关的文档集合,同时按照各篇文档与查询计算出的相关度进行排序,最后将排序后的结果集推送给用户。对于不同的信息检索系统,它们对同样的查询所产生的结果会有一定的相似性,本课题旨在研究何种方法能够准确判断这种相似性,主要对一些排好序的标准的数据集进行实验,通过计算欧式距离和曼哈顿距离,比较相似性。如何检索出满足用户查询的信息即如何提高检索的准确性是信息检索中的关键问题。本课题对提高信息检索准确性的模型也有一定的帮助。
关键词 信息检索 相似性 分数
Score-based similarity comparison of information retrieva l results
Abstract similary of information science, especially in the field of information retrieva l is a hot research topic,In information retrieva l, relevance is a matching relationship which is mainly retrieva l system according to the user's information needs from the document set between the document and the user demand .The user submits a query, retrieva l system will use the inverted index, document set of statistical information and other data, to automatically give the query related document collection,at the same time the document and the query according to the calculated correlation are sorted,and set the sorted result to the user.For different information retrieva l system, it has the same query results and have certain similarity,This paper aims to study how to accurately judge the similarity, based on some sorted data sets by calculating the Euclidean distance and the Manhattan distance , and compare the similarity.How to retrieve the query information which also is how to improve the retrieva l accuracy is the key problem in information retrieva l.This paper will help to improve the accuracy of information retrieva l model.
Key words information retrieva l similarity score
目 录
第一章 引言 1
第二章 问题的提出 2
2.1 信息检索 2
2.1.1 信息检索的早期发展 2
2.1.2 图书馆和数字图书馆中的信息检索 3
2.2 信息检索系统 3
2.3 查询 4
2.3.1 单词查询 4
2.3.2 布尔查询 4
2.3.3 上下文查询 4
2.4 结果排序 5
2.5 评价结果 5
2.5.1 TREC会议 5
2.5.2 TREC会议的评价指标 6
2.6 结果相似性比较 6
第三章 数据来源 7
3.1 TREC参考集 7
3.1.1 TREC会议的基准任务 7
3.1.2 TREC会议的评价指标 8
3.2 TREC2005文档集 8
3.2.1 主题 8
3.2.2 数据集 9
3.2.3 任务 9
3.3 TREC5文档集 10
3.3.1 主题 10
3.3.2 数据集 10
3.3.3 任务 11
第四章 系统分析 12
第五章 分数相关性比较的设计 12
5.1 设计原理 13
5.2 部分设计 14
5.2.1 文件读写 14
5.2.2 构造数组 14
5.2.3 分数0-1规范化 14
5.2.4 计算欧式距离和曼哈顿距离 15
结 论 19
致谢 20
参考文献 21