搜索引擎原理及发展趋势.doc

约6页DOC格式手机打开展开

搜索引擎原理及发展趋势,页数:6字数:6493我们通常所说的搜索引擎一般包括关键词索引和主题目录索引两大部分,分别属于不同性质的两种系统,其工作原理也有一定的差别。如关键词索引数据库中的网页资料绝大多数由机器人自动生成。而主题目录索引数据库一般由专业人员对互联网上的信息进行搜集、筛选、组织和评论,编...
编号:10-62132大小:40.00K
分类: 论文>其他论文

内容介绍

此文档由会员 cnlula 发布

搜索引擎原理及发展趋势


页数:6 字数:6493

搜索引擎原理及发展趋势
我们通常所说的搜索引擎一般包括关键词索引和主题目录索引两大部分,分别属于不同性质的两种系统,其工作原理也有一定的差别。如关键词索引数据库中的网页资料绝大多数由机器人自动生成。而主题目录索引数据库一般由专业人员对互联网上的信息进行搜集、筛选、组织和评论,编制等级式的主题指南或主题目录,以供检索和查询。现在很多的搜索引擎都是将关键词索引和主题目录索引结合起来,以充分发挥两者的优势。并且随着技术的进步,引擎也在迅速发展,它从综合性向专业化方向发展, 从单一性向多元化方向发展, 从以英文为主向多语言化方向发展,其还要借鉴其他不同的分类方法促进其完善发展。
搜索引擎的原理
利用能够从互联网上自动收集网页的Spider系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集回来。
由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的所有关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面文字中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。
当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。 最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。
搜索引擎对于网络资源的分类组织与传