基于hadoop的海量数据处理研究与应用——搜索引擎部分的设计与实现.doc
约65页DOC格式手机打开展开
基于hadoop的海量数据处理研究与应用——搜索引擎部分的设计与实现,论述完整 摘 要如今微博已经成为人们重要的沟通和交流工具,给人们的生活带来了极大地便利,与此同时,人们利用微博平台交流的过程中产生了海量的非结构化的数据,对这些数据的处理和利用已经成为了一个热门的研究课题,本文介绍利用海量微博数据搜索相同兴趣的用户并对结果进行排序,即兴趣搜索。论文的主要工作如下:首先,要解决存储与处理...
内容介绍
此文档由会员 danusha 发布
论述完整
摘 要
如今微博已经成为人们重要的沟通和交流工具,给人们的生活带来了极大地便利,与此同时,人们利用微博平台交流的过程中产生了海量的非结构化的数据,对这些数据的处理和利用已经成为了一个热门的研究课题,本文介绍利用海量微博数据搜索相同兴趣的用户并对结果进行排序,即兴趣搜索。
论文的主要工作如下:
首先,要解决存储与处理海量微博数据,论文研究与讨论了海量数据存储与处理的相关技术,对Google的三大核心技术--BigTable、GFS分布式文件系统、MapReduce分布式编程模型的介绍,着重对搜索引擎原理与Solr平台的介绍。
其次,对于本课题设计与实现的系统来说,我们结合了Hadoop、HBase、Solr等优秀的开源框架,本课题分别研究与讨论这些框架。
最后,针对本课题所面临的问题--搜索相同兴趣的用户并对结果进行排序,我们将Hadoop、HBase、Solr结合起来,设计与实现这样的体系结构:原始微博数据存储在HBase中,利用Hadoop的分布式结构对原始数据进行处理并建立索引,索引最终输出到Solr系统的索引库中。同时,提出一个基于微博兴趣搜索的排名算法,对于微博内容、用户信息权值的权衡设置,搜索时对结果进行排名。这样,最终实现基于微博内容搜索相同兴趣的用户的应用。
关键词:海量数据处理;Hadoop;Solr
Abstract
Nowadays microblogging has become an important tool for communication in people’s life, and it has brought us significant conveniences. Meanwhile, in the process of communicating using microbloging by so many users, there is massive data unstructured being produced.So ,how to process and user this data has become a hot topic. This dissertation will introduce how to use a sea of microbloging data to search for users of the same interest,and a sorted result will be displayed, as we will it interest searching.
The main work of this dissertation is as follows:
Firstly, we must fix the problem of the massive data processing and research of microblogging data. This dissertation has a research and discuss the correlation techniques of massive data storage and processing. We introduce the three core techniques of Google:BigTable,Google File System, MapReduce. And we highlight on the introducing of search engine and solr plat form
Secondly, in the system designed and implemented by ourselves, we combine some excellent open source frameworks like Hadoop, Hbase and Solr. We will discuss them respectively.
Finally, for solving the problem we are fcacing that how to find the users of same interest and return the sorted result, we combine Hadoop,Hbase and solr together.Our main idea is the primal will be stored in HBase, and we will use it in hadoop to build index for solr. Meanwhile, we design a viable algorithm to rank the search results.We set different weights for microblogging content and user information. Then, we finally implement the application of searching for users of the same interests based on the massive microbloggings.
Key Words:Massive data proessing; Hadoop;Solr
目录
第一章 绪论 1
1.1 研究背景 1
1.2 研究现状及存在的问题 1
1.3 论文的主要工作 2
1.4 论文组织结构 2
第二章 系统相关技术介绍 3
2.1 海量数据存储与处理核心技术与原理 3
2.1.2 BigTable技术与原理 3
2.1.3 GFS技术与原理 8
2.1.4 MapReduce编程模型技术及原理 10
2.2 Hadoop平台研究 11
2.2.1 Hadoop简介 11
2.2.2 HDFS文件系统 12
2.3 搜索引擎核心技术及原理 14
2.3.1 全文搜索介绍 14
2.3.2 索引 15
2.3.2 查询 16
2.4 本章小节 19
第三章 Solr平台研究 20
3.1 Solr介绍 20
3.2 Solr体系结构 20
3.3 Solr重点介绍 21
4.1.1 solrconig.xml解读 21
4.1.2 schema.xml解读 23
4.1.2 Solr 服务原理 23
3.4 本章小节 26
第四章 基于海量数据处理的微博兴趣搜索设计与实现 27
4.1 系统体系结构 27
4.2 索引生成 28
4.2.1 微博数据采集并存入HBase 28
4.2.2 MapReduce建立索引 32
4.2.3 Solr建立索引核心配置 34
4.3 搜索过程 35
4.3.1 查询分析 36
4.3.1 查询结果展示 39
4.4 本章小节 40
第五章 系统运行与分析 41
5.1 实验环境 41
5.2 实验平台搭建 41
5.3 实验运行 43
5.3.1 实验数据 43
5.3.2 Solr服务器运行 45
5.4 实验结果 46
5.4.1 索引结果 46
5.4.2 搜索结果 48
5.5 本章小结 51
第六章 总结与展望 52
6.1 论文总结 52
6.2 工作展望 52
参考文献 54
致 谢 56
摘 要
如今微博已经成为人们重要的沟通和交流工具,给人们的生活带来了极大地便利,与此同时,人们利用微博平台交流的过程中产生了海量的非结构化的数据,对这些数据的处理和利用已经成为了一个热门的研究课题,本文介绍利用海量微博数据搜索相同兴趣的用户并对结果进行排序,即兴趣搜索。
论文的主要工作如下:
首先,要解决存储与处理海量微博数据,论文研究与讨论了海量数据存储与处理的相关技术,对Google的三大核心技术--BigTable、GFS分布式文件系统、MapReduce分布式编程模型的介绍,着重对搜索引擎原理与Solr平台的介绍。
其次,对于本课题设计与实现的系统来说,我们结合了Hadoop、HBase、Solr等优秀的开源框架,本课题分别研究与讨论这些框架。
最后,针对本课题所面临的问题--搜索相同兴趣的用户并对结果进行排序,我们将Hadoop、HBase、Solr结合起来,设计与实现这样的体系结构:原始微博数据存储在HBase中,利用Hadoop的分布式结构对原始数据进行处理并建立索引,索引最终输出到Solr系统的索引库中。同时,提出一个基于微博兴趣搜索的排名算法,对于微博内容、用户信息权值的权衡设置,搜索时对结果进行排名。这样,最终实现基于微博内容搜索相同兴趣的用户的应用。
关键词:海量数据处理;Hadoop;Solr
Abstract
Nowadays microblogging has become an important tool for communication in people’s life, and it has brought us significant conveniences. Meanwhile, in the process of communicating using microbloging by so many users, there is massive data unstructured being produced.So ,how to process and user this data has become a hot topic. This dissertation will introduce how to use a sea of microbloging data to search for users of the same interest,and a sorted result will be displayed, as we will it interest searching.
The main work of this dissertation is as follows:
Firstly, we must fix the problem of the massive data processing and research of microblogging data. This dissertation has a research and discuss the correlation techniques of massive data storage and processing. We introduce the three core techniques of Google:BigTable,Google File System, MapReduce. And we highlight on the introducing of search engine and solr plat form
Secondly, in the system designed and implemented by ourselves, we combine some excellent open source frameworks like Hadoop, Hbase and Solr. We will discuss them respectively.
Finally, for solving the problem we are fcacing that how to find the users of same interest and return the sorted result, we combine Hadoop,Hbase and solr together.Our main idea is the primal will be stored in HBase, and we will use it in hadoop to build index for solr. Meanwhile, we design a viable algorithm to rank the search results.We set different weights for microblogging content and user information. Then, we finally implement the application of searching for users of the same interests based on the massive microbloggings.
Key Words:Massive data proessing; Hadoop;Solr
目录
第一章 绪论 1
1.1 研究背景 1
1.2 研究现状及存在的问题 1
1.3 论文的主要工作 2
1.4 论文组织结构 2
第二章 系统相关技术介绍 3
2.1 海量数据存储与处理核心技术与原理 3
2.1.2 BigTable技术与原理 3
2.1.3 GFS技术与原理 8
2.1.4 MapReduce编程模型技术及原理 10
2.2 Hadoop平台研究 11
2.2.1 Hadoop简介 11
2.2.2 HDFS文件系统 12
2.3 搜索引擎核心技术及原理 14
2.3.1 全文搜索介绍 14
2.3.2 索引 15
2.3.2 查询 16
2.4 本章小节 19
第三章 Solr平台研究 20
3.1 Solr介绍 20
3.2 Solr体系结构 20
3.3 Solr重点介绍 21
4.1.1 solrconig.xml解读 21
4.1.2 schema.xml解读 23
4.1.2 Solr 服务原理 23
3.4 本章小节 26
第四章 基于海量数据处理的微博兴趣搜索设计与实现 27
4.1 系统体系结构 27
4.2 索引生成 28
4.2.1 微博数据采集并存入HBase 28
4.2.2 MapReduce建立索引 32
4.2.3 Solr建立索引核心配置 34
4.3 搜索过程 35
4.3.1 查询分析 36
4.3.1 查询结果展示 39
4.4 本章小节 40
第五章 系统运行与分析 41
5.1 实验环境 41
5.2 实验平台搭建 41
5.3 实验运行 43
5.3.1 实验数据 43
5.3.2 Solr服务器运行 45
5.4 实验结果 46
5.4.1 索引结果 46
5.4.2 搜索结果 48
5.5 本章小结 51
第六章 总结与展望 52
6.1 论文总结 52
6.2 工作展望 52
参考文献 54
致 谢 56