毕业论文-基于hadoop的pagerank算法实现.doc
毕业论文-基于hadoop的pagerank算法实现,基于hadoop的pagerank算法实现 ,内容规范详实,完全符合毕业论文要求目 录摘 要1abstract2第1章 绪论31.1 算法设计的开发背景31.2 国内外研究现状31.3 解决的主要工作41.5 论文的组织结构4第2章hadoop架构及mapreduce模式介绍62.1 hadoop架构介绍62.1.1 ...
内容介绍
此文档由会员 细雨暖阳 发布基于Hadoop的PageRank算法实现 ,内容规范详实,完全符合毕业论文要求
目 录
摘 要 1
ABSTRACT 2
第1章 绪论 3
1.1 算法设计的开发背景 3
1.2 国内外研究现状 3
1.3 解决的主要工作 4
1.5 论文的组织结构 4
第2章Hadoop架构及MapReduce模式介绍 6
2.1 Hadoop架构介绍 6
2.1.1 Hadoop的简介 6
2.1.2 MapReduce计算模型 7
2.1.3 分布式并行运算 9
第3章 PageRank算法 10
3.1 PageRank算法公式 10
3.2 PageRank算法原理 11
3.3 Map/Reduce 下的算法设计 13
第4章 PageRank算法的设计与实现 14
4.1 Hadoop的平台搭建与环境设置 14
4.2 PageRank算法代码是java实现 18
4.3 运行与结果分析 32
第5章 结论 35
致谢 35
参考文献 36
附录1 英文原文 36
附录2 译文 37
基于Hadoop的PageRank算法实现
摘 要
随着Internet数据的爆炸性增长,传统的技术架构已经越来越不适应当前海量数据处理的要求。要从如此海量的信息中处理数据,构建一个具有分布式处理能力的系统就显得很有意义了。
在此背景下,Hadoop应运而生,Map/Redcue的编程模型为之找到了一个很好的解决方案。PageRank,是一种由搜索引擎根据网页之间相互的超链接计算的网页排名技术,本文在Hadoop平台下应用Map/Reduce模式将其实现。
本文首先分析了Map/Reduce编程模型的运行原理及其优点,其次了解Map/Reduce的开源实现版本--Hadoop分布式处理平台,在此基础上将PageRank算法按照Map/Reduce模型进行设计,充分利用Hadoop的并行分布式计算优点,用Java语言实现。最后对New York Times数据集进行测试,对实验结果进行分析。
关键字:Hadoop;MapReduce;PageRank;并行分布式实现
ABSTRACT
With the explosive growth of the Internet data,the traditional technology framework can no longer adapt to the processing requirements of the mess data .From such a vast amount information to process data,it is very significant to construct a system with distributed processing .
In this context,Hadoop came into being.Map/Reduce programming model provides a good solution for it.PageRank ,is a search engine based on web pages by the hyperlinks between the calculate page rank technology.This paper based on the Hadoop platform to implement it.
This paper analyzes the Map / Reduce programming model of the operating principle and advantages, followed by the understanding of Map / Reduce the open source implementation version - Hadoop distributed processing platform that will be on this basis, PageRank algorithm in accordance with the Map / Reduce model design, full Parallel distributed computing using Hadoop advantages of using Java language.
Finally,New York Times data set for testing.
Keyword: Hadoop;MapReduce;PageRank;Parallel distributed implementation