网格数据流应用中任务管理和资源分配的算法设计和优化.doc
约53页DOC格式手机打开展开
网格数据流应用中任务管理和资源分配的算法设计和优化,53页共计17476字中文摘要上个世纪90年代早期网格计算的理念被提出,这这项技术旨在整合网络中的计算资源,使其能够达到电力网络中的电力“即插即用”的效果,它被认为是“下一代网络框架的基石”。数据流应用是网格计算框架中的一个重要的组成部分,特别是在处理海量数据的传输及实时处理时,需要综合考虑网络带宽资源、计算网络的存储...
内容介绍
此文档由会员 bfxqt 发布
53页共计17476字
中文摘要
上个世纪90年代早期网格计算的理念被提出,这这项技术旨在整合网络中的计算资源,使其能够达到电力网络中的电力“即插即用”的效果,它被认为是“下一代网络框架的基石”。数据流应用是网格计算框架中的一个重要的组成部分,特别是在处理海量数据的传输及实时处理时,需要综合考虑网络带宽资源、计算网络的存储资源及计算资源等的各种限制性条件,此时采用流式数据传输及实时处理是一种适宜的选择,但如今数据流应用目前来说尚不成熟,因而对其进行研究和探索是非常有意义的工作。
本文的工作主要包括下面二个方面:一是结合美国Laser Interferometer Gravitational-wave Observatory (LIGO)这个实际工程项目背景构建一套基于网格计算网络的数据流应用框架和机制包括寻求令人满意的任务管理和资源分配的解决方案;二是进行模拟仿真和以Globus、Condor等现有的网格计算平台工具搭建现实网络,进行实际测试。
通过测试可以发现,引入按需传输数据和及时数据清理等机制可以满足应用的要求,使得计算网络在有限的存储及带宽的条件下尽量充分地利用其计算资源,在整个过程中海量数据不断地以数据流的方式进行传输。实验结果还表明我们的网络环境具有良好的健壮性和自适应性。
当然本文所做的工作还有许多不足,考虑多个数据处理应用间的数据分享问题,尝试利用除遗传算法之外的其他启发式算法进行优化,扩宽我们实验的计算网络等都是本文后续可以研究的方向。
目 录
第1章 网格计算及文章结构 1
1.1 网格计算的起源及发展 1
1.1.1 什么是网格计算 1
1.1.2 网格计算的起源 2
1.1.3 驱动网格计算发展的经济动力 2
1.1.4 当今网格计算的主要应用 3
1.1.5 网格计算的未来 3
1.2 问题提出 4
1.2.1 LIGO项目 4
1.2.2数据流需求 5
1.3 本文的工作及文章结构 7
1.3.1 本文的工作 7
1.3.2 文章的结构 7
第2章 数据流应用框架和机制 9
2.1 系统框架 9
2.2 任务管理 13
2.2.1 任务管理工作流程 13
2.2.2 任务管理的优化机制和算法 14
2.3 资源调度 15
2.3.1 资源调度工作流程 15
2.3.2 存储管理的优化机制和算法 17
2.3.3 网络传输的优化机制和算法 19
第3章 数据流应用系统测试和结果分析 21
3.1 计算机模拟仿真测试 21
3.1.1 数据流应用系统的模拟实现框架结构 21
3.1.2 进行测评的实验数据 22
3.1.3 调度管理程序流程图 24
3.1.4 测试结果及分析 25
3.2 搭建Condor计算网络测试 28
3.2.1 Condor和Condor环境 29
3.2.2 Condor网络数据流实验 30
3.2.3 测试结果及分析 31
第4章 结论及展望 33
插图索引 34
表格索引 36
参考文献 37
致 谢 39
关键词:网格计算 数据流应用 任务管理 资源分配
参考文献
[9] B. Agarwalla, N. Ahmed, D. Hilley, and U. Ramachandran, “Streamline: a Scheduling Heuristic for Streaming Applications on the Grid”, in Proc. SPIE Multimedia Computing and Networking, Vol. 6071, 2006.
[10] B. Agarwalla, N. Ahmed, D. Hilley, and U. Ramachandran, “Streamline: Scheduling Streaming Applications in a Wide Area Environment”, Multimedia Systems, Vol. 13, No. 1, pp. 69-85, 2007.
[11] B. Allcock, J. Bester, J. Bresnahan, A. L. Chervenak, I. Foster, C. Kesselman, S. Meder, V. Nefedova, D. Quesnal, and S. Tuecke, “Data Management and Transfer in High Performance Computational Grid Environments”, Parallel Computing, Vol. 28, No. 5, pp. 749-771, 2002.
[12] E. Deelman, C. Kesselman, G. Mehta, L. Meshkat, L. Pearlman, et. al., “GriPhyN and LIGO, Building a Virtual Data Grid for Gravitational Wave Scientists”, in Proc. 11th IEEE Int. Symp. on High Performance Distributed Computing, pp. 225-234, 2002.
[13] I. Foster and C. Kesselman, “Globus: A Metacomputing Infrastructure Toolkit”, Int. J. Supercomputer Applications, Vol. 11, No. 2, pp. 115-128, 1997.
[14] A. Ramakrishnan, G. Singh, H. Zhao, E. Deelman, R. Sakellariou, K. Vahi, K. Blackburn, D. Meyers, and M. Samidi, “Scheduling Data-intensive Workflow onto Storage-Constrained Distributed Resources”, in Proc. 7th IEEE Int. Symp. on Cluster Computing and the Grid, Rio de Janeiro, Brazil, pp. 401-409, 2007.
[15] Y. Zhu and D. Shasha, “Statstream: Statistical Monitoring of Thousands of Data Streams in Real Time”, Technical Report TR2002-827, CS Dept, New York University, 2002.
[16] S. Klasky, S. Ethier, Z. Lin, K. Martins, D. McCune and R. Samtaney, “Grid-Based Parallel Data Streaming Implemented for the Gyrokinetic Toroidal Code”, in Proc. ACM/IEEE Supercomputing Conf., 2003.
中文摘要
上个世纪90年代早期网格计算的理念被提出,这这项技术旨在整合网络中的计算资源,使其能够达到电力网络中的电力“即插即用”的效果,它被认为是“下一代网络框架的基石”。数据流应用是网格计算框架中的一个重要的组成部分,特别是在处理海量数据的传输及实时处理时,需要综合考虑网络带宽资源、计算网络的存储资源及计算资源等的各种限制性条件,此时采用流式数据传输及实时处理是一种适宜的选择,但如今数据流应用目前来说尚不成熟,因而对其进行研究和探索是非常有意义的工作。
本文的工作主要包括下面二个方面:一是结合美国Laser Interferometer Gravitational-wave Observatory (LIGO)这个实际工程项目背景构建一套基于网格计算网络的数据流应用框架和机制包括寻求令人满意的任务管理和资源分配的解决方案;二是进行模拟仿真和以Globus、Condor等现有的网格计算平台工具搭建现实网络,进行实际测试。
通过测试可以发现,引入按需传输数据和及时数据清理等机制可以满足应用的要求,使得计算网络在有限的存储及带宽的条件下尽量充分地利用其计算资源,在整个过程中海量数据不断地以数据流的方式进行传输。实验结果还表明我们的网络环境具有良好的健壮性和自适应性。
当然本文所做的工作还有许多不足,考虑多个数据处理应用间的数据分享问题,尝试利用除遗传算法之外的其他启发式算法进行优化,扩宽我们实验的计算网络等都是本文后续可以研究的方向。
目 录
第1章 网格计算及文章结构 1
1.1 网格计算的起源及发展 1
1.1.1 什么是网格计算 1
1.1.2 网格计算的起源 2
1.1.3 驱动网格计算发展的经济动力 2
1.1.4 当今网格计算的主要应用 3
1.1.5 网格计算的未来 3
1.2 问题提出 4
1.2.1 LIGO项目 4
1.2.2数据流需求 5
1.3 本文的工作及文章结构 7
1.3.1 本文的工作 7
1.3.2 文章的结构 7
第2章 数据流应用框架和机制 9
2.1 系统框架 9
2.2 任务管理 13
2.2.1 任务管理工作流程 13
2.2.2 任务管理的优化机制和算法 14
2.3 资源调度 15
2.3.1 资源调度工作流程 15
2.3.2 存储管理的优化机制和算法 17
2.3.3 网络传输的优化机制和算法 19
第3章 数据流应用系统测试和结果分析 21
3.1 计算机模拟仿真测试 21
3.1.1 数据流应用系统的模拟实现框架结构 21
3.1.2 进行测评的实验数据 22
3.1.3 调度管理程序流程图 24
3.1.4 测试结果及分析 25
3.2 搭建Condor计算网络测试 28
3.2.1 Condor和Condor环境 29
3.2.2 Condor网络数据流实验 30
3.2.3 测试结果及分析 31
第4章 结论及展望 33
插图索引 34
表格索引 36
参考文献 37
致 谢 39
关键词:网格计算 数据流应用 任务管理 资源分配
参考文献
[9] B. Agarwalla, N. Ahmed, D. Hilley, and U. Ramachandran, “Streamline: a Scheduling Heuristic for Streaming Applications on the Grid”, in Proc. SPIE Multimedia Computing and Networking, Vol. 6071, 2006.
[10] B. Agarwalla, N. Ahmed, D. Hilley, and U. Ramachandran, “Streamline: Scheduling Streaming Applications in a Wide Area Environment”, Multimedia Systems, Vol. 13, No. 1, pp. 69-85, 2007.
[11] B. Allcock, J. Bester, J. Bresnahan, A. L. Chervenak, I. Foster, C. Kesselman, S. Meder, V. Nefedova, D. Quesnal, and S. Tuecke, “Data Management and Transfer in High Performance Computational Grid Environments”, Parallel Computing, Vol. 28, No. 5, pp. 749-771, 2002.
[12] E. Deelman, C. Kesselman, G. Mehta, L. Meshkat, L. Pearlman, et. al., “GriPhyN and LIGO, Building a Virtual Data Grid for Gravitational Wave Scientists”, in Proc. 11th IEEE Int. Symp. on High Performance Distributed Computing, pp. 225-234, 2002.
[13] I. Foster and C. Kesselman, “Globus: A Metacomputing Infrastructure Toolkit”, Int. J. Supercomputer Applications, Vol. 11, No. 2, pp. 115-128, 1997.
[14] A. Ramakrishnan, G. Singh, H. Zhao, E. Deelman, R. Sakellariou, K. Vahi, K. Blackburn, D. Meyers, and M. Samidi, “Scheduling Data-intensive Workflow onto Storage-Constrained Distributed Resources”, in Proc. 7th IEEE Int. Symp. on Cluster Computing and the Grid, Rio de Janeiro, Brazil, pp. 401-409, 2007.
[15] Y. Zhu and D. Shasha, “Statstream: Statistical Monitoring of Thousands of Data Streams in Real Time”, Technical Report TR2002-827, CS Dept, New York University, 2002.
[16] S. Klasky, S. Ethier, Z. Lin, K. Martins, D. McCune and R. Samtaney, “Grid-Based Parallel Data Streaming Implemented for the Gyrokinetic Toroidal Code”, in Proc. ACM/IEEE Supercomputing Conf., 2003.