基于Lustre文件系统的MPI检查点系统实现技术与性能测试_论文

计算机研究与发展 Journal of Computer Research and Development ISSN 100021239Π CN 1121777ΠTP 44 (10) : 1709 ~1716 , 2007 基于 L ustr e 文件系统的 MP I 检查点系统实现技术与性能测试 谢     卢宇彤  周恩强  曹宏嘉  杨学军 ( 国防科学技术大学计算机学院   长沙   410073) ( xmxmxie @ gmail1com ) Implemen ta t ion an d Eval ua t ion of MP I Checkpoin t in g Syst em over L ustr e File System Xie Mi n , Lu Yutong , Zhou Enqiang , Cao Hongjia , and Yang Xuejun ( School of Comp uter Science , N atio nal U n ivers ity of Defense Tech nolog y , Ch an gs ha 410073) Abstra ct   o ne of t he most i mpo rt ant fault2tolerant t ech niques , coo rdinated checkpoi nt based rollback2 As recovery has been adopted in large scale parallel comput er syst ems1 Coordinating protocol and checkpoint i mage storage are two major factors t hat affect t he overhead of parallel checkpoint ing systems1 A novel application2t ransparent parallel checkpoi nting system implemented in M PICH2 is proposed1 Compared wit h t he existi ng t echniques , the advant ages of t hi s system are summarized as follows : 1) Utilize t he feat ure of near2neighbor communication i n applications and virt ual connection met hod to reduce t he number of internal messages exchanged in coordinati ng stage , and hence to reduce t he lat ency of protocol processing ; 2) Store checkpoi nt images using L ustre file system to si mplif y t he checkpoi nt files management ; and 3) Implement parallel IΠ in i mage storage st age to improve t he system performance1 Experi ments suggest t hat the O approach proposed result s in low runti me overhead and enhances system scalabilit y1 Key wor ds   fault2tolerant ; M PIC H2 ; rollback2recovery ; coordi nated checkpoint ; Lust re file syst em 摘    要 基于协同式检查点的回卷恢复是在大规模并行计算机系统中得到采用的一项重要容错技术 ,其 性能开销主要为协同协议和检查点映像存储所决定1 描述了一个在 M P ICH2 中实现的应用透明的并行 检查点系统 ,相比已有的技术 ,该系统有以下特点 : 1 ) 协同协议操作利用了并行应用的近邻通信特性 , 通过虚连接方法减少协议的处理开销 ;2) 采用 Lust re 文件系统简化检查点映像文件管理的复杂性 ; 3) 通过并行 IΠ 操作提高性能 ,优化检查点映像的存储过程1 实际应用的测试表明 ,该检查点系统具有较 O 小的运行时间开销和良好的可扩展性1 关键词   容错技术 ;M P ICH2 ;回卷恢复 ; 协同式检查点 ;Lust re 文件系统 中图法分类号  TP316 14    并行计算机系统在规模扩大的同时带来系统可 靠性的降低 ,一些大规模并行系统的平均故障间隔 时间 ( mean t ime to i nterrupt , M TTI) 甚至只有几小 时 ,但如果系统不能提供容错支持 ,也将严重影响应 用的可扩展性和系统可用性1 M P I 是事实上的消息 传递并行编程接口标准 ,但缺乏容错相关的接口 ,因 此 M PI 并行应用在系统出现故障时 ,通常只能终止 运行 ,然后再从头开始重新执行 ,这不仅浪费大量计 算时间 ,而且如果系统的 M TTI 时间小于并行应用 的执行时间 ,则应用将始终无法成功完 成1 基于检 查点的回卷恢复是实现容错的一个重要技术 ,通过 检查点 ,应用的状态被保存到稳定存储设备上 ,当系   收稿日期 : 2007 - 02 - 2 5 ; 修回日期 : 2007 - 07 - 30   基金项目 : 国家自然科学基金项目 ( 60 62100 3 , 60 57 31 35) ;国家 “八六三” 高技术研究发展计划基金项

相关文档

Lustre文件系统的性能优化研究
集群文件系统lustre的介绍及应用
基于Lustre文件系统的MPI检查点系统实现技术与性能测试
基于组态软件的列车防滑器电磁阀组件性能测试技术研究
基于燃烧假人技术的服装阻燃防护性能测试评价系统
虚拟仪器技术在低压电器短路性能测试系统中的应用
分布式网络技术在燃气轮机性能测试系统中的应用
基于柔性测试技术的低压电器性能测试系统设计
基于虚拟仪器技术的内燃机性能测试系统的设计
基于M&S方法的指挥系统性能测试关键技术研究
电脑版