运行管理
地球数值模拟教育部重点实验室运行管理
发布时间:2020-08-31
实验室自成立以来,针对地球系统模拟对于计算性能、存储容量和性能以及可视化分析等方面的强烈需求,先后构建了一系列的高性能硬件平台:
(1)实验室与国家超级计算无锡中心形成战略合作,与国家超级计算无锡中心共建“地球系统数值模拟联合实验室”,实验室人员可以以最优惠的价格使用“神威•太湖之光”超级计算机。国家超级计算无锡中心2014年经国家科技部批准成立,由科技部、江苏省、无锡市三方共同投资18亿元建设。中心拥有世界上首台峰值运算性能超过十亿亿次浮点运算能力的超级计算机系统-“神威•太湖之光”。实验室主任杨广文教授,以及付昊桓教授和黄小猛副教授领导了清华大学在国家超级计算无锡中心的运营团队,力图将国家超级计算无锡中心打造为高性能计算人才聚集地、大规模并行应用软件研发基地和超算产业创新创业的服务平台。
(2)超百万亿次超级计算机“地球模拟器”
实验室与浪潮集团共同研制超百万亿次超级计算机“地球模拟器”,并于2011年4月15日正式投入使用。“地球模拟器”理论峰值高达168万亿次。其中,包括740个CPU节点,每个节点包含两个6核Intel至强处理器,总共8880个CPU核提供104万亿次的峰值性能;另外有16个GPU节点,提供另外64万亿次的计算性能。以“地球模拟器”强大计算性能为基础,实验室与中科院大气所在四个月时间内,联合完成了政府间气候变化专门委员会(IPCC)第五次评估报告(AR5)耦合模式比较计划(CMIP5)的所有核心试验和部分一级、二级试验。“地球模拟器”同时提供1PB的存储容量,为模式的输入和输出数据的存储和分析提供了良好的平台支持。
(3)数据管理与共享平台
数据是气候变化研究中不可或缺的关键部分。针对数据的管理与共享,实验室也进行了专门的硬件平台建设。实验室在2013年与浪潮集团合作建设了一台专用于地球系统模式数据处理的中型集群(10节点、160核),一个专门用于提供数据共享Web服务的小型集群(64核)以及提供100TB存储容量的存储设备。
(4)面向地球系统模式的高分辨率并行可视化平台
实验室在“地球模拟器”超级计算机平台的基础上,构建了与该高性能计算环境具有相同运行环境的同构高分辨率可视化显示平台,用以支持地球系统模式输出数据的高分辨率可视化显示,可视化显示平台主要包括以下硬件:1)4x6(24块)阵列高分辨率显示单元;2)高性能可视化运行平台;3)高分辨率扩展显示硬件单元;4)高分辨率拼接控制单元。
(5)异构加速器科研平台
随着高性能计算技术的发展,计算性能的主要来源已经从传统的多核CPU集群逐渐转向包含GPU、众核协处理器以及可编程硬件芯片等加速器架构的异构集群。为了探索如何利用这些新型的异构加速器来大幅提升现有地球系统模式程序的性能与效率,实验室与Intel公司、NVIDIA公司以及Maxeler科技有限公司展开广泛合作,利用各大公司捐赠的最新加速器硬件,初步建立了小规模的异构加速器科研平台。该平台目前包含了NVIDIA Fermi C2070 GPU(每芯片448 CUDA核,3GB板上内存)、NVIDIA Kepler K20C GPU(每芯片2496 CUDA核,6GB板上内存)、Intel Xeon Phi 7110e(每芯片61 x86核,8GB板上内存)、Maxeler Max3(每芯片超过百万的可编程硬件逻辑单元,24GB板上内存)等最先进的异构加速器。