官方微博官方微信
简体中文 | English

运行管理

实验室CESS集群使用说明

发布时间:2020-09-14

为了清华地球系统模式发展的需要,2014年底我实验室多位老师集资购买了CESS高性能计算集群,之后地学系对集群进行了升级扩容,集群的运算能力逐步增加,目前集群拥有2000 CPU核,存储1PB。为了计算设备能得到更合理的使用和更良性的发展,拟定使用规则如下:

 

收费标准CESS集群将按照学校批准的地学系高性能计算机服务平台的收费标准进行统计和收费。

1、  高性能计算费用按每CPU核每小时0.1元计算。以每周并行科技公司统计发布的每位老师课题组账号下的使用机时为参考,计算费用。

2、  集群存储空间按每TB每年360元计算。以每周并行科技公司统计发布的每位老师课题组账号下的存储空间占用情况为参考,计算费用。

3、  并行科技公司提供的各位老师课题组使用资源的统计数据仍在每周一通过群发邮件发布(数据形式自11月第一个周一起将有所改变,请参见excel文件)。

4、  每年度的机时费收费事宜由地学系刘晓婷老师负责(每年度的费用自111日起始统计,于下一年的11月收取之前一年的费用),如有老师希望提前向系内预付机时费,也可随时联系刘晓婷老师。

 

使用规则

1、  目前此服务器只配置用于运行NCAR CESM及相关分量模式,其运行环境不能兼容其他气候模式。CMIP6模式结果提交之前,暂时只考虑为发展我系地球系统模式的老师提供服务。CMIP6模式工作结束后,CESS服务器未来的运营模式再由老师们和系里共同协商决定。

2、  CESS集群从2018111日起正式交由地学系办公室管理,武海平老师担任管理委员会主任,由黄小猛和彭怡然两位老师担任管理委员会副主任。日常管理事务负责人刘晓婷、陈磊和张婷婷三位老师。如各位老师对CESS集群的管理规则有任何意见和建议,或遇到特殊个例、无规则可循时,请向两位副主任提出,由管委会老师们一事一议、共同协商解决,并经副主任和主任商讨后决定是否列为常规规则。

3、  请管委会的老师们负责约束自己课题组内的博士后和研究生们,按照以下列出的集群使用常规规则进行操作,如有违规操作,我们会提出警示、并协助解决相关问题,尽量不影响多数师生对集群的使用。每位老师在服务器上有一个教师账号xxx,一个学生账号xxx_stu,有的博士后也会建立一个单独账号,每位老师名下的学生账号和博士后账号对该老师的账号全部可见。

 

集群常规使用注意事项:

1、 请不要在登录节点(管理节点)上运行任何程序,包括NCL,FORTRAN,MATLAB等。在登录节点上运行计算程序可能导致机器严重变慢甚至崩溃,所有用户都会受到影响。如果需要调试程序或简单处理数据,请ssh b1n41~43,这三台机器是我们的调试节点;

2、 每个用户目录下都有WORK1~5四个共享目录,所有的数据请均衡的放到这四个目录。请大家经常使用df -h命令看看存储的余量,然后决定数据该放在WORK1~5的哪个目录。但需要注意每个WORK存储下不要超过90%,且设备整体存储不要超过70%,否则会很容易导致系统崩溃、数据损毁。当存储超过临界比例时,管理员会及时提醒大家转移数据,也请一定配合。另外切记不要把数据放在/home/$USER目录下,/home/$USER这个目录使用的是登录节点的本地硬盘,空间很小。

3、 请各位在提交长时间的计算作业前,将其拆分为多个小规模计算作业,每个作业的计算时间控制在24小时之内,善用resubmit重新提交计算。我们在CESS服务器上进行设置,每个计算作业运行超过24小时即强制kill。因此请各位注意调整自己的计算作业脚本,确保每次提交的作业计算不超过24小时。

4、 请各研究组将同一时间内运行作业所占用的核数控制在400核以内。 如果组内已有人占用了大量计算核数在运行作业,请等待本组占用者的作业运行完毕再提交,或者与占用者私下协调可用的CPU核数。如果有研究组内的成员需要在同一时间占用超过600核以上的CPU计算资源,请联系本组老师与其他老师们协调。

5、 CESS集群的编译器使用的是icc、fort(intel compiler 2013),mpi使用的是intel mpi,编译并行程序使用mpiifort编译器即可;netcdf相关库均已安装在$ESM_SOFT目录下(/home/share/cesm/software/esm-soft);

6、 CESS集群有HPCA和HPCB两个队列,提交作业时需要指定队列。HPCA是20CPU/节点,而HPCB是28CPU/节点。如果在HPCB上提交的作业只用20CPU/节点的设置运行,每个节点上的剩余8核CPU就会被空置,其他人也无法使用,造成很大的浪费。建议各位师生在HPCB上运行作业时把配置改为28CPU/节点,这样可以充分利用计算资源,避免无谓的浪费。

7、 有任何关于集群使用的技术问题(如提交作业、设备配置、运行时间、运行故障等)均可以在微信大群里发问,并行科技公司的系统管理员会帮助解决软件和作业问题,联泰科技公司技术人员会帮助解决硬件问题。