tags
type
status
date
slug
summary
category
password
icon
NOTE:超算所有shell环境为Linux
NOTE:在校外需要挂vpn,选择“北大内网”。
超算架构
调用方式一:data节点。可联网,主要用于配置conda的虚拟环境。没有GPU资源,所以无法查看
nvidia-smi,就算配好torch之后,torch.cuda.is_available()仍为False;也因此不宜在上面运行复杂任务调用方式二:网页“桌面”选项创建虚拟桌面。目前看来类似data节点,只是多了图形化界面
调用方式三:作业提交。可以申请到GPU资源,用于执行复杂任务,但应该不可联网。
如果在data节点运行报错
No CUDA runtime is found,是因为data节点没有gpu资源。此时需要通过提交作业来运行。文件传输
最方便的方式是直接通过网页中“文件管理”选项上传。
替代方法:下载XFTP,连接密码是手机软件FreeOTP的动态密码。连接上wm2后,将源码、数据等拖曳上传至
/lustre/home/2300012829。github上的项目可以直接用data节点git clone。不用下载到PC再上传
环境配置
打开scow上的data节点。输入以下命令
安装torch前,应该先用
nvidia-smi查看硬件cuda版本。超算硬件cuda版本为12.6,因此软件cuda版本应该<=12.6。安装pytorch后,可以用torch.version.cuda查看软件cuda版本如果在
import torch时出现python3.10/site-packages/torch/lib/libtorch_cpu.so: undefined symbol: iJIT_NotifyEvent ,是因为mkl版本太高。用conda install mkl=2023.1 -c conda-forge回退版本可以解决这一问题(暂时不确定会不会引发别的问题)配置完成后查看
conda list 如下channel为“pypi”的是通过pip安装的,“nvidia”是安装pytorch的结果
提交作业
(也可以用login节点实现,不可联网):通过scow平台上“提交作业”进行,输入脚本内容如下。注意要把分区改为gpu。不能直接用login节点计算,只能通过login节点提交作业,然后由系统分配至计算节点进行计算。
module的另一些常见指令见Module 使用 - 北京大学高性能计算校级公共平台用户文档
除了导入平台现有的anaconda,也可以在自己的目录下安装anaconda并导入。
- 作者:Tianyao Xiao
- 链接:https://www.xty27.top/article/pkuhpc
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。




.webp?table=block&id=25c9eb83-9bee-807c-9d8c-f33f89eaa541&t=25c9eb83-9bee-807c-9d8c-f33f89eaa541)


