tags
type
status
date
slug
summary
category
password
icon
NOTE:超算所有shell环境为Linux
NOTE:在校外需要挂vpn,选择“北大内网”。

超算架构

调用方式一:data节点。可联网,主要用于配置conda的虚拟环境。没有GPU资源,所以无法查看nvidia-smi,就算配好torch之后,torch.cuda.is_available()仍为False;也因此不宜在上面运行复杂任务
调用方式二:网页“桌面”选项创建虚拟桌面。目前看来类似data节点,只是多了图形化界面
调用方式三:作业提交。可以申请到GPU资源,用于执行复杂任务,但应该不可联网。
💡
如果在data节点运行报错No CUDA runtime is found,是因为data节点没有gpu资源。此时需要通过提交作业来运行。

文件传输

最方便的方式是直接通过网页中“文件管理”选项上传。
替代方法:下载XFTP,连接密码是手机软件FreeOTP的动态密码。连接上wm2后,将源码、数据等拖曳上传至/lustre/home/2300012829
github上的项目可以直接用data节点git clone。不用下载到PC再上传

环境配置

打开scow上的data节点。输入以下命令
💡
安装torch前,应该先用nvidia-smi查看硬件cuda版本。超算硬件cuda版本为12.6,因此软件cuda版本应该<=12.6。安装pytorch后,可以用torch.version.cuda查看软件cuda版本
如果在import torch时出现python3.10/site-packages/torch/lib/libtorch_cpu.so: undefined symbol: iJIT_NotifyEvent ,是因为mkl版本太高。用conda install mkl=2023.1 -c conda-forge回退版本可以解决这一问题(暂时不确定会不会引发别的问题)
配置完成后查看conda list 如下
channel为“pypi”的是通过pip安装的,“nvidia”是安装pytorch的结果

提交作业

(也可以用login节点实现,不可联网):通过scow平台上“提交作业”进行,输入脚本内容如下。注意要把分区改为gpu。不能直接用login节点计算,只能通过login节点提交作业,然后由系统分配至计算节点进行计算。
除了导入平台现有的anaconda,也可以在自己的目录下安装anaconda并导入。
 
 
C++Conda
Loading...