常见问题

温馨提示:

HPC部分运行作业时,master3是登录管理节点,不是计算节点,不要ssh远程登录或者web terminal登录到master3上直接跑程序,这样会影响正常作业,我们发现后会杀死作业。正确方式是登录到master3管理节点后,cd切到自己的个人目录下,sbatch提交脚本文件,申请计算节点来运行程序。

AI开发环境(DSW)每天自动停止?

AI开发环境是满足用户交互式环境搭建需求的,采用资源独占模式,因平台AI资源有限,为了AI资源能被尽量多的用户使用,平台每天6点会自动释放资源,所以用户应注意在此时间之前保存好AI开发环境,避免数据丢失。如需执行长时间AI任务,可在AI任务管理模块内提交任务,该模块目前没有时间限制。

DSW开发配置好的镜像在AI任务管理中运行出错?

可能的原因是DSW环境下安装模块时使用的是普通用户权限,而AI任务管理中默认是root权限,安装权限不同环境变量可能会有所差别,这可能会导致在AI任务管理中运行已在DSW中配置好的镜像提示没有安装module,所以建议进入DSW环境中时要切换到root权限,搭建环境。

注意:AI环境下用户执行sudo su命令可切到root权限,HPC环境下用户只有普通权限不能切到root权限。

在校外如何使用高性能计算平台?

校外登录高性能计算平台是采用学校统一的VPN客户端进行登录,目前只有教师有VPN客户端账号登录权限。

北京校区用户:qq群文件中有北京校区VPN客户端安装包,可自行安装。VPN客户端使用方法:新建连接,名称自己创建,服务器URL为:vpn.ncepu.edu.cn,用户名密码为教师的VPN客户端账号密码。

保定校区用户:登录https://ycbg.ncepu.edu.cn,(注意不要用校园网登录,校园网登录不上此网页),根据网页上的提示下载保定校区VPN客户端。VPN客户端使用方法:新建连接,名称自己创建,服务器URL为:ycbg.ncepu.edu.cn,用户名密码为教师的VPN客户端账号密码。保定校区的教师目前直接登录上VPN客户端,也没有访问高性能计算中心的权限,需要向保定校区网信办进行vpn资源申请,具体情况请咨询保定校区网信处。

平台中的显卡驱动版本?

显卡驱动版本为:470.199.02,安装在物理机上,普通用户不可更改。

显卡驱动版本支持CUDA11.8及以下版本。

如果用户所需CUDA版本公共镜像中没有,可自行拉取镜像,或在公共镜像中卸载原有CUDA与CUDNN,安装自己所需版本。

8.png

9.png

如何跨节点调度GPU卡?

假如集群中资源还剩4张卡但分别在gpu01和gpu02上,调度4张卡跑任务,可在AI任务管理中新建任务,选择两个节点数量和4张GPU卡数,平台会在gpu01、gpu02节点各申请两张卡生成两个容器,容器间可以互相通信,点击进入容器按钮即可进入容器操作。

10.png

以下是一个跨界点调度的代码示例,用户可以参考一下

代码实例

Megatron

export WORKSPACE="/xxxx/xxxx/xxxx

export DATADIR="$WORKSPACE/gpt-bpe

torchrun \

--nnodes $WORLD_SIZE \

--node_rank $RANK \

--nproc_per_node gpu \

--master_addr $MASTER_ADDR \

--master_port $MASTER_PORT \

-m xxxx.xxxx \

--num-layers 32 \

--num-attention-heads 32 \

--hidden-size 4096 \

--seq-length 2048 \

--max-position-embeddings 2048 \

--micro-batch-size 5 \

--global-batch-size $(($WORLD_SIZE*5*32)) \

--bf16 \

--use-flash-attn \

--use-rotary-position-embeddings \

--use-distributed-optimizer \

--swiglu \

--tensor-model-parallel-size 1 \

--pipeline-model-parallel-size 4 \

--sequence-parallel \

--recompute-activations \

--recompute-granularity selective \

--lr 2.0e-4 \

--min-lr 2.0e-4 \

--vocab-file $DATADIR/gpt2-vocab.json \

--merge-file $DATADIR/gpt2-merges.txt \

--data-path $DATADIR/enwiki-20230526-pages-articles \

--train-iters 30 \

--log-interval 10


deepspeed

cd /mnt/xxx

python -m torch.distributed.launch \

--nproc_per_node="8" \

--nnodes="$WORLD_SIZE" \

--node_rank="$RANK" \

--master_addr="$MASTER_ADDR" \

--master_port="$MASTER_PORT" \

./train.py \

--deepspeed \

--task_name 33b \

--deepspeed_config ds_config.json

如何远程连接到AI开发环境?

点击AI开发环境中的“远程链接”按钮后出现链接地址,格式诸如:

ssh -p 30087 t50501324@172.168.0.3,需要把IP地址修改为映射后的IP:202.204.64.231,链接地址改为ssh -p 30087 t50501324@202.204.64.231,使用XShell或Putty或其他ssh工具访问这个地址,登录密码:admin

如何远程连接到HPC开发环境?

SSH远程链接登录节点IP:202.204.64.225 端口号:55322 用户名:(t/s+工号/学号)例如:t52702890,s120222212099 密码:admin

注意:远程到HPC环境后要进入个人目录下提交作业。

用户ssh远程链接后所在目录位置为登录节点的home目录,提交作业需要进入共享存储中的个人目录,在文件管理中找到个人目录地址进行复制,执行命令:cd <个人目录地址>。

11.png

12.png

如何安装类似vasp这种软件?

Module使用:用户也可通过执行module avail或ml av查看集群可用的模块,使用module load**命令加载模块使用。例如集群已经安装了vasp软件,用户可执行module load CentOS/7.9/vasp/5.4.4/intel2022u2命令即可使用vasp。

如果module中没有用户所需软件,可以参考以下方法:

1.用户可以在个人目录下安装配置所需软件,cd进入共享存储中的个人目录,即/nfs01/projects/项目编码/用户名/(在文件管理-个人目录中可以复制此目录),在此路径下进行软件安装,如需声明环境变量,可在个人目录中创建一个脚本文件,将环境变量命令写进去,每次运行软件前执行这个脚本就行,脚本可以命名为setvar.sh。自己安装如有困难,可以联系高性能计算平台。

2.由于apt安装命令需要root权限,在HPC环境下用户只有普通权限,用户可以选择conda命令。conda支持多种语言和商业软件,conda 作为一个环境管理工具,允许用户轻松创建、保存、加载不同的环境,能够解决不同项目间依赖包版本冲突的问题。平台上安装了anaconda,可以通过 module avail 查看,并通过 module load 加载。

3. 可以使用singularity容器,执行module load CentOS/7.9/singularity/3.9.2加载singularity模块,执行singularity相关命令拉取自己所需镜像。另外singularity容器已经开启了fakeroot功能,也可以选择开启沙盒模式在容器中使用apt方式安装软件。

HPC运行作业的方式?

本平台支持三种HPC作业方式,具体包括:

1.本平台可以ssh远程链接登录节点或HPC任务管理Web Terminal远程链接登录节点,通过sbatch命令提交脚本进行计算。

2.本平台HPC开发环境对于新用户来说更加简单直观,通过HPC开发环境的图形化界面操作申请连接到计算节点,可以直接进行计算操作;为了方便用户使用,开发环境有两种使用模式,习惯用命令行的用户可以选择terminal方式,如需图像化界面用户可以选择VNC图像化界面。

3.HPC任务管理界面提交作业可以直接将作业提交到计算节点进行计算,对于不习惯命令行操作的用户比较友好。

HPC个人账户密码修改?

普通用户登录集群后默认密码都为admin,如需更改密码,用户可用yppasswd命令更改自己账户密码。

$ yppasswd

Changing NIS account information for tester on master0.

Please enter old password:

Changing NIS password for tester on master0.

Please enter new password:

Please retype new password:


The NIS password has been changed on master0.