常见问题
时间: 2024-04-25 来源:
温馨提示:
HPC部分运行作业时,master3是登录管理节点,不是计算节点,不要ssh远程登录或者web terminal登录到master3上直接跑程序,这样会影响正常作业,我们发现后会杀死作业。正确方式是登录到master3管理节点后,cd切到自己的个人目录下,sbatch提交脚本文件,申请计算节点来运行程序。
AI开发环境(DSW)每天自动停止?
AI开发环境是满足用户交互式环境搭建需求的,采用资源独占模式,因平台AI资源有限,为了AI资源能被尽量多的用户使用,平台每天6点会自动释放资源,所以用户应注意在此时间之前保存好AI开发环境,避免数据丢失。如需执行长时间AI任务,可在AI任务管理模块内提交任务,该模块目前没有时间限制。
DSW开发配置好的镜像在AI任务管理中运行出错?
可能的原因是DSW环境下安装模块时使用的是普通用户权限,而AI任务管理中默认是root权限,安装权限不同环境变量可能会有所差别,这可能会导致在AI任务管理中运行已在DSW中配置好的镜像提示没有安装module,所以建议进入DSW环境中时要切换到root权限,搭建环境。
注意:AI环境下用户执行sudo su命令可切到root权限,HPC环境下用户只有普通权限不能切到root权限。
在校外如何使用高性能计算平台?
校外登录高性能计算平台是采用学校统一的VPN客户端进行登录,目前只有教师有VPN客户端账号登录权限。
北京校区用户:qq群文件中有北京校区VPN客户端安装包,可自行安装。VPN客户端使用方法:新建连接,名称自己创建,服务器URL为:vpn.ncepu.edu.cn,用户名密码为教师的VPN客户端账号密码。
保定校区用户:登录https://ycbg.ncepu.edu.cn,(注意不要用校园网登录,校园网登录不上此网页),根据网页上的提示下载保定校区VPN客户端。VPN客户端使用方法:新建连接,名称自己创建,服务器URL为:ycbg.ncepu.edu.cn,用户名密码为教师的VPN客户端账号密码。保定校区的教师目前直接登录上VPN客户端,也没有访问高性能计算中心的权限,需要向保定校区网信办进行vpn资源申请,具体情况请咨询保定校区网信处。
平台中的显卡驱动版本?
显卡驱动版本为:470.199.02,安装在物理机上,普通用户不可更改。
显卡驱动版本支持CUDA11.8及以下版本。
如果用户所需CUDA版本公共镜像中没有,可自行拉取镜像,或在公共镜像中卸载原有CUDA与CUDNN,安装自己所需版本。
如何跨节点调度GPU卡?
假如集群中资源还剩4张卡但分别在gpu01和gpu02上,调度4张卡跑任务,可在AI任务管理中新建任务,选择两个节点数量和4张GPU卡数,平台会在gpu01、gpu02节点各申请两张卡生成两个容器,容器间可以互相通信,点击进入容器按钮即可进入容器操作。
以下是一个跨界点调度的代码示例,用户可以参考一下
代码实例Megatronexport WORKSPACE="/xxxx/xxxx/xxxx export DATADIR="$WORKSPACE/gpt-bpe torchrun \ --nnodes $WORLD_SIZE \ --node_rank $RANK \ --nproc_per_node gpu \ --master_addr $MASTER_ADDR \ --master_port $MASTER_PORT \ -m xxxx.xxxx \ --num-layers 32 \ --num-attention-heads 32 \ --hidden-size 4096 \ --seq-length 2048 \ --max-position-embeddings 2048 \ --micro-batch-size 5 \ --global-batch-size $(($WORLD_SIZE*5*32)) \ --bf16 \ --use-flash-attn \ --use-rotary-position-embeddings \ --use-distributed-optimizer \ --swiglu \ --tensor-model-parallel-size 1 \ --pipeline-model-parallel-size 4 \ --sequence-parallel \ --recompute-activations \ --recompute-granularity selective \ --lr 2.0e-4 \ --min-lr 2.0e-4 \ --vocab-file $DATADIR/gpt2-vocab.json \ --merge-file $DATADIR/gpt2-merges.txt \ --data-path $DATADIR/enwiki-20230526-pages-articles \ --train-iters 30 \ --log-interval 10 deepspeedcd /mnt/xxx python -m torch.distributed.launch \ --nproc_per_node="8" \ --nnodes="$WORLD_SIZE" \ --node_rank="$RANK" \ --master_addr="$MASTER_ADDR" \ --master_port="$MASTER_PORT" \ ./train.py \ --deepspeed \ --task_name 33b \ --deepspeed_config ds_config.json |
如何远程连接到AI开发环境?
点击AI开发环境中的“远程链接”按钮后出现链接地址,格式诸如:
ssh -p 30087 t50501324@172.168.0.3,需要把IP地址修改为映射后的IP:202.204.64.231,链接地址改为ssh -p 30087 t50501324@202.204.64.231,使用XShell或Putty或其他ssh工具访问这个地址,登录密码:admin
如何远程连接到HPC开发环境?
SSH远程链接登录节点IP:202.204.64.225 端口号:55322 用户名:(t/s+工号/学号)例如:t52702890,s120222212099 密码:admin
注意:远程到HPC环境后要进入个人目录下提交作业。
用户ssh远程链接后所在目录位置为登录节点的home目录,提交作业需要进入共享存储中的个人目录,在文件管理中找到个人目录地址进行复制,执行命令:cd <个人目录地址>。
如何安装类似vasp这种软件?
Module使用:用户也可通过执行module avail或ml av查看集群可用的模块,使用module load**命令加载模块使用。例如集群已经安装了vasp软件,用户可执行module load CentOS/7.9/vasp/5.4.4/intel2022u2命令即可使用vasp。
如果module中没有用户所需软件,可以参考以下方法:
1.用户可以在个人目录下安装配置所需软件,cd进入共享存储中的个人目录,即/nfs01/projects/项目编码/用户名/(在文件管理-个人目录中可以复制此目录),在此路径下进行软件安装,如需声明环境变量,可在个人目录中创建一个脚本文件,将环境变量命令写进去,每次运行软件前执行这个脚本就行,脚本可以命名为setvar.sh。自己安装如有困难,可以联系高性能计算平台。
2.由于apt安装命令需要root权限,在HPC环境下用户只有普通权限,用户可以选择conda命令。conda支持多种语言和商业软件,conda 作为一个环境管理工具,允许用户轻松创建、保存、加载不同的环境,能够解决不同项目间依赖包版本冲突的问题。平台上安装了anaconda,可以通过 module avail 查看,并通过 module load 加载。
3. 可以使用singularity容器,执行module load CentOS/7.9/singularity/3.9.2加载singularity模块,执行singularity相关命令拉取自己所需镜像。另外singularity容器已经开启了fakeroot功能,也可以选择开启沙盒模式在容器中使用apt方式安装软件。
HPC运行作业的方式?
本平台支持三种HPC作业方式,具体包括:
1.本平台可以ssh远程链接登录节点或HPC任务管理Web Terminal远程链接登录节点,通过sbatch命令提交脚本进行计算。
2.本平台HPC开发环境对于新用户来说更加简单直观,通过HPC开发环境的图形化界面操作申请连接到计算节点,可以直接进行计算操作;为了方便用户使用,开发环境有两种使用模式,习惯用命令行的用户可以选择terminal方式,如需图像化界面用户可以选择VNC图像化界面。
3.HPC任务管理界面提交作业可以直接将作业提交到计算节点进行计算,对于不习惯命令行操作的用户比较友好。
HPC个人账户密码修改?
普通用户登录集群后默认密码都为admin,如需更改密码,用户可用yppasswd命令更改自己账户密码。
$ yppasswd Changing NIS account information for tester on master0. Please enter old password: Changing NIS password for tester on master0. Please enter new password: Please retype new password: The NIS password has been changed on master0. |