本文描述申请GPU服务器完成后,如何访问GPU服务器。文档版本:V0.6.20240304
前置重要事项(仔细阅读!)
【非常重要!】请按照下列规则存放自己的数据,否则将导致数据丢失 !!!
- 【注意!】数据、模型和代码文件放在:
/root/data
目录下,可以在此目录下创建子文件夹。 - 【注意!】 服务器的存储不提供可靠性保证,不排除可能会因为断电、损坏等原因造成的数据损失!请及时下载重要的数据和结果!不要在服务器上长期存储数据!
- 运行环境放在
/opt/conda/envs
目录下,使用conda create
命令的时候也会自动安装到该目录下。 - 除了上述目录外,释放服务器、断电、重启将重置服务器,其余地方的数据都将全部丢失且无法找回!!!
- 【注意!】数据、模型和代码文件放在:
【非常重要】严禁向其他人发送服务器连接客户端的任何部分,严禁透露自己的SK连接码给别人!否则将导致服务器被攻击,可能导致数据丢失、硬件损坏等不可预料的情况!!!
【重要】文档包含python运行环境,温馨提示等重要信息,请详细阅读完本文档的剩余内容之后再使用服务器!
关于python运行环境
服务器环境统一采用conda进行管理,如果连接服务器后conda
命令无反应,请先执行:source /opt/conda/bin/activate
以激活conda命令。
为了方便大家快速进行远程开发,服务器设置了两类运行环境:临时环境和分布式环境,详细如下:
临时环境
临时环境存储在服务器硬盘上,拥有最快的运行速度,但临时环境在服务器释放重新申请之后会恢复原样,所有后续安装的第三方库均会丢失,适合进行远程开发,远程debug使用。
目前服务器自带几个conda临时环境:
base
:基础环境,没有装什么库,不建议使用default_pytorch
: 装好pytorch最新版本,还有transformers、sklearn等常见的库default_tensorflow1
: TODO, 建设中,请勿使用该名字作为自定义环境default_tensorflow2
: TODO, 建设中,请勿使用该名字作为自定义环境
Tips:
- 临时环境与其他环境使用方式一样,例如可以通过
conda activate default_pytorch
激活使用“default_pytorch”临时环境,也可以在临时环境中安装自定义的包,但临时环境在服务器释放重新申请之后会恢复原样。
分布式环境
除了临时环境以外,存储在/opt/conda/envs
目录下的conda环境均为分布式环境,用户创建的conda环境默认也会存储在该目录下,因此也属于分布式环境。
分布式环境存储在分布式系统上,因此受带宽限制读取速度较慢,但分布式环境不会因为服务器释放或重新申请而丢失,因此能够在不同的GPU实例上使用,适合进行长时间的程序运行。
Tips:
- 分布式环境运行程序刚开始的时候有卡顿属于正常情况,环境只会在程序开始运行 import 的时候进行加载一次,后续计算几乎无需读取网络。
- 请使用
conda create
命令自行创建虚拟环境并安装需要的库,不熟悉安装深度学习环境的同学可点击查看:深度学习环境安装
连接服务器
连接服务器无需使用特定的客户端,具体连接方式申请服务器后见”申请/释放服务器页面“
温馨提示
请尽量使用
Screen
来运行自己的程序,否则当网络波动出现ssh断开时,正在执行的程序会中断!如果有
VS code
或Pycharm Professional
等软件使用ssh远程开发也是可以的,但是代码运行过程中受网络波动影响也可能发生程序中断的情况。如需安装其他软件,使用
apt-get install
命令即可,也可以根据软件官网提示进行安装,但是重新分配服务器也会重置所有软件,所以如果有特别常用且不方便频繁安装的软件请联系管理员处理。
最后编辑:admin 更新时间:2025-01-09 17:09