本文描述申请GPU服务器完成后,如何访问GPU服务器。文档版本:V0.6.20240304

前置重要事项(仔细阅读!)

  1. 【非常重要!】请按照下列规则存放自己的数据,否则将导致数据丢失 !!!

    • 【注意!】数据、模型和代码文件放在: /root/data 目录下,可以在此目录下创建子文件夹。
    • 【注意!】 服务器的存储不提供可靠性保证,不排除可能会因为断电、损坏等原因造成的数据损失!请及时下载重要的数据和结果!不要在服务器上长期存储数据!
    • 运行环境放在 /opt/conda/envs 目录下,使用 conda create 命令的时候也会自动安装到该目录下。
    • 除了上述目录外,释放服务器、断电、重启将重置服务器,其余地方的数据都将全部丢失且无法找回!!!
  2. 【非常重要】严禁向其他人发送服务器连接客户端的任何部分,严禁透露自己的SK连接码给别人!否则将导致服务器被攻击,可能导致数据丢失、硬件损坏等不可预料的情况!!!

  3. 【重要】文档包含python运行环境,温馨提示等重要信息,请详细阅读完本文档的剩余内容之后再使用服务器!

关于python运行环境

服务器环境统一采用conda进行管理,如果连接服务器后conda命令无反应,请先执行:source /opt/conda/bin/activate 以激活conda命令。
为了方便大家快速进行远程开发,服务器设置了两类运行环境:临时环境和分布式环境,详细如下:

临时环境

临时环境存储在服务器硬盘上,拥有最快的运行速度,但临时环境在服务器释放重新申请之后会恢复原样,所有后续安装的第三方库均会丢失,适合进行远程开发,远程debug使用。

目前服务器自带几个conda临时环境:

  • base:基础环境,没有装什么库,不建议使用
  • default_pytorch: 装好pytorch最新版本,还有transformers、sklearn等常见的库
  • default_tensorflow1: TODO, 建设中,请勿使用该名字作为自定义环境
  • default_tensorflow2: TODO, 建设中,请勿使用该名字作为自定义环境

Tips:

  • 临时环境与其他环境使用方式一样,例如可以通过conda activate default_pytorch激活使用“default_pytorch”临时环境,也可以在临时环境中安装自定义的包,但临时环境在服务器释放重新申请之后会恢复原样。

分布式环境

除了临时环境以外,存储在/opt/conda/envs目录下的conda环境均为分布式环境,用户创建的conda环境默认也会存储在该目录下,因此也属于分布式环境

分布式环境存储在分布式系统上,因此受带宽限制读取速度较慢,但分布式环境不会因为服务器释放或重新申请而丢失,因此能够在不同的GPU实例上使用,适合进行长时间的程序运行。

Tips:

  • 分布式环境运行程序刚开始的时候有卡顿属于正常情况,环境只会在程序开始运行 import 的时候进行加载一次,后续计算几乎无需读取网络。
  • 请使用conda create命令自行创建虚拟环境并安装需要的库,不熟悉安装深度学习环境的同学可点击查看:深度学习环境安装

连接服务器

连接服务器无需使用特定的客户端,具体连接方式申请服务器后见”申请/释放服务器页面“

温馨提示

  1. 请尽量使用Screen来运行自己的程序,否则当网络波动出现ssh断开时,正在执行的程序会中断!

  2. 如果有VS codePycharm Professional等软件使用ssh远程开发也是可以的,但是代码运行过程中受网络波动影响也可能发生程序中断的情况。

  3. 如需安装其他软件,使用apt-get install命令即可,也可以根据软件官网提示进行安装,但是重新分配服务器也会重置所有软件,所以如果有特别常用且不方便频繁安装的软件请联系管理员处理。

作者:admin  创建时间:2024-03-10 17:48
最后编辑:admin  更新时间:2025-01-09 17:09