GPU服务器使用说明

获取服务器信息

NVIDIA-SMI
服务器信息示例
使用虚拟容器的服务器:
  • Dione
  • Mimas
  • Tethys
其他机器共享宿主操作系统,仅需要查看新建用户这一步,无需查看剩余的说明文档。

新建用户

使用账户addu登陆host,按提示键入用户名及密码。
2
# 密码
3
[email protected]'s password:
4
=====Welcome!
5
We need to get sudo permission first. Enter the password for `addu`.
6
# 输入addu的密码,获取sudo权限
7
[sudo] password for addu:
8
=====Let's setup a new account and create a container now.
9
# 输入用户名,接下来自动创建用户并新建虚拟机
10
Enter your username: test
11
Creating user...
12
Allocating container for test...
13
Creating test
14
Allocating ssh port... 10020
15
Device sshproxy added to test
16
# 设置用户密码
17
set password for test now (host only).
18
Enter new UNIX password:
19
Retype new UNIX password:
20
passwd: password updated successfully
21
Login this host via `ssh <username>@<host-ip>` to manage your container.
22
Done!
Copied!
  • 新建的用户名请使用自己的姓名全拼,如果需要多个账户,请使用<全拼>+<数字>的格式,如zhangsan2;
  • 妥善保存:新建的用户名,密码,所在服务器。

管理容器

使用新建的账户登陆host,按照提示管理自己的container。
1
# 使用新建的用户登陆并管理虚拟机
3
[email protected]'s password:
4
Welcome to Ubuntu 18.04.2 LTS (GNU/Linux 4.15.0-54-generic x86_64)
5
……
6
Hi, test
7
You're using the GPU Server in Vision Group.
8
9
==========About your container:
10
Your container is not running.
11
Transfer data to your container using scp or sftp;
12
File sharing is encouraged, access datasets at shared/datasets, access download files at shared/downloads, etc
13
14
See GPU load: nvidia-smi.
15
memory usage: free -h.
16
disk usage: df -h.
17
18
===== main menu =====
19
[1] start your container # 开机
20
[2] enter your container # 切换至虚拟机
21
[3] stop your container # 关机(也可以直接在虚拟机中执行shutdown now)
22
[4] change your password # 更改密码(如果需要改虚拟机密码,进入虚拟机后执行passwd)
23
[5] allocate ports # 进行端口映射
24
[6] release ports # 释放申请的端口
25
[0] show info # 显示虚拟机运行状态
26
[x] exit # 退出管理
27
# 启动虚拟机
28
Enter your choice: 1
29
========== Starting your container...
30
31
Press any key to continue...
Copied!

使用容器

使用上一步获取的用户名和密码,登入到自己的container。
1
# 检查显卡驱动和运行状况
2
(base) [email protected]:~# nvidia-smi
3
Mon Jul 1 14:07:26 2019
4
+-----------------------------------------------------------------------------+
5
| NVIDIA-SMI 410.48 Driver Version: 410.48 |
6
|-------------------------------+----------------------+----------------------+
7
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
8
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
9
|===============================+======================+======================|
10
| 0 GeForce RTX 208... Off | 00000000:19:00.0 Off | N/A |
11
| 30% 41C P0 67W / 250W | 0MiB / 10989MiB | 0% Default |
12
+-------------------------------+----------------------+----------------------+
13
| 1 GeForce RTX 208... Off | 00000000:1A:00.0 Off | N/A |
14
| 30% 51C P0 61W / 250W | 0MiB / 10989MiB | 0% Default |
15
+-------------------------------+----------------------+----------------------+
16
| 2 GeForce RTX 208... Off | 00000000:67:00.0 Off | N/A |
17
| 31% 51C P0 64W / 250W | 0MiB / 10989MiB | 0% Default |
18
+-------------------------------+----------------------+----------------------+
19
| 3 GeForce RTX 208... Off | 00000000:68:00.0 Off | N/A |
20
| 30% 51C P0 1W / 250W | 0MiB / 10986MiB | 0% Default |
21
+-------------------------------+----------------------+----------------------+
22
23
+-----------------------------------------------------------------------------+
24
| Processes: GPU Memory |
25
| GPU PID Type Process name Usage |
26
|=============================================================================|
27
| No running processes found |
28
+-----------------------------------------------------------------------------+
Copied!

小结

关于用户权限:

  1. 1.
    用户拥有整台机器全部计算资源使用权限,包括全部的CPU、GPU、内存;
  2. 2.
    用户拥有完整的虚拟机访问权限,默认使用root账户。

关于文件共享:

  1. 1.
    为鼓励文件共享,只有共享目录shared下的文件存放在SSD上
  2. 2.
    共享文件请存放至合适的位置,如数据集存放到datasets;
  3. 3.
    不要删除别人共享的文件。

关于环境配置:

  1. 1.
    请勿在虚拟机内安装显卡驱动,如需重新安装CUDA,请在安装过程中禁止显卡驱动安装;
  2. 2.
    已经配置conda及常用深度学习环境;
  3. 3.
    如果需要安装CUDA,优先使用conda安装;
  4. 4.
    如需容器迁移联系管理员。
共同维护我们的丹炉,祝炼丹愉快!