🥸服务器相关常用操作手册
服务器相关常用操作手册
搞机相关的攻略收藏夹: ゚ Weidows 的个人空间-゚ Weidows 个人主页-哔哩哔哩视频
硬件-device
内存条-DRAM
选配-for-GPU-servers
经常能看到听到网上的论调是 显存:内存 = 1:2
实际我体验下来, 1:1 完全足够, 训练需要足够大的显存, 但内存一般不会占太高
而且与 Gaming PC 不太一样, 内存的频率和时序对服务器没任何影响, DDR4+ECC 是标准答案
黄灯常亮
主板 DRAM 黄灯常亮, 无法过自检启动
- 尝试单条测试
- 尝试换插槽 (13 -> 24, 我就遇到了这个问题, 13 不通过)
- 等待长一些, 初次加载或者内存超频后内存会自训练半分钟, 自检时间会在半分钟以上, 这段时间也会持续黄灯, 之后就会白灯 -> 绿灯 -> 进系统
开游戏直接断电重启
找了贴吧/B 站上很多帖子, 总结一下
断电后自动重启 -> 内存/CPU/主板有问题
断电后不重启, 需要手动开机 -> 大概率电源坏了
我遇到的是自动重启的 (情况是开 VRchat 时必断电, 开浏览器或者 tm5 时小概率, 甚至有一次开机进桌面直接断电)
我的配置是 14600KF + 5070ti + 750W 鑫谷金牌, 按道理讲完全满载也能冗余出接近 300W, 不应该是电源先炸
最先怀疑的是内存 XMP, 调了半天 XMP 和手动调电压, 无效
然后怀疑电源, AIDA64+furmark2 双烤也没啥问题, 单测各跑分完全正常
能顶得住双烤那说明主板硬件也没毛病, 那就得怀疑是设置或者兼容问题了
重刷了 bios, 恢复默认设置, 无效
最后把主机全拆了, 检查所有供电线和配件没问题, 拔出来用小刷子扫扫灰, CPU 上了新硅脂, 重新理线和排机箱尾部风扇安上
就好了, 问题居然解决了 (怀疑不知道是哪个线虚接了或者接口有灰尘)
系统-system
install-debian
debian 安装时无法连接 WiFi, 显示 秘钥减缓与协商失败, 试试刷新 WiFi 列表时, 拉到最下面, 手动输入 WiFi 名称/密码
用户
# 添加用户 |
sudo-免密码
sudo visudo |
ssh
# 秘钥生成 |
关闭自动锁屏
隐私 -> 屏幕 -> 自动锁屏
重启桌面系统
linux 在插拔显示器后, 桌面系统还是很容易崩的, 虽然等一段时间它自己会恢复吧…
sudo systemctl restart gdm3 |
hostname
sudo hostnamectl set-hostname ds-xxx |
PVE
虚拟机系统盘扩容
先去 pve 扩容虚拟盘: 对应虚拟机 -> Hardware -> Hard Disk -> Disk Action -> Resize
并不需要重启
lsblk 可以看到有未使用空间 (300-150=150, sda 有 150G 未使用空间)
root@1Panel:~# lsblk |
# 安全扩容分区 |
重连生效
网络-net
查看网卡型号
lspci | grep -i net |
配置静态-IP
iface enp6s18 inet static |
速度不达标
- 重新拔插网线
- 检查水晶头是否接好 (其中接错线或者虚接, 能联网但网速会降级)
光口与电口
SFP+ / RJ45
光口需要接光模块, 光模块对不用品牌和速率有很多适配问题, 光模块物理接口分为单纤/双纤/光转电不同类型
同一机房内 (距离 10m 以内推荐用电口), 购置方便, 稍便宜一点 (电口交换机稍贵, 总体便宜)
远距离传输推荐使用光口, 只是需要成套配光网卡 + 光模块 + 光交换机 + 光纤, 麻烦也有兼容问题
存储-storage
查看硬盘和分区
df -h |
网络存储协议
| 协议 | 吞吐量(顺序读写) | 延迟(随机 IO) | CPU 占用 | 共享形式 | 数据同步/一致性 | 权限控制 | 特点与适用场景 |
|---|---|---|---|---|---|---|---|
| iSCSI | ⭐⭐⭐⭐ 接近裸盘(~90-95% 直通性能) | ⭐⭐ 较低延迟 | 中 | 块级,单机挂载 | 不支持多主并发写,需要集群文件系统 | 依赖 OS/文件系统自身 | VM 磁盘存储最佳选择(块存储,PVE/ESXi 当本地盘用) |
| NFS | ⭐⭐⭐ 中高(~70-80% 裸盘性能) | ⭐⭐ 一般 | 中低 | 文件级,多机共享 | 服务器端保证一致性(锁机制/缓存同步) | Unix 权限(UID/GID)、ACL | VM 一般存储、文件共享;支持快照/备份友好 |
| SMB | ⭐⭐ 偏低(~50-70% 裸盘性能) | ⭐ 较高延迟 | 中高 | 文件级,多机共享 | 客户端缓存较重,可能出现同步延迟 | Windows ACL(细粒度)、域集成 | Windows/Linux 文件共享友好,跨平台访问方便,VM 磁盘不推荐 |
ISCSI
sudo apt install open-iscsi -y |
NFS
大文件读写速度一般可以跑慢, 小文件会很慢
| 场景 | 直连 HDD | NFS + HDD | NFS + TrueNAS 缓存 |
|---|---|---|---|
| 大文件顺序读写 | ~150MB/s | ~100-120MB/s | ~100-120MB/s(无明显差别) |
| 小文件随机读 | ~100 IOPS | ~10-30 IOPS | 几百到几千 IOPS(取决于 ARC/L2ARC 大小) |
| 小文件同步写 | ~100 IOPS | ~5-20 IOPS | 几百 IOPS 甚至上千(取决于 SLOG SSD) |
sudo apt install nfs-common -y |
传输优化
遇到海量小文件时很头疼, 传输速度非常慢
mount -t nfs -o vers=3,tcp,rsize=1048576,wsize=1048576,noatime,nodiratime server:/export /mnt/nfs |
- rsize/wsize=1048576:增大读写块,提高吞吐。
- tcp:用 TCP 而不是 UDP。
- noatime,nodiratime:减少时间戳更新。
root-权限
使连接的服务器 root 权限可用 (默认下 root 无法起效)
sudo nano /etc/exports |
rsync
sudo apt install rsync -y
sudo rsync -avzP --no-owner --no-group --info=progress2 data/ /mnt/data/
-a
归档模式,等价于 -rlptgoD,意思是:
-r 递归进入子目录
-l 保留符号链接
-p 保留权限
-t 保留时间戳
-g 保留组信息
-o 保留属主
-D 保留设备文件和特殊文件
-v
verbose,显示详细输出。
-P
等价于 --partial --progress:
–partial 保留部分传输的文件,以便断点续传
–progress 显示传输进度
适合大文件传输,尤其是可能中断时。
-z
压缩传输,在网络上传输前压缩文件内容,节省带宽。适合网络慢的场景,但 CPU 会增加负担。
rclone
如果需要复制的文件比较多, rsync 单进程会非常慢, rclone 会强很多
sudo apt install rclone -y
rclone copy /home/xxx/.cache/huggingface \ |
rclone copy
把源目录
复制到目标目录 。只会新增/覆盖目标文件,不会删除目标中多余的文件(与 sync 不同)。 –progress
显示实时进度条,包括文件数、传输速度、已完成大小等。
–transfers=16
设置同时传输文件的并发数,默认是 4。
这里设置为 16,意味着最多同时传输 16 个文件,可以加快整体速度。
–checkers=32
设置用于检查/扫描源和目标目录的并发数(比如比较文件是否存在、文件大小/校验和等),默认是 8。
提高这个数值可以更快列出和比对大目录下的文件。
–fast-list
使用更高效的方式一次性获取源/目标目录的完整文件列表(减少 API 调用次数或目录遍历开销)。
缺点:需要一次性加载全部文件列表到内存,如果文件数特别多,会占用较大内存。
–copy-links
如果源目录中有符号链接(symlinks),会复制符号链接指向的实际文件内容,而不是复制符号链接本身。
–ignore-existing
已存在于目标目录的文件将会被跳过,不会覆盖。
只复制目标中没有的文件 → 适合增量拷贝。
rclone-s3-migrate
nano /root/.config/rclone/rclone.conf
[old-s3] |
rclone copy old-s3:harbor new-s3:harbor \ |
tar-压缩解压
sudo tar -zcvf data.tar.gz data/
sudo tar -zxvf data.tar.gz -C /path/to/target/directory/
truenas-zvol-mount
sudo mkdir /mnt/zvolmnt
sudo mount -t ext4 /dev/zvol/data/dataset /mnt/zvolmnt
/dev/zvol/ 后面跟的是 zvol 路径, 前面需要指定其内部硬盘格式 (如 ext4)
硬盘空间
# 查看目录大小 |
显卡-nvidia
型号分类-diff
| 型号 | 架构 | 显存类型 | 显存容量 | 带宽(约) | Transformer Engine | 用途定位 | 是否限速 / 特供 | 备注 |
|---|---|---|---|---|---|---|---|---|
| H200 | Hopper | HBM3e | 141 GB | ~4.8 TB/s | ✅ | 超大模型训练 / 推理 | 否 | Hopper 最强训练卡 |
| H100 | Hopper | HBM3 | 80 GB | ~3.35 TB/s | ✅ | 高端训练 / HPC | 否 | 主流大模型训练卡 |
| H800 | Hopper | HBM3 | 80 GB | ~1.6 TB/s 限速 | ✅ | 中国市场训练 / 推理 | ✅ | 限制互联带宽 |
| H20 | Hopper | HBM3 | 96 GB | 更低(大幅限速) | ✅ | 轻量推理 | ✅ | 核心/带宽精简,入门型 |
| A100 80GB | Ampere | HBM2e | 80 GB | ~2.0 TB/s | ❌ | 高端训练 / HPC | 否 | 老牌训练卡 |
| A800 80GB | Ampere | HBM2e | 80 GB | ~1.0 TB/s 限速 | ❌ | 中国市场训练卡 | ✅ | 限速版 |
| L40S | Lovelace | GDDR6 | 48 GB | ~864 GB/s | ✅ | 推理 / 渲染 / 中型训练 | 否 | 性价比高,支持 Transformer Engine |
| L40 | Lovelace | GDDR6 | 48 GB | ~864 GB/s | ❌ | 渲染 / 图形 / 基础推理 | 否 | 无 TE,偏图形工作站 |
| L20 | Lovelace | GDDR6 | 24 GB | ~400 GB/s | ❌ | 入门推理卡 | ❓ | 功耗低、低成本部署 |
| RTX 6000 Ada | Lovelace | GDDR6 | 48 GB | ~960 GB/s | ✅ | 高端工作站 / 推理 | 否 | 桌面工作站卡,带显示输出 |
| RTX A6000 | Ampere | GDDR6 | 48 GB | ~768 GB/s | ❌ | 渲染 / 工作站 / 中型推理 | 否 | 无 TE,适合图形与轻量训练 |
| RTX A5000 | Ampere | GDDR6 | 24 GB | ~576 GB/s | ❌ | 渲染 / 推理 / 开发 | 否 | 中端工作站卡 |
| RTX 4090 | Ada | GDDR6X | 24 GB | ~1.0 TB/s | ✅ | AI 训练 / 消费级极限性价比 | 否 | 桌面旗舰,性价比极高 |
| RTX 3090 | Ampere | GDDR6 | 12 GB | ~600 GB/s | ❌ | AI 训练 / 消费级极限性价比 | 否 | 轻量级工作站卡 |
驱动-driver
驱动版本选择
| 版本类型 | 特点 | 优点 | 缺点 | 适用场景 |
|---|---|---|---|---|
| 开源版 (nvidia-driver-550-open) | 内核模块开源(GPL/MIT),用户态库依旧闭源;自 515 起支持 | 内核升级兼容性好;数据中心 GPU 支持更佳;安全审计和长期维护方便 | 桌面卡功能缺失(功耗管理、视频编解码、Ray Tracing 等);消费级显卡不推荐 | 数据中心 GPU(A100/H100/A40 等),服务器环境 |
| 闭源版 (nvidia-driver-550) | 传统专有驱动;功能完整 | 功能最全,性能最优;完全兼容 CUDA/OptiX/TensorRT | 内核更新后可能需要等 DKMS 更新或手动补丁 | 桌面显卡、游戏、CUDA 开发、AI 训练 |
| Server 版 (nvidia-driver-550-server) | 面向数据中心/工作站/云计算;长期支持(LTSB);稳定优先 | 更新节奏慢但稳定性高;专注计算型 GPU | 功能更新不及时;版本号常低于桌面版 | 科研、生产环境,对稳定性要求高 |
卸载降级重装驱动
dpkg -l | grep nvidia-driver |
显卡压测
sudo snap install gpu-burn |
显卡掉卡
症状与文中描述一模一样
找出故障显卡
weidows@ds-8x3090:~$ lspci | grep 3090 |
weidows@ds-8x3090:~$ sudo dmesg -l err |
暂时禁用故障显卡
sudo nvidia-smi drain -p 0000:22:00.0 -m 1 |
查看和限制功率
nvidia-smi -q | grep 'Power Limit' |
sudo nvidia-bug-report.sh |
查日志 (直接搜关键词 fallen) 可以找到对应的显卡 ID
Sep 2 16:08:15 ds-8x3090 kernel: [599570.050167] NVRM: GPU at PCI:0000:22:00: GPU-3c3982ab-b512-daf2-dada-f26162ce7987 |
| 2 NVIDIA GeForce RTX 3090 Off | 00000000:22:00.0 Off | N/A | |
可以看看对应显卡的供电线路是否虚接或者损坏, 没有的话就得怀疑是温度过高了
我是把侧板拿掉后就一直没有掉卡, 可以 99%确认是温度问题
跟踪显卡温度日志
nohup nvidia-smi -q -l 2 -d TEMPERATURE -f nvidiatemp.log > /dev/null 2> |
查看-PCIE
# 查看PCIE设备 |
- 2.5GT/s → PCIe 1.0
- 5.0GT/s → PCIe 2.0
- 8.0GT/s → PCIe 3.0
- 16.0GT/s → PCIe 4.0
- 32.0GT/s → PCIe 5.0
有时会看到显卡降级到了 PCIE1, 有可能是因为物理层面线路问题 (一般这样会直接死机了), 更可能的是省电策略导致的
Device 0 [NVIDIA RTX A6000] PCIe GEN 3@16x RX: 771.8 MiB/s TX: 4.150 MiB/s |
terminal
tmux
可以保持程序运行(即使断了 ssh), 也可以多人共享终端
# 创建一个新的会话,命名为 monitor |
btop
locale
root@ds-8x3090:~# btop |
但问题一般不会出现在上面几条, 直接去查这里
nano /etc/ssh/sshd_config
改为 UsePAM yes
systemctl restart ssh
其他
pwm-风扇调控
英伟达的显卡温度控制比较极限, 默认 target temperature 到 80 度时风扇还在悠哉, 大概到 85 度就会开始大幅下压功率, 少见会到 90 度
然而即使到 90 度, 风扇也就 90%尔尔, 压功率 > 提转速为原则避免硬件损坏, 坏得很
用软件调控显卡风扇, 调高转速, 装好 coolercontrol
- 新建传感器, 勾上所有显卡 (选项选最高值)
- 新建配置, 温度源选上面的传感器
- 把所有显卡的 fan 切换 profile 为上面的配置
实测虽然还是会破 80, 但基本不怎么会撞墙了, 降个 5 度左右
借物表
[1]: ChatGPT









