重启后的检查
Last modified: October 08, 2024
这篇 markdown 主要讲讲在服务器重启后, 我们应当检查哪些服务.
各个节点是否能互相 ping 通
例如, 我们可以在 loginNode 上输入 ping bigMem0
, 如果得到形如
PING bigMem0.lan (192.168.2.10) 56(84) bytes of data.
64 bytes from BigMem0.lan (192.168.2.10): icmp_seq=1 ttl=64 time=0.231 ms
64 bytes from BigMem0.lan (192.168.2.10): icmp_seq=2 ttl=64 time=0.204 ms
64 bytes from BigMem0.lan (192.168.2.10): icmp_seq=3 ttl=64 time=0.202 ms
^C
--- bigMem0.lan ping statistics ---
3 packets transmitted, 3 received, 0% packet loss, time 2003ms
rtt min/avg/max/mdev = 0.202/0.212/0.231/0.013 ms
的结果, 则表示连接正常. 如果 ping 不通, 则说明网络连接异常.
slurm 状态
输入 sinfo
查看节点信息, 我们重点关注 STATE
这一项, 只要不是 down
(比如 idle
或 mix
), 则说明正常, 否则请重启 slurm. 具体来说, 以 bigMem0 为例, 我们可以使用 sudo scontrol update NodeName=bigMem0 State=Resume
来重启它的 slurm 服务.
如果这种方法失败, 请移步至相应的节点, 使用 systemctl status slurmd
查看节点状态, 并查看相应的日志, 例如 /var/log/slurmctld.log
或者 /var/log/slurmd.log
等.
GPU 状态
这一步只需要对有 gpu 的节点 (例如 loginNode, bigMem0, bigMem1) 做, 方法是在对应的节点上输入 nvidia-smi
, 查看能否得到正常的输出.
loginNode 是否正常挂载
在每个 bigMem 上输入 mount | grep loginNode
, 如果得到的输出形如
loginNode:/software on /software type nfs4 (rw,relatime,vers=4.2,rsize=1048576,wsize=1048576,namlen=255,soft,proto=tcp,timeo=100,retrans=2,sec=sys,clientaddr=192.168.2.10,local_lock=none,addr=192.168.2.1,_netdev)
loginNode:/scratch on /scratch type nfs4 (rw,relatime,vers=4.2,rsize=1048576,wsize=1048576,namlen=255,soft,proto=tcp,timeo=100,retrans=2,sec=sys,clientaddr=192.168.2.10,local_lock=none,addr=192.168.2.1,_netdev)
loginNode:/home on /home type nfs4 (rw,relatime,vers=4.2,rsize=1048576,wsize=1048576,namlen=255,soft,proto=tcp,timeo=100,retrans=2,sec=sys,clientaddr=192.168.2.10,local_lock=none,addr=192.168.2.1,_netdev)
loginNode:/etc/share on /etc/share type nfs4 (rw,relatime,vers=4.2,rsize=1048576,wsize=1048576,namlen=255,hard,proto=tcp,timeo=600,retrans=2,sec=sys,clientaddr=192.168.2.10,local_lock=none,addr=192.168.2.1)
就表示挂载正常. 具体来说, 我们必须看到 loginNode 的 /software
, /scratch
, /home
和 /etc/share
都挂载在其他节点上. 否则, 请利用
sudo mount -t nfs loginNode:/home /home --verbose
sudo mount -t nfs loginNode:/scratch /scratch --verbose
sudo mount -t nfs loginNode:/software /software --verbose
sudo mount -t nfs loginNode:/etc/share /etc/share --verbose
重新挂载 loginNode 到相应的节点.
在 web0 上, 输入 mount | grep loginNode
, 如果得到的输出形如
loginNode:/home on /mnt/loginNode/home type nfs4 (rw,relatime,vers=4.1,rsize=1048576,wsize=1048576,namlen=255,hard,proto=tcp,timeo=600,retrans=2,sec=sys,clientaddr=192.168.2.100,local_lock=none,addr=192.168.2.1)
则表示正常. 我们只需要挂载 loginNode 的 /home
即可. 否则, 请用 sudo mount -t nfs loginNode:/home /mnt/loginNode/home --verbose
进行挂载.
防火墙
在所有节点上输入 systemctl status firewalld
, 如果看到 Active: active (running)
就说明没问题. 否则, 请利用 sudo systemctl restart firewalld
重启防火墙.
sysstat
使用 ls -l /var/log/sysstat/
查看是否有对应日期的 saxx
文件. 例如, 如果今天是 9 月 14 日, 那么 sa14
对应的修改日期应当为 Sep 14
. 如有异常, 请利用 sudo systemctl status sysstat
查看 sysstat 的状态, 应当为 Active: active (exited)
. 否则, 请利用 sudo systemctl restart sysstat
重启服务, 并检查 /var/log/sysstat/
是否生成了今天对应日期的文件.