华为服务器无法开机之主板损坏排查
关注我,不迷路,大家好,我是大王。--记录运维中遇到的故障及排查方法
环境说明:服务器为华为服务器
一、背景说明
这是之前碰到的一个问题,当时客户打电话过来,说服务页面打不来了,初始以为就是正常的服务出问题了,于是赶到现场去处理问题。结果发现不仅是页面打不开,而且服务器都连不上。
二、排查过程
2.1 故障显示
由于页面打不开,服务器也连不上,于是跟客户申请了进入机房查看服务器状态,进入机房后发现服务器已经自动关机,当时第一反应就是:靠,谁把我服务器关了。于是正常开机,发现服务器起不来……
故障码栏启动时依次出现的现象是:000 》 888 》 --- 》报红
出现报红后,电源显示灯为橙色,如下图显示
2.2 管理口日志收集
由于无法开机,于是准备连接服务器管理口查看日志。
管理口登入方式一般都在服务器上面写着,如下显示服务器默认管理地址:http://192.168.2.100默认用户名/密码:root/Huawei12$
排查其余服务后,就剩下一个错误,如下显示
查看事件码对应的故障解释,如下显示:
由此可以看出此故障主要是主机通电超时导致服务器起不来,于是对电源线及电源模块进行检查,未发现异常。
对于主板排查的话,由于服务器还处于维保期内,就懒得自己弄,于是联系华为售后协助排查。在将日志收集并发送给对方排查后,对方给出的答复是CPU、内存条和主板都有可能有问题,其中主板问题的可能性最大。由于涉及到硬件且服务器在保修期内,故安排华为售后进行上门排查维修。
若不在保修期内,则可以用以下办法自己进行排查确定:
1、CPU和内存只保留第一个槽位的,其余的都拔掉,然后开机,如果不能开机,则再更换另外的CPU和内存再次开机,如果还是不行,则一般就是主板坏了。2、若CPU和内存只保留第一个槽位的情况下可以正常开机,则有可能是CPU或内存条短路。把另外的CPU和内存依次换到第一个槽位,用来判断是否是CPU或内存损坏导致的,若依次尝试发现都是好的,则可能为主板问题。3、若CPU一个,内存条全部装上去可以正常开机,但是CPU装两个,内存条全部装上去就不能开机,则也是主板问题
此次我这边的问题经过各种排查后,最终确定为主板问题,免费更换主板后,服务器恢复正常
拆下来的旧家伙,都是厚厚一层灰
新家伙到之前先检查检查
换上去后看着还是比较新的
安装按主板后,重新进行刷新,再次启动,服务器正常启动。