1.2.2 收集故障相关信息
当处理由用户报告的问题时,对故障相关信息的收集显得尤为重要。当网管接到用户电话,说无法浏览Web网站,那么,仅凭这些消息,恐怕任何人都无法做出明确的判断。这时,就要亲自到现场去试着操作一下,运行一下那个程序,并注意出错信息。例如,在使用Web浏览器进行浏览时,无论输入哪个网站都返回“该页无法显示”之类的信息;或者使用Ping程序时,无论Ping哪个IP地址都显示超时连接信息等,诸如此类的出错消息会为缩小问题范围提供许多有价值的信息。注意每一个错误信息,并在用户手册中找到它们,从而得到关于该问题更详细的解释,是解决问题的关键。另外,亲自到故障现场进行操作,也有机会检查用户操作系统或应用程序是否运行正常,各种选项和参数是否被正确地设定。如果在操作时没有任何问题的话,那就可能是操作者的问题了。不妨让用户再试一次,并认真监督他的每一步操作,以确保所有的操作和选项都被正确地执行和设置。
当然,在亲自操作时,应当对故障现象做出详细的描述,认真记录所有的出错信息,并快速记录所有有关的故障迹象,制作详尽的故障笔记。实际上它们究竟表明了什么呢?这些故障现象是否相互联系呢?在寻找问题答案的过程中,很有可能又导致更多的故障现象产生。所以在开始排除故障之前,应按以下步骤执行。
● 向受影响的用户、网络人员或其他关键人员提出问题,收集有关故障现象的信息。
● 搜集有助于查找故障原因的详细信息,注意细节。
● 对问题和故障现象进行详细的描述。
● 根据故障描述性质,使用各种工具搜集情况,如网络管理系统、协议分析仪、相关show和debug命令等。
● 测试性能与网络正常情况下的记录进行比较。
● 把所有的问题都记下来。
● 不要匆忙下结论。
在故障发生的时候,由于已经影响到了业务,因此很多人急于恢复故障,总是直接将设备重启。原则上说业务为首要保证,因此并不能说这么做有问题。但是,同时带来的后果是由于设备重启,故障现象和故障日志都会随着重启而丢失,这对于查找故障原因来说是非常不利的。如果没有这些数据,就只能凭空猜想故障的可能性。如果不能正确分析出原因,很有可能下次仍然出现同样问题,反而造成更大的损失。诚然需要尽快恢复业务,但是,最好仍能在最短时间内登录设备,将最基本的show tech和show log信息保留下来。
Cisco的大部分设备信息都可以通过show tech显示出来,而show log可以记录一段时间内的系统日志信息,这两项数据对于故障诊断来说是最基本的信息来源。
对于设备自动重启这类故障,Cisco会自动生成一个crashinfo文件,存放在bootflash或Flash中,可以用more命令查看该文件的内容或者用tftp拷贝出来。该文件会记录在自动重启前发生过什么,是什么原因导致的系统重启。但是,该文件并不是每次自动重启都能生成,有时候来不及生成就已经crash了,有时候是由于bootflash空间不足,无法保存下来。该文件只要生成就不会由于重启而丢失,是诊断这类故障的一个很有效的记录。