• 2005-05-21

    某个怪异的syslog问题的解决

    版权声明:转载时请以超链接形式标明文章原始出处和作者信息及本声明
    http://dragonseven.blogbus.com/logs/1202278.html

    某日,一客户来电,告知其Syslog服务器无法收到其网络设备的Logging信息,他们初步分析可能是局域网架构的问题。

    吾大惊,迅速赶往客户处(花费时间xx秒)因为客户就在偶们公司楼下。

    到了现场,先了解情况,基本情况就是今天客户发现他们的网管系统在处理日志时有些日志没有收到,而实际上日志是产生了的,他们又检查了一下另外一台专门的日志服务器,更是自某年某月开始就没有日志信息,只有外联的路由器的日志。他们检查来检查去,居然怀疑到局域网核心不够稳定云云。

    算啦,客户的话只能信一半,那就是故障描述,结论我一般是不相信的。

    还是自己动手先,把情况了解清楚之后,先作网络层的连通性检查,可以ping通。遂怀疑网络中某个地方因为路由策略或者访问控制,从最接近syslog服务器的的三层交换机开始,沿着路径检查未果。

    问题陷入僵局,吾再想,由于日志服务器自某日开始,遂询问客户那日做了些什么变更,由于时间久远,客户记得不是很清楚。

    决定在一台PC上安装syslog服务器用来检查网络是否存在问题,通过在设备上添加相应的配置后,我们在PC上看到了久违的logging信息,说明问题出在原来的syslog服务器上。仔细对比logging信息,发现设备是采用loopback地址作为源地址发送的logging信息,再检查原来syslog服务器作了源IP地址限制,原来设置的是接口地址。所以从设备发过来的logging信息因为源IP地址不再设置之内而拒收。修改相应配置问题得到解决。

    这个问题解决了,网管服务器的问题还在,把刚才的PC和网管服务器设置在同一个VLAN,并作相应的配置,发现现在这台PC可以收到所有的logging信息!而网管服务器有丢失。

    //还好网管工程师在,这个问题就教给他自己处理了,我飘走先

    [总结]

    任何问题都有解决的方法!
    解决问题之道在于首先要把故障现象了解清楚。不要被客户的结论所误导。

    其次针对这个故障,推断可能的问题所在,然后逐步排除逐层排除。

    最后,对故障现象一定要了解到:

    where,when,who,what

    Over


    收藏到:Del.icio.us




    引用

    下面Blog引用了该文:

    评论

  • 故障现象听用户的,结论得靠自己的经验

  • 果然是这样。。。到现场只有相信自己的经验。。。而客户的结论只能做为参考。。。。