去年冬天,我负责维护的某省会城市数据中心突然出现大面积业务延迟。监控系统显示核心交换机的端口错误率飙升,部分服务器无法被远程访问。当时正值电商大促期间,客户投诉电话一个接一个打进来,压力不小。
故障初现:从几台虚拟机失联开始
最开始是运维同事反馈有几台虚拟机ping不通,重启网卡也没用。我们以为是宿主机的问题,准备迁移实例,结果发现同一批次的多台服务器都出现了类似情况。查看vCenter日志时注意到,这些虚拟机都连接到了同一个分布式交换机端口组。
定位问题:光模块的“慢性病”
顺着这个线索查到物理层,发现对应的核心交换机接口CRC错误持续增长。我们更换了接入层到核心层的光纤跳线,但问题依旧。最终通过光功率计检测发现,一对单模光模块的发射功率低于-18dBm,远低于正常值-8dBm左右。这导致在高流量时段信号衰减严重,数据包大量重传。
更麻烦的是,这批光模块属于早期批次,厂家已经停产。替换后还要重新刷固件版本,避免兼容性问题。整整花了六个小时才把24个备用端口全部换完。
配置检查:别忽略基础设置
事后复盘时翻出交换机配置,才发现一个重要细节:所有上行链路都没有启用LLDP(链路层发现协议)。如果早些开启,就能更快识别出异常端口对应的设备信息。现在每次变更都会加上这条:
interface range TenGigabitEthernet 1/0/1 - 24
lldp transmit
lldp receive
温控失效引发的连锁反应
另一次是在夏季高温天,某个机柜顶部的几台TOR交换机频繁重启。现场巡检发现该区域空调出风口被临时堆放的包装箱挡住,冷热气流短路。环境温度超过38℃后,交换机自动降速保护。虽然监控系统有温度告警,但阈值设得太高,直到设备宕机才触发通知。
后来我们在每个机柜加装了无线温湿度传感器,并把告警级别细化为三级:30℃提醒、35℃预警、38℃紧急。同时调整了动环系统的短信推送策略,确保值班人员能在10分钟内收到关键告警。
人为操作失误的真实案例
最让人头疼的一次是同事误删了VLAN配置。他在调试新业务时,顺手在核心交换机上执行了no vlan 100-200,结果这个范围正好包含了正在使用的数据库集群VLAN。瞬间上百个IP地址失去连通性。
恢复过程倒是不复杂,从备份服务器拉回前一晚的配置文件,重新加载就行。但这件事推动我们上线了配置变更审批流程,现在任何对核心设备的操作都必须双人确认,且自动记录操作前后配置差异。