一次真实的数据中心网络故障排查经历

发布时间：2025-12-15 15:08:28 阅读：262 次

去年冬天，我负责维护的某省会城市数据中心突然出现大面积业务延迟。监控系统显示核心交换机的端口错误率飙升，部分服务器无法被远程访问。当时正值电商大促期间，客户投诉电话一个接一个打进来，压力不小。

最开始是运维同事反馈有几台虚拟机ping不通，重启网卡也没用。我们以为是宿主机的问题，准备迁移实例，结果发现同一批次的多台服务器都出现了类似情况。查看vCenter日志时注意到，这些虚拟机都连接到了同一个分布式交换机端口组。

顺着这个线索查到物理层，发现对应的核心交换机接口CRC错误持续增长。我们更换了接入层到核心层的光纤跳线，但问题依旧。最终通过光功率计检测发现，一对单模光模块的发射功率低于-18dBm，远低于正常值-8dBm左右。这导致在高流量时段信号衰减严重，数据包大量重传。

更麻烦的是，这批光模块属于早期批次，厂家已经停产。替换后还要重新刷固件版本，避免兼容性问题。整整花了六个小时才把24个备用端口全部换完。

事后复盘时翻出交换机配置，才发现一个重要细节：所有上行链路都没有启用LLDP（链路层发现协议）。如果早些开启，就能更快识别出异常端口对应的设备信息。现在每次变更都会加上这条：

interface range TenGigabitEthernet 1/0/1 - 24
 lldp transmit
 lldp receive

另一次是在夏季高温天，某个机柜顶部的几台TOR交换机频繁重启。现场巡检发现该区域空调出风口被临时堆放的包装箱挡住，冷热气流短路。环境温度超过38℃后，交换机自动降速保护。虽然监控系统有温度告警，但阈值设得太高，直到设备宕机才触发通知。

后来我们在每个机柜加装了无线温湿度传感器，并把告警级别细化为三级：30℃提醒、35℃预警、38℃紧急。同时调整了动环系统的短信推送策略，确保值班人员能在10分钟内收到关键告警。

最让人头疼的一次是同事误删了VLAN配置。他在调试新业务时，顺手在核心交换机上执行了no vlan 100-200，结果这个范围正好包含了正在使用的数据库集群VLAN。瞬间上百个IP地址失去连通性。

恢复过程倒是不复杂，从备份服务器拉回前一晚的配置文件，重新加载就行。但这件事推动我们上线了配置变更审批流程，现在任何对核心设备的操作都必须双人确认，且自动记录操作前后配置差异。