线上事故通报 -『9.24』 Linux内核导致服务不可用

2018年09月26日 12:40:14文章访问量:

事故说明

事故：Ali Yun ECS Linux内核导致服务不可用
Owner：滚键盘
业务：All
开始时间：2018-09-24 00:02
结束时间：2018-09-25 14:39
影响：总计39h，GMV影响为400左右
事故定级：一级事故

图片.png | left | 400x200

2018-09-24 00:02 Ali Yun 上ECS 跑完最后一次脚本任务，CPU从打满降落至11%左右，与平常回落至0%不一致，且出现ssh不能连接的现象
2018-09-24 00:13 在尝试解决问题未果的前提下，对实例进行正常重启操作
2018-09-24 00:17 ECS经过5min左右停止，重新启动后CPU彪至90%+，进入远程连接之后，显示Linux载入Error
2018-09-24 00:21 创建工单求助客服
2018-09-24 00:25 反馈CPU跑满，建议利用远程连接查看日志
2018-09-24 00:40 反馈日志截图
2018-09-24 00:43 反馈内核问题，建议先制作快照
2018-09-24 01:11 快照制作完毕
2018-09-24 01:19 授权Ali Yun操作实例
2018-09-24 01:41 修复失败建议初始化
2018-09-24 11:41 初始化之后ssh再次失效
2018-09-24 18:01 回滚快照之后，出现CPU跑满，Linux卡在初始化状态
2018-09-25 14:39 恢复服务
2018-09-26 15:30 恢复数据

wget tar.gz 文件
tar -xzvf 压缩包
./configure or ./bootstrap 进行编译，此时带的参数是安装模块，安装路径等
make 即build, 可加-j8
make install
cmake的安装是我见过最费内存，时间最长的，可能会提示虚拟内存不够的情况，dd if=/dev/zero of=/swap bs=32M count=16命令扩容
有些编译可能会报错，可能是有些包未安装导致的