【事件描述】
20240923 9:00左右,监控发现大量主节点报错(502),前后开始收到用户反馈。首先尝试重启应用,包括从数据库、甚至主数据库,重启后仍然报错。
20240923 10:07:通过备用服务器恢复下载。
20240923 11:30:全部功能恢复。
【事件原因】
20240923 9:00左右,消息主服务器挂掉(阿里云),导致几乎所有主节点挂掉,具体原因暂未知,监控显示服务器负载正常。
【优化&补偿】
基础设施问题造成影响较大,KStore架构上有容灾设计,但本次备用节点切换响应较慢;后续会提高备用节点切换速度,以降低类似影响。
本次也是KStore运行多年来首次大部分节点同时挂掉,后续会持续优化。
补偿:本次事件导致了KStore小时级不可用,会向所有KStore用户赠送100G高速流量作为赔偿(一个月有效期),感谢支持!