KStore-20240923故障说明及补偿

ksust 1月前 374

【事件描述】

20240923 9:00左右,监控发现大量主节点报错(502),前后开始收到用户反馈。首先尝试重启应用,包括从数据库、甚至主数据库,重启后仍然报错。

20240923 10:07:通过备用服务器恢复下载。

20240923 11:30:全部功能恢复。

【事件原因】

20240923 9:00左右,消息主服务器挂掉(阿里云),导致几乎所有主节点挂掉,具体原因暂未知,监控显示服务器负载正常。

【优化&补偿】

基础设施问题造成影响较大,KStore架构上有容灾设计,但本次备用节点切换响应较慢;后续会提高备用节点切换速度,以降低类似影响。

本次也是KStore运行多年来首次大部分节点同时挂掉,后续会持续优化。

补偿:本次事件导致了KStore小时级不可用,会向所有KStore用户赠送100G高速流量作为赔偿(一个月有效期),感谢支持!


最新回复 (4)
  • ksust 1月前
    2
    截至目前,所有KStore已发放100GB流量补偿
  • xiaowei666 1月前
    3
    个人感觉 这处理速度 备用方案 以及后续补偿 都非常的到位啊
返回
发新帖