生产环境 可用性

系统稳定高于一切!(2022 年度:生产环境可用性计划目标 99.9%,当前 99.9945%)

Date.2023.01.01 企业微信:C 端报错 - 服务器异常

事故出现时间:2023/01/01 20:17
事故恢复时间:2023/01/01 20:40
事故简介:所有商家的C端活动访问,弹出提示报错“服务器异常”
事故原因:redis出口带宽拉满了导致微信服务获取accesstoken超时
责任部门:
解决措施:具体是哪块业务导致的不确定, 暂时升级了出口带宽

Date.2022.06.01 企业微信:C 端报错 - 服务器异常

事故出现时间:2022/06/01 17:56
事故恢复时间:2022/06/01 18:01
事故简介:所有商家的C端活动访问,弹出提示报错“服务器异常”
事故原因:-
责任部门:-
解决措施:-

Date.2022.04.07 企业微信:C 端报错 - 服务器异常

事故出现时间:2022/04/07 11:26
事故恢复时间:2022/04/07 11:30
事故简介:所有商家的C端活动访问,弹出提示报错“服务器异常”
事故原因:系统有一个微信公共服务的外部包叫easywechat,当时在做这个东西的时候比较匆忙,设计的不太合理,获取开放平台accesstoken环节没有做本地缓存, 当微信回调太多的时候,大量请求涌入weserver导致服务不可用。
责任部门:-
解决措施:重构这个包,并且将微信事件回调与业务端做资源隔离,做到互不影响。

Date.2022.3.25 企业微信:C 端报错 - 服务器异常

事故出现时间:2022/03/25 13:30
事故恢复时间:2022/03/25 13:50
事故简介:所有商家的C端活动访问,弹出提示报错“服务器异常”
事故原因:是由于业务端短链接太多,服务器微信公共服务的etcd挂了。
责任部门:-
解决措施:将短链和微信公共服务的相关的服务器资源分开部署,互不影响,就算短链后续出现问题,也不会影响业务的正常操作,业务端尽可能的减少短链的使用「不现实,客户需求」。

最后更新于