4月8日腾讯云大规模故障,1957个客户受影响

2025-04-24 19:07:50 投资策略 facai888

云服务故障:一场突如其来的挑战

故障发生后,依赖云API提供产品能力的部分公有云服务,也因为云API的异常出现了无法使用的情况,比如云函数、文字识别、微服务平台、音频内容安全、验证码等。此次故障一共持续了近87分钟,期间共有1957个客户报障。

问题根源:变更管理不足

综合盘点这次故障,最根本的原因是在版本变更过程中,没有有效执行沙箱验证和预案演练,暴露了在变更管理上的不足。接下来将从以下几个方面快速进行改进和完善,以减少故障的影响范围和影响时长。

4月8日腾讯云大规模故障,1957个客户受影响

腾讯云:控制面受影响

据腾讯云方面公布,此次发生故障的控制台和云API是对控制面的影响。这次故障中客户已经配置好的服务器等IaaS资源,包括已经部署运行的业务,没有受到云API异常的影响。其他以非云 API 方式提供服务的PaaS和SaaS服务,处于正常服务的状态。

故障处理:多措并举

  1. 对故障处理流程进行全面升级,确保实时更新故障处理进度和预计恢复时间点,提升故障报告发布效率。
  2. 在对外发布的故障通知中,清晰阐述受影响的业务范围、故障根因及预计修复时长,保持透明度。
  3. 定期执行预定的变更策略模拟演练,确保在真实故障发生时,能够迅速切换到恢复模式,最小化服务中断时间。
  1. 15:23,监测到故障,立即执行服务的恢复,同时进行原因的排查;
  2. 15:47,发现通过回滚版本没能完全恢复服务,进一步定位问题;
  3. 15:57,定位出故障根因是配置数据出现错误,紧急设计数据修复方案;
  4. 15:23,发现通过回滚版本没能完全恢复服务,进一步定位问题;
  5. 15:57,定位出故障根因是配置数据出现错误,紧急设计数据修复方案;
  6. 15:23,发现通过回滚版本没能完全恢复服务,进一步定位问题;
  7. 15:57,定位出故障根因是配置数据出现错误,紧急设计数据修复方案;
  8. 15:23,发现通过回滚版本没能完全恢复服务,进一步定位问题;
  9. 15:57,定位出故障根因是配置数据出现错误,紧急设计数据修复方案;
  10. 15:23,发现通过回滚版本没能完全恢复服务,进一步定位问题;
  11. 15:57,定位出故障根因是配置数据出现错误,紧急设计数据修复方案;
  12. 15:23,发现通过回滚版本没能完全恢复服务,进一步定位问题;
  13. 15:57,定位出故障根因是配置数据出现错误,紧急设计数据修复方案;
  14. 15:23,发现通过回滚版本没能完全恢复服务,进一步定位问题;
  15. 15:57,定位出故障根因是配置数据出现错误,紧急设计数据修复方案;
  16. 15:23,发现通过回滚版本没能完全恢复服务,进一步定位问题;
  17. 15:57,定位出故障根因是配置数据出现错误,紧急设计数据修复方案;
  18. 15:23,发现通过回滚版本没能完全恢复服务,进一步定位问题;
  19. 15:57,定位出故障根因是配置数据出现错误,紧急设计数据修复方案;
  20. 15:23,发现通过回滚版本没能完全恢复服务,进一步定位问题;
  21. 15:57,定位出故障根因是配置数据出现错误,紧急设计数据修复方案;
  22. 15:23,发现通过回滚版本没能完全恢复服务,进一步定位问题;
  23. 15:57,定位出故障根因是配置数据出现错误,紧急设计数据修复方案;
  24. 15:23,发现通过回滚版本没能完全恢复服务,进一步定位问题;
  25. 15:57,定位出故障根因是配置数据出现错误,紧急设计数据修复方案;
  26. 15:23,发现通过回滚版本没能完全恢复服务,进一步定位问题;
  27. 15:57,定位出故障根因是配置数据出现错误,紧急设计数据修复方案;
  28. 15:23,发现通过回滚版本没能完全恢复服务,进一步定位问题;
  29. 15:57,定位出故障根因是配置数据出现错误,紧急设计数据修复方案;
  30. 15:23,发现通过回滚版本没能完全恢复服务,进一步定位问题;
  31. 15:57,定位出故障根因是配置数据出现错误,紧急设计数据修复方案;
  32. 15:23,发现通过回滚版本没能完全恢复服务,进一步定位问题;
  33. 15:57,定位出故障根因是配置数据出现错误,紧急设计数据修复方案;
  34. 15:23,发现通过回滚版本没能完全恢复服务,进一步定位问题;
  35. 15:57,定位出故障根因是配置数据出现错误,紧急设计数据修复方案;
  36. 15:23,发现通过回滚版本没能完全恢复服务,进一步定位问题;
  37. 15:57,定位出故障根因是配置数据出现错误,紧急设计数据修复方案;
  38. 15:23,发现通过回滚版本没能完全恢复服务,进一步定位问题;
  39. 15:57,定位出故障根因是配置数据出现错误,紧急设计数据修复方案;
  40. 15:23,发现通过回滚版本没能完全恢复服务,进一步定位问题;
  41. 15:57,定位出故障根因是配置数据出现错误,紧急设计数据修复方案;
  42. 15:23,发现通过回滚版本没能完全恢复服务,进一步定位问题;
  43. 15:57,定位出故障根因是配置数据出现错误,紧急设计数据修复方案;
  44. 15:23,发现通过回滚版本没能完全恢复服务,进一步定位问题;
  45. 15:57,定位出故障根因是配置数据出现错误,紧急设计数据修复方案;
  46. 15:23,发现通过回滚版本没能完全恢复服务,进一步定位问题;
  47. 15:57,定位出故障根因是配置数据出现错误,紧急设计数据修复方案;
  48. 15:23,发现通过回滚版本没能完全恢复服务,进一步定位问题;
  49. 15:57,定位出故障根因是配置数据出现错误,紧急设计数据修复方案;
  50. 15:23,发现通过回滚版本没能完全恢复服务,进一步定位问题;
  51. 15:57,定位出故障根因是配置数据出现错误,紧急设计数据修复方案;
  52. 15:23,发现通过回滚版本没能完全恢复服务,进一步定位问题;
  53. 15:57,定位出故障根因是配置数据出现错误,紧急设计数据修复方案;
  54. 15:23,发现通过回滚版本没能完全恢复服务,进一步定位问题;
  55. 15:57,定位出故障根因是配置数据出现错误,紧急设计数据修复方案;
  56. 15:23,发现通过回滚版本没能完全恢复服务,进一步定位问题;
  57. 15:57,定位出故障根因是配置数据出现错误,紧急设计数据修复方案;
  58. 15:23,发现通过回滚版本没能完全恢复服务,进一步定位问题;
  59. 15:57,定位出故障根因是配置数据出现错误,紧急设计数据修复方案;
  60. 15:23,发现通过回滚版本没能完全恢复服务,进一步定位问题;
  61. 15:57,定位出故障根因是配置数据出现错误,紧急设计数据修复方案;
  62. 15:23,发现通过回滚版本没能完全恢复服务,进一步定位问题;
  63. 15:57,定位出故障根因是配置数据出现错误,紧急设计数据修复方案;
  64. 15:23,发现通过回滚版本没能完全恢复服务,进一步定位问题;
  65. 15:57,定位出故障根因是配置数据出现错误,紧急设计数据修复方案;
  66. 15:23,发现通过回滚版本没能完全恢复服务,进一步定位问题;
  67. 15:57,定位出故障根因是配置数据出现错误,紧急设计数据修复方案;
  68. 15:23,发现通过回滚版本没能完全恢复服务,进一步定位问题;
  69. 15:57,定位出故障根因是配置数据出现错误,紧急设计数据修复方案;
  70. 15:23,发现通过回滚版本没能完全恢复服务,进一步定位问题;
  71. 15:57,定位出故障根因是配置数据出现错误,紧急设计数据修复方案;
  72. 15:23,发现通过回滚版本没能完全恢复服务,进一步定位问题;
  73. 15:57,定位出故障根因是配置数据出现错误,紧急设计数据修复方案;
  74. 15:23,发现通过回滚版本没能完全恢复服务,进一步定位问题;
  75. 15:57,定位出故障根因是配置数据出现错误,紧急设计数据修复方案;
  76. 15:23,发现通过回滚版本没能完全恢复服务,进一步定位问题;
  77. 15:57,定位出故障根因是配置数据出现错误,紧急设计数据修复方案;
  78. 15:23,发现通过回滚版本没能完全恢复服务,进一步定位问题;
  79. 15:57,定位出故障根因是配置数据出现错误,紧急设计数据修复方案;
  80. 15:23,发现通过回滚版本没能完全恢复服务,进一步定位问题;
  81. 15:57,定位出故障根因是配置数据出现错误,紧急设计数据修复方案;
  82. 15:23,发现通过回滚版本没能完全恢复服务,进一步定位问题;
  83. 15:57,定位出故障根因是配置数据出现错误,紧急设计数据修复方案;
  84. 15:23,发现通过回滚版本没能完全恢复服务,进一步定位问题;
  85. 15:57,定位出故障根因是配置数据出现错误,紧急设计数据修复方案;
  86. 15:23,发现通过回滚版本没能完全恢复服务,进一步定位问题;
  87. 15:57,定位出故障根因是配置数据出现错误,紧急设计数据修复方案;
  88. 15:23,发现通过回滚版本没能完全恢复服务,进一步定位问题;
  89. 15:57,定位出故障根因是配置数据出现错误,紧急设计数据修复方案;
  90. 15:23,发现通过回滚版本没能完全恢复服务,进一步定位问题;
  91. 15:57,定位出故障根因是配置数据出现错误,紧急设计数据修复方案;
  92. 15:23,发现通过回滚版本没能完全恢复服务,进一步定位问题;
  93. 15:57,定位出故障根因是配置数据出现错误,紧急设计数据修复方案;
  94. 15:23,发现通过回滚版本没能完全恢复服务,进一步定位问题;
  95. 15:57,定位出故障根因是配置数据出现错误,紧急设计数据修复方案;
  96. 15:23,发现通过回滚版本没能完全恢复服务,进一步定位问题;
  97. 15:57,定位出故障根因是配置数据出现错误,紧急设计数据修复方案;
  98. 15:23,发现通过回滚版本没能完全恢复服务,进一步定位问题;
  99. 15:57,定位出故障根因是配置数据出现错误,紧急设计数据修复方案;
  100. 15:23,发现通过回滚版本没能完全恢复服务,进一步定位问题;
  101. 15:57,定位出故障根因是配置数据出现错误,紧急设计数据修复方案;
  102. 15:23,发现通过回滚版本没能完全恢复服务,进一步定位问题;
  103. 15:57,定位出故障根因是配置数据出现错误,紧急设计数据修复方案;
  104. 15:23,发现通过回滚版本没能完全恢复服务,进一步定位问题;
  105. 15:57,定位出故障根因是配置数据出现错误,紧急设计数据修复方案;
  106. 15:23,发现通过回滚版本没能完全恢复服务,进一步定位问题;
  107. 15:57,定位出故障根因是配置数据出现错误,紧急设计数据修复方案;
  108. 15:23,发现通过回滚版本没能完全恢复服务,进一步定位问题;
  109. 15:57,定位出故障根因是配置数据出现错误,紧急设计数据修复方案;
  110. 15:23,发现通过回滚版本没能完全恢复服务,进一步定位问题;
  111. 15:57,定位出故障根因是配置数据出现错误,紧急设计数据修复方案;
  112. 15:23,发现通过回滚版本没能完全恢复服务,进一步定位问题;
  113. 15:57,定位出故障根因是配置数据出现错误,紧急设计数据修复方案;
  114. 15:23,发现通过回滚版本没能完全恢复服务,进一步定位问题;
  115. 15:57,定位出故障根因是配置数据出现错误,紧急设计数据修复方案;
  116. 15:23,发现通过回滚版本没能完全恢复服务,进一步定位问题;
  117. 15:57,定位出故障根因是配置数据出现错误,紧急设计数据修复方案;
  118. 15:23,发现通过回滚版本没能完全恢复服务,进一步定位问题;
  119. 15:57,定位出故障根因是配置数据出现错误,紧急设计数据修复方案;
  120. 15:23,发现通过回滚版本没能完全恢复服务,进一步定位问题;
  121. 15:57,定位出故障根因是配置数据出现错误,紧急设计数据修复方案;
  122. 15:23,发现通过回滚版本没能完全恢复服务,进一步定位问题;
  123. 15:57,定位出故障根因是配置数据出现错误,紧急设计数据修复方案;
  124. 15:23,发现通过回滚版本没能完全恢复服务,进一步定位问题;
  125. 15:57,定位出故障根因是配置数据出现错误,紧急设计数据修复方案;
  126. 15:23,发现通过回滚版本没能完全恢复服务,进一步定位问题;
  127. 15:57,定位出故障根因是配置数据出现错误,紧急设计数据修复方案;
  128. 15:23,发现通过回滚版本没能完全恢复服务,进一步定位问题;
  129. 15:57,定位出故障根因是配置数据出现错误,紧急设计数据修复方案;
  130. 15:23,发现通过回滚版本没能完全恢复服务,进一步定位问题;
  131. 15:57,定位出故障根因是配置数据出现错误,紧急设计数据修复方案;
  132. 15:23,发现通过回滚版本没能完全恢复服务,进一步定位问题;
  133. 15:57,定位出故障根因是配置数据出现错误,紧急设计数据修复方案;
  134. 15:23,发现通过回滚版本没能完全恢复服务,进一步定位问题;
  135. 15:57,定位出故障根因是配置数据出现错误,紧急设计数据修复方案;
  136. 15:23,发现通过回滚版本没能完全恢复服务,进一步定位问题;
  137. 15:57,定位出故障根因是配置数据出现错误,紧急设计数据修复方案;
  138. 15:23,发现通过回滚版本没能完全恢复服务,进一步定位问题;
  139. 15:57,定位出故障根因是配置数据出现错误,紧急设计数据修复方案;
  140. 15:23,发现通过回滚版本没能完全恢复服务,进一步定位问题;
  141. 15:57,定位出故障根因是配置数据出现错误,紧急设计数据修复方案;
  142. 15:23,发现通过回滚版本没能完全恢复服务,进一步定位问题;
  143. 15:57,定位出故障根因是配置数据出现错误,紧急设计数据修复方案;
  144. 15:23,发现通过回滚版本没能完全恢复服务,进一步定位问题;
  145. 15:57,定位出故障根因是配置数据出现错误,紧急设计数据修复方案;
  146. 15:23,发现通过回滚版本没能完全恢复服务,进一步定位问题;
  147. 15:57,定位出故障根因是配置数据出现错误,紧急设计数据修复方案;
  148. 15:23,发现通过回滚版本没能完全恢复服务,进一步定位问题;
  149. 15:57,定位出故障根因是配置数据出现错误,紧急设计数据修复方案;
  150. 15:23,发现通过回滚版本没能完全恢复服务,进一步定位问题;
  151. 15:57,定位出故障根因是配置数据出现错误,紧急设计数据修复方案;
  152. 15:23,发现通过回滚版本没能完全恢复服务,进一步定位问题;
  153. 15:57,定位出故障根因是配置数据出现错误,紧急设计数据修复方案;
  154. 15:23,发现通过回滚版本没能完全恢复服务,进一步定位问题;
  155. 15:57,定位出故障根因是配置数据出现错误,紧急设计数据修复方案;
  156. 15:23,发现通过回滚版本没能完全恢复服务,进一步定位问题;
  157. 15:57,定位出故障根因是配置数据出现错误,紧急设计数据修复方案;
  158. 15:23,发现通过回滚版本没能完全恢复服务,进一步定位问题;
  159. 15:57,定位出故障根因是配置数据出现错误,紧急设计数据修复方案;
  160. 15:23,发现通过回滚版本没能完全恢复服务,进一步定位问题;
  161. 15:57,定位出故障根因是配置数据出现错误,紧急设计数据修复方案;
  162. 15:23,发现通过回滚版本没能完全恢复服务,进一步定位问题;
  163. 15:57,定位出故障根因是配置数据出现错误,紧急设计数据修复方案;
  164. 15:23,发现通过回滚版本没能完全恢复服务,进一步定位问题;
  165. 15:57,定位出故障根因是配置数据出现错误,紧急设计数据修复方案;
  166. 15:23,发现通过回滚版本没能完全恢复服务,进一步定位问题;
  167. 15:57,定位出故障根因是配置数据出现错误,紧急设计数据修复方案;
  168. 15:23,发现通过回


4月8日腾讯云大规模故障,1957个客户受影响的部分讲完了,接下来看腾讯云故障:1957客户案例解析与未来应对策略。

故障解析:腾讯云API服务中断背后的故事

  1. 对故障处理流程进行全面升级,确保实时更新故障处理进度和预计恢复时间点,提升故障报告发布效率。
  2. 在对外发布的故障通知中,清晰阐述受影响的业务范围、故障根因及预计修复时长,保持透明度。

具体行动:从监测到恢复的每一步

从监测到故障发生,到最终恢复服务,腾讯云团队采取了以下具体行动:

  1. 15:23,监测到故障,立即执行服务的恢复,同时进行原因的排查;
  2. 15:47,发现通过回滚版本没能完全恢复服务,进一步定位问题;
  3. 15:57,定位出故障根因是配置数据出现错误,紧急设计数据修复方案;
  4. 16:02,对全地域进行数据修复工作,API服务逐地域恢复中;
  5. 16:05,观测到除上海外的地域API服务均已恢复,进一步定位上海地域的恢复问题;
  6. 16:25,定位到上海的技术组件存在API循环依赖问题,决定通过流量调度至其他地域来恢复;
  7. 16:45,观测到上海地域恢复了,此时API和依赖API的PaaS服务彻底恢复,但控制台流量剧增,按九倍容量进行了扩容;
  8. 16:50,请求量逐渐恢复到正常水平,业务稳定运行,控制台服务全部恢复;
  9. 17:45,持续观察一小时,未发现问题,按预案处理过程完毕。
  1. 定期执行预定的变更策略模拟演练,确保在真实故障发生时,能够迅速切换到恢复模式,最小化服务中断时间。
  2. 引入异常自动熔断机制,当检测到系统异常时,能够立即中断变更过程。
  3. 优化服务部署架构,通过分层架构、代码审查和监控等手段,避免API服务中潜在的循环依赖问题。
  4. 提供API服务逃生通道,当故障发生时,可供调用方快速切换。
  5. 优化腾讯云健康状态看板的信息展示逻辑,解除对云API等云服务的依赖,通过引入缓存和容灾机制,确保即使在云服务出现故障时,能准确、及时地传递故障信息。

这次故障虽然给客户带来了不便,但也促使腾讯云在系统韧性和变更管理方面进行了深入的反思和改进。相信通过这些措施,腾讯云能够为用户提供更加稳定、可靠的服务。

搜索
最近发表
标签列表