故障发生后,依赖云API提供产品能力的部分公有云服务,也因为云API的异常出现了无法使用的情况,比如云函数、文字识别、微服务平台、音频内容安全、验证码等。此次故障一共持续了近87分钟,期间共有1957个客户报障。
综合盘点这次故障,最根本的原因是在版本变更过程中,没有有效执行沙箱验证和预案演练,暴露了在变更管理上的不足。接下来将从以下几个方面快速进行改进和完善,以减少故障的影响范围和影响时长。
据腾讯云方面公布,此次发生故障的控制台和云API是对控制面的影响。这次故障中客户已经配置好的服务器等IaaS资源,包括已经部署运行的业务,没有受到云API异常的影响。其他以非云 API 方式提供服务的PaaS和SaaS服务,处于正常服务的状态。
从监测到故障发生,到最终恢复服务,腾讯云团队采取了以下具体行动:
这次故障虽然给客户带来了不便,但也促使腾讯云在系统韧性和变更管理方面进行了深入的反思和改进。相信通过这些措施,腾讯云能够为用户提供更加稳定、可靠的服务。