阿里云大面积故障是什么原因,官方解释没看懂?-

阿里云大面积故障是什么原因,官方解释没看懂?

阿里云服务器优惠

昨天下午,有网友反馈阿里云平台出现了一些故障。随后,陆续有网友反馈阿里云的MQ、NAS、OSS等产品部分功能都出现了故障。在笔者印象中,阿里云从创办到现在还未出现过如此重大的故障,以稳定著称的阿里云,竟然也摔了个大跟头。

阿里云

阿里云官方在故障出现后,经过紧急的排查,已经成功将问题修复,并在今天凌晨发布了公告,向大家解释了这次故障的原因,但是遗憾的是,笔者却没能看明白,阿里云究竟为何出现故障呢,我们先来看看官方说法。

阿里云官方公告

在阿里云官方的介绍中,昨天下午,工程师团队在上线一个自动化运维新功能中,执行了一项变更验证操作。这个功能在测试环境验证中并未发生问题,上线到自动化运维系统后,触发了一个未知代码bug,错误代码禁用了部分内部IP,导致部分产品访问链路不通。后续人工介入后,工程师团队快速定位问题进行了恢复。

程序员修复Bug

在阿里云的解释中,我们并不能找到故障出现的真正原因,只能看出这是一起由于测试不充分导致的业务故障,为此,笔者特地搜索了一番,在一位推友的推文中,似乎找到了阿里云这次大面积故障的原因,我们先来看看相关截图。

推文截图

从截图中,我们不难看出阿里云出现故障是由于函数计算服务宕机了,进而引发了线上的故障,这时后工程师们打算修复的时候,却发现每个依赖的服务均出现了问题,由此引发了昨天阿里云的大面积故障。

网友反馈阿里云故障

这次阿里云的故障,持续的时间虽然只有半个小时左右,但是因为很多中小企业,包括阿里自己有很多业务都基于阿里云,影响范围还是挺广的。阿里云官方在事情发生之后也没有推诿责任,表示以后将要认真复盘各项流程,敬畏每一行代码,敬畏每一份托付。阿里云这种态度还是值得点赞的。

赞(0)

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

解压软件
  • potplayer
  • directx