亞馬遜旗下的雲端服務AWS (Amazon Web Services),稍早在美東時間週一 (10/20)上午爆發了嚴重的服務中斷事件。此次災情的核心集中在AWS最重要、也是許多企業預設採用的US-EAST-1 (北維吉尼亞)區域,導致全球無數依賴AWS運作的網站、應用程式與遊戲服務陷入停擺或反應遲緩,彷彿「半個網路」都同時離線。
此次事件凸顯了當前全球網路基礎設施,過度依賴少數幾家巨型雲端供應商的潛在風險。
禍首:DynamoDB DNS解析異常,專家稱如「網路失憶」
根據AWS官方的服務健康狀態頁面顯示,亞馬遜早在美東時間凌晨3點11分左右便已開始調查US-EAST-1區域中「多項AWS服務的錯誤率與延遲增加」。
到了凌晨5點01分,AWS確認了問題的根本原因:其核心NoSQL資料庫服務DynamoDB的API出現DNS解析問題。DynamoDB是AWS客戶用於儲存關鍵資訊的核心資料庫服務之一。
聖母大學IT、分析與營運教學教授Mike Chapple在接受CNN新聞採訪時,對此情況做出了精準的比喻。他表示:「亞馬遜仍安全地儲存著這些資料,但在長達數小時內,沒有人能找到它們,導致App暫時與其資料分離。」他形容,「這就好像大部分的網路都遭受了短暫的失憶症。」
災情擴散:EC2執行個體啟動受阻,AWS啟動「速率限制」
儘管AWS在凌晨6點35分聲稱已完全緩解了DNS問題,同時「大多數AWS服務操作已恢復正常」,但顯然連鎖效應 (knock-on effect) 已經引發。
災情迅速擴散至AWS的眾多企業建構其線上應用的虛擬主機服務EC2 (Elastic Compute Cloud),而AWS在8點48分承認在US-EAST-1區域啟動新的EC2執行個體 (instance)時仍面臨問題。
AWS當時建議客戶,在佈署時不要將新的執行個體綁定到特定的可用區域 (Availability Zones, AZ),以便EC2系統能「更靈活地」選擇狀態較佳的資料中心。
不過,到了上午9點42分時,AWS更新狀態指出,儘管已在多個AZ應用了「多重緩解措施」,但在啟動新EC2執行個體時仍持續經歷升高的錯誤率。為此,AWS不得不採取「速率限制」 (rate limiting)新執行個體啟動」的措施,以協助系統恢復。
隨後在上午10點14分,AWS再次坦承在US-EAST-1區域的多項服務中,仍看到顯著的API錯誤與連接問題。
顯然即使根本問題解決,AWS仍需消化大量積壓的請求,預計需要一段不短的時間才能讓所有服務恢復正常。
30%市佔率的隱憂:金融、遊戲、串流服務無一倖免
由於極多企業依賴US-EAST-1作為其AWS服務上佈署的核心,此次中斷造成了全球性的災難。
根據Down Detector的數據顯示,大量服務的故障回報在同一時間飆升。除了亞馬遜自家的服務外,包含銀行、航空公司、Disney+、Snapchat、Reddit、Lyft、Apple Music、Pinterest,乃至於《要塞英雄》、《Roblox》等熱門遊戲,以及紐約時報等媒體都傳出異常。
AWS提供了極具吸引力的基礎設施,例如彈性擴展運算資源以應對流量洪峰,以及遍布全球的資料中心。根據2025年中的估計,AWS在全球雲端基礎設施市場的佔有率高達30%。
而此次事件也再次敲響警鐘:當全球網路的骨幹過度依賴少數幾家供應商 (如 AWS、Azure、GCP)時,一旦其中一家、甚至只是一個核心區域發生問題,其連鎖反應就足以造成難以估計的損失。