AWS爆發大規模服務中斷，導致全球大量網站、App癱瘓

亞馬遜旗下的雲端服務AWS (Amazon Web Services)，稍早在美東時間週一 (10/20)上午爆發了嚴重的服務中斷事件。此次災情的核心集中在AWS最重要、也是許多企業預設採用的US-EAST-1 (北維吉尼亞)區域，導致全球無數依賴AWS運作的網站、應用程式與遊戲服務陷入停擺或反應遲緩，彷彿「半個網路」都同時離線。

此次事件凸顯了當前全球網路基礎設施，過度依賴少數幾家巨型雲端供應商的潛在風險。

禍首：DynamoDB DNS解析異常，專家稱如「網路失憶」

根據AWS官方的服務健康狀態頁面顯示，亞馬遜早在美東時間凌晨3點11分左右便已開始調查US-EAST-1區域中「多項AWS服務的錯誤率與延遲增加」。

到了凌晨5點01分，AWS確認了問題的根本原因：其核心NoSQL資料庫服務DynamoDB的API出現DNS解析問題。DynamoDB是AWS客戶用於儲存關鍵資訊的核心資料庫服務之一。

聖母大學IT、分析與營運教學教授Mike Chapple在接受CNN新聞採訪時，對此情況做出了精準的比喻。他表示：「亞馬遜仍安全地儲存著這些資料，但在長達數小時內，沒有人能找到它們，導致App暫時與其資料分離。」他形容，「這就好像大部分的網路都遭受了短暫的失憶症。」

災情擴散：EC2執行個體啟動受阻，AWS啟動「速率限制」

儘管AWS在凌晨6點35分聲稱已完全緩解了DNS問題，同時「大多數AWS服務操作已恢復正常」，但顯然連鎖效應 (knock-on effect) 已經引發。

災情迅速擴散至AWS的眾多企業建構其線上應用的虛擬主機服務EC2 (Elastic Compute Cloud)，而AWS在8點48分承認在US-EAST-1區域啟動新的EC2執行個體 (instance)時仍面臨問題。

AWS當時建議客戶，在佈署時不要將新的執行個體綁定到特定的可用區域 (Availability Zones, AZ)，以便EC2系統能「更靈活地」選擇狀態較佳的資料中心。

不過，到了上午9點42分時，AWS更新狀態指出，儘管已在多個AZ應用了「多重緩解措施」，但在啟動新EC2執行個體時仍持續經歷升高的錯誤率。為此，AWS不得不採取「速率限制」 (rate limiting)新執行個體啟動」的措施，以協助系統恢復。

隨後在上午10點14分，AWS再次坦承在US-EAST-1區域的多項服務中，仍看到顯著的API錯誤與連接問題。

顯然即使根本問題解決，AWS仍需消化大量積壓的請求，預計需要一段不短的時間才能讓所有服務恢復正常。

30%市佔率的隱憂：金融、遊戲、串流服務無一倖免

由於極多企業依賴US-EAST-1作為其AWS服務上佈署的核心，此次中斷造成了全球性的災難。

根據Down Detector的數據顯示，大量服務的故障回報在同一時間飆升。除了亞馬遜自家的服務外，包含銀行、航空公司、Disney+、Snapchat、Reddit、Lyft、Apple Music、Pinterest，乃至於《要塞英雄》、《Roblox》等熱門遊戲，以及紐約時報等媒體都傳出異常。

AWS提供了極具吸引力的基礎設施，例如彈性擴展運算資源以應對流量洪峰，以及遍布全球的資料中心。根據2025年中的估計，AWS在全球雲端基礎設施市場的佔有率高達30%。

而此次事件也再次敲響警鐘：當全球網路的骨幹過度依賴少數幾家供應商 (如 AWS、Azure、GCP)時，一旦其中一家、甚至只是一個核心區域發生問題，其連鎖反應就足以造成難以估計的損失。

Tags: Amazon AWS 亞馬遜斷網