微軟藍屏全球停擺,這個鍋是ta的?一次更新釀成全球災難
新智元報道
編輯:Aeneas 好睏
【新智元導讀】週五下午,一次安全軟件的更新,竟然引發了全球停擺。航班停飛,銀行宕機,全球打工人摸魚狂歡,我們親眼見證了這場「史上最大規模IT故障」。
活久見!
只因一次更新,Windows集體藍屏,全世界直接「斷片」了——
週五大禮包來了,打工人狂喜
HaveIBeenPwned網絡安全研究員Troy Hunt表示:這將是史上最大規模的IT故障
大批金融機構、電視廣播公司、醫療機構、支付系統原地癱瘓,甚至連便利店和售貨機都「停擺」了。
在德克薩斯州的一家星巴克,系統全面報錯,咖啡都點不了了
在英國的醫院,醫生無法訪問患者記錄和預約系統,只能在紙上記錄患者病情、手寫處方。
Sky News和BBC也暫時停播。
同時,歐洲、澳大利亞和印度的銀行客戶也發現:自己的在線賬戶登不上了。
而要說受到打擊最嚴重的,當屬航空公司了。
數據顯示,全球有超過4000架航班被取消。
對美國空中交通的影響
在美國,United、Delta和American等航空公司被迫停飛和延誤,大批乘客滯留在機場。
美國紐約的拉瓜迪亞機場,人們正焦急地等待航班
菲律賓的尼諾·阿基諾國際機場摩肩接踵
西西里島巴勒莫機場,乘客直接睡倒在地
印度網友則拿到了人生中第一張手寫登機牌
全球一片混亂之際,「始作俑者」被揪了出來——它就是網絡安全巨頭CrowdStrike。
微軟:我不背這個鍋
網友玩梗系列
實際上,國外存在着大量運行CrowdStrike軟件的計算機系統——
這些設備包括雜貨店的收銀機、機場和火車站的出發信息板、學校的計算機、工作用的筆記本電腦和臺式電腦、機場的值機系統、航空公司的票務和調度平臺、醫療網絡等等。
因此,CrowdStrike的故障會在全球範圍內以各種方式造成混亂。
闖出如此大禍之後,「罪魁禍首」CrowdStrike的股票在收盤時已暴跌11%,市值蒸發了近100億美元。
對它來說,這是2022年以來最糟糕的一天。
外媒銳評:一家本應防止故障的公司,自己卻造成了全球最大的故障
對此,AI大牛Karpathy一針見血地提出了箇中關鍵:我們該如何進行設計才能防範這種風險?
全球大崩潰
在機場,人們焦急地等待着系統恢復。
超市也只能用現金付款了。
時代廣場的廣告牌,變成了一片空白。
聯合太平洋公司的部分區域受到影響,團隊和調度員之間的通信一度中斷。
聯邦快遞表示,公司經歷了嚴重故障,美國和歐洲的一些UPS計算機系統都受到影響。
在麻省布里格姆總醫院,所有非緊急的手術、醫療就診都被臨時取消。
英國吉爾福德皇家薩里醫院直接宣佈發生「嚴重事件」,醫院的放射治療IT系統Varian等都因此宕機。
英國國家衛生服務中心表示,大多數全科醫生辦公室都出現了服務中斷。
AWS的客戶發現,一些使用了CrowdStrike的Windows Instances、Windows Workspaces和Appstream應用,都遇到了問題。
在亞馬遜倉庫,員工用來管理日程和提交休假申請的A to Z程序直接癱瘓了。可以提前支取收入的Anytime Pay內部服務,也無法使用。
亞馬遜的貨運業務也出中斷了。使用Relay平臺的卡車司機,則無法在倉庫提貨。
特斯拉部分工廠的生產線,也被迫停止了。服務器、筆記本電腦和製造設備,都發生了故障。
在南非的銀行,服務也一度中斷。
總之,銀行、媒體、機場……全球範圍內任何使用CrowdStrike的系統都逃不過。
甚至,此事還驚動了美國總統和國土安全部。
如何修復
目前,官方已經給出了兩個推薦的解決方案。
其中一個是將系統回滾至0409 UTC前創建的snapshot,而另一個則是利用管理員權限進行修復:
1. 將Windows啓動到安全模式或Windows恢復環境
2. 進入C:\Windows\System32\drivers\CrowdStrike目錄
3. 找到匹配「C-00000291*.sys」的文件並刪除
4. 正常啓動電腦
聽起來很簡單,是吧?
然而,由於設備已經斷聯,這些操作都只能通過手動執行。
這意味着IT團隊不僅需要在現實中找到受影響的遠程電腦,而且還需要找到對應的Bitlocker恢復密鑰。(如果存在主機裡,那就直接死鎖了)
那麼問題來了,那些部署在偏遠地區,或者各種「犄角旮旯」的設備怎麼辦?
詳見官方說明:https://www.crowdstrike.com/blog/statement-on-falcon-content-update-for-windows-hosts/
挪威網絡安全公司Promon的首席技術官Tom Lysemose Hansen表示,持續的全球IT故障可能並沒有很簡單的解決辦法。
罪魁禍首是誰?
CrowdStrike於2011年成立,總部位於德克薩斯州奧斯汀,主營業務是爲企業提供基於雲的企業安全解決方案。
CrowdStrike於2019年6月12日在納斯達克首次公開募股
其中,一款名爲Falcon的工具,可以通過識別異常行爲和漏洞,來保護計算機系統免受惡意軟件等威脅。而它正是週五全球大崩潰的原因。
CrowdStrike CEO George Kurtz
截至1月,CrowdStrike的業務已經遍及170多個國家,擁有29000個客戶,其中500多家位列財富1000強。
世界上最大的科技公司如谷歌、亞馬遜和英特爾,零售巨頭Target,頂級F1車隊梅賽德斯AMG,甚至美國50個州中的43個,都是它的客戶。
隊服上印着贊助商CrowdStrike巨大logo的梅賽德斯,果然的在當天的FP1中全部藍屏了
在幫公司發現和防止安全漏洞方面上,CrowdStrike發揮着重要作用,自稱擁有「最快的平均時間」來檢測威脅。
自2011年成立以來,CrowdStrike已幫助調查了多起重大網絡攻擊,例如2014年索尼影業黑客攻擊,以及2015年和2016年俄羅斯對民主黨全國委員會的網絡攻擊。
截至週四晚間,CrowdStrike的估值還超過了830億美元。
CEO:已經在修了
對此,CrowdStrike創始人兼CEO在第一時間發文表達了誠摯的道歉,並表示公司已經動員了所有力量來幫助客戶修復問題。
官方通告:https://www.crowdstrike.com/blog/our-statement-on-todays-outage/
George Kurtz極力保證,公司正在「積極與受Windows主機單一內容更新中發現的缺陷影響的客戶合作」,並強調Mac和Linux主機不會受到影響。
此外,他提醒客戶保持警惕,在尋求支持時一定要和CrowdStrike的官方代表聯繫,因爲「競爭對手和騙子會趁機出動」。
在X上,他表示,此次事件並不屬於安全事件或網絡攻擊,「問題已被識別、隔離,修復程序已部署」
微軟CEO納德拉也發帖表示,微軟正在跟CrowdStrike和整個行業密切合作,幫客戶的系統恢復。
帖子下面出現了我們熟悉的身影
軟件工程師被困機場
32歲的遊戲開發公司CTO Ahmed Al Sharif,有着近20年的軟件工程師生涯。曾是初創公司的創始人,也曾在像EA和Meta這樣的大廠工作過。
他原計劃在當地時間上午11點從巴塞羅那飛往倫敦希思羅機場出差。
然而,到了機場之後,卻驚訝地發現航班停飛了。
早有跡象
在早上8點出發前往機場時,他就已經發現自己無法登錄網上銀行應用程序,登錄基於Outlook的電子郵件時速度也很慢。但他以爲只是酒店的WiFi出了問題。
大約在早上8:20到達機場時,機場已經擠滿了人。隊伍非常長。幾個值機櫃臺顯示藍屏,沒有人能辦理手續。
這時,他才意識到了事件的嚴重性:
「我不知道該排在哪裡,當我問一位機場工作人員時,他們告訴我現在排隊沒有意義,因爲票務、預訂和訂位系統都出了問題。」
混亂持續了一天
當天,機場的行李託運機、自動售貨機和大多數顯示屏都無法正常工作。
整個值機過程,都是手動進行的——
在拿到手寫的紙質機票之前,必須向工作人員出示電子郵件作爲付款證明,來證明確實預訂了當天的航班。有托運行李的乘客都必須將行李帶到登機口,然後機場工作人員手動將行李扔進貨艙。
相比於那些早已在機場等了超過11個小時的人來說,他還是很幸運的——飛機最後「只」延誤了6個小時。
CrowdStrike如何踩在了微軟身上?
雖然CrowdStrike在網絡安全行業裡非常有名,但直到今天,都沒有人意識到它在Windows平臺上的主導地位——區區一個第三方解決方案,竟能對所有Windows設備造成如此大的影響。
而且,作爲軟件開發的規則之一,不在週五推送修復可以說是基本「常識」了。(避免在週末召集大量的人力來處理因爲更新而出現的問題)
如今,這個原則被CrowdStrike打破了。
Sharif認爲,如果進行了更多的盡調,甚至讓政府加入監管,這樣的事件就不會發生。
獨立網絡安全研究員、《網絡安全哲學》作者Lukasz Olejnik表示,「我們的軟件是高度互連和相互依賴的。但這樣就會存在很多單點故障,特別是當組織中存在軟件單一文化時。」
網友狂歡
昨天下午,微軟過得是十分煎熬。
但被微軟意外提早解放了的打工人,則掀起了一場全球狂歡。
「感謝Crowdstrike帶來了世界和平」
與此同時,網友們也紛紛在X上玩起了梗。
回形針也被拉來做成了meme。
當然,也會有一些打不開電腦的人變得十分暴躁。
有人已經提前預判:又有實習生要背鍋了。
網友猜測,今天的CrowdStrike員工be like——
CEO馬斯克一個上午轉發了多張梗圖,帶頭玩梗。
Mac和Linux上大分。
手寫機票、手寫病例算什麼?手寫二進制代碼,纔是最燒的。
參考資料:
https://www.cnbc.com/2024/07/19/latest-live-updates-on-a-major-it-outage-spreading-worldwide.html?__source=iosappshare%7Ccom.apple.UIKit.activity.CopyToPasteboard
https://www.theverge.com/2024/7/19/24201864/crowdstrike-outage-explained-microsoft-windows-bsod
https://www.forbes.com/sites/emilsayegh/2024/07/19/widespread-technology-outages-and-the-imperative-for-ai-guardrails/
https://www.businessinsider.com/crowd-strike-outage-travel-chaos-tech-expert-2024-7