CrowdStrike 事故席卷全球,每位 CIO 應(yīng)當(dāng)從中吸取的六條教訓(xùn)
無論是出于吃瓜還是甩鍋的心態(tài),CrowdStrike宕機(jī)事故的余波都已經(jīng)基本散去。然而,從中吸取教訓(xùn)、把握最重要的IT影響才是意義所在。
2000年初,相較于IT世界針對(duì)千年蟲問題做出前所未有的高效響應(yīng),事后評(píng)估工作卻可以說是一塌糊涂。全球各地的意見領(lǐng)袖似乎急于找人背鍋,甚至宣稱千年蟲問題就是IT部門為了擴(kuò)大技術(shù)預(yù)算、強(qiáng)調(diào)自身重要性而制造的一場(chǎng)騙局。
找到了宣泄對(duì)象的人們都很開心,無知且盲目的熱情被鼓動(dòng)起來,之后就是時(shí)間推移、事件平息,再轉(zhuǎn)向下一個(gè)所謂的“罪魁禍?zhǔn)住薄?/p>
這一次的CrowdStrike也成了類似的眾矢之的。無論是確實(shí)負(fù)有責(zé)任的CrowdStrike本身,還是作為實(shí)際爆發(fā)事故場(chǎng)景的Windows締造者微軟,世界各地的意見領(lǐng)袖們?cè)俅瓮度氪罅繒r(shí)間、精力跟專業(yè)知識(shí)(存疑),選擇對(duì)相關(guān)當(dāng)事方破口大罵,而不是以系統(tǒng)化的視角深入分析整個(gè)來龍去脈。
但首先需要承認(rèn):無論這次事故看起來波及范圍多廣、后果多嚴(yán)重,西南航空都絲毫沒有受到CrowdStrike漏洞的影響——因?yàn)樗麄兊姆?wù)器運(yùn)行的是Windows 3.1。于是問題來了:對(duì)于一個(gè)需要支持成千上萬最終用戶的業(yè)務(wù)網(wǎng)絡(luò),到底是哪個(gè)選項(xiàng)更有可能造成系統(tǒng)故障——包含bug的CrowdStrike Falcon更新,還是Windows 3.1本身?大家當(dāng)然可以給出自己的答案。實(shí)際上西南航空的行為類似于在發(fā)動(dòng)機(jī)中使用膠帶加錫紙,倒也不是不行,但風(fēng)險(xiǎn)也隨時(shí)可能來臨。
遺憾的是,有時(shí)候說服那些患有偏執(zhí)癥的企業(yè)高管們就是這么困難——在很多人看來,IT部門申請(qǐng)的生命周期管理資金就類似于當(dāng)初的千年蟲bug修復(fù),完全就是在騙吃騙喝。
我的個(gè)人觀點(diǎn)也很明確:在AI驅(qū)動(dòng)網(wǎng)絡(luò)攻擊的新時(shí)代,最糟糕的決策就是把容忍過時(shí)當(dāng)成一項(xiàng)策略。
相反,任何指望按老辦法行事的決策者,都應(yīng)該牢牢記住此番CrowdStrike的遭遇。
教訓(xùn)一:CrowdStrike宕機(jī)事故不僅僅源自技術(shù)缺陷
沒錯(cuò),微軟確實(shí)向CrowdStrike授予了內(nèi)核訪問權(quán)限,而蘋果和大多數(shù)Linux變體不會(huì)這么做,因此導(dǎo)致問題的直接因素似乎就是CrowdStrike Falcon糟糕的版本更新。但這并不代表微軟的懶惰和草率,而是因?yàn)闅W盟監(jiān)管機(jī)構(gòu)堅(jiān)持要求軟件巨頭這么做。
歐盟監(jiān)管機(jī)構(gòu)這樣堅(jiān)持,也不代表他們就是一群高高在上的笨蛋。他們的目標(biāo)是確保歐洲操作系統(tǒng)市場(chǎng)能夠保持公平競爭。這是一場(chǎng)沒有真正壞人的角力,而角力也不一定就有贏家。正因?yàn)槿绱?,我們才生活在地上、而非完美無瑕的天國。
教訓(xùn)二:非要找個(gè)人罵?那就罵“紅皇后”吧
CrowdStrike是一家從事網(wǎng)絡(luò)安全業(yè)務(wù)的公司。跟大多數(shù)網(wǎng)絡(luò)安全提供商一樣,他們發(fā)現(xiàn)自己陷入到了“紅皇后困境”當(dāng)中。就如同愛麗絲夢(mèng)游仙境中的這位經(jīng)典反派,他們必須全力以赴才能保證自己仍然存續(xù)、不被替代。
沒錯(cuò),這些廠商都面臨著無情的競爭壓力,需要加快發(fā)布更新、更復(fù)雜的應(yīng)對(duì)措施來解決好更新、更復(fù)雜的安全威脅。
這也是系統(tǒng)性問題的另一種典型表現(xiàn)。像CrowdStrike這樣的網(wǎng)絡(luò)安全提供商必須以超越審慎態(tài)度的節(jié)奏快速部署內(nèi)容更新、補(bǔ)丁和版本,而“更快”往往意味著“測(cè)試不充分”。
于是這些提供商都陷入了紅皇后困境,他們要么根據(jù)惡意攻擊者的行動(dòng)節(jié)奏迅速交付新的防御方案,哪怕冒著補(bǔ)丁或者內(nèi)容更新中存在缺陷的風(fēng)險(xiǎn);要么放棄保護(hù)客戶免受新型惡意軟件的侵害,導(dǎo)致受眾處于危險(xiǎn)當(dāng)中。
很明顯,新型惡意軟件迭代的速度越快,網(wǎng)絡(luò)安全提供商就越可能無法察覺自己內(nèi)容更新、補(bǔ)丁和版本中的代碼缺陷。
身為CIO,我們自己也無法免受紅皇后困境的影響。IT部門一直承受著快速交付的壓力,也沒有人會(huì)支持什么放慢速度以降低風(fēng)險(xiǎn)這套“狗屁理論”。
這就叫進(jìn)退兩難,好在我們還有DevOps。
教訓(xùn)三:我們需要仔細(xì)、認(rèn)真地研究一下DevOps
DevOps不只是要消滅用戶驗(yàn)收測(cè)試,更主張將持續(xù)集成/持續(xù)交付(CI/CD)設(shè)定為“最佳實(shí)踐”。然而,還是有太多所謂的DevOps支持者在用部署代替交付——二者的區(qū)別在于,交付意味著創(chuàng)建可發(fā)布的版本并進(jìn)一步保證其質(zhì)量,而部署僅僅是將其落地至生產(chǎn)環(huán)境。
教訓(xùn)四:邊界正愈發(fā)模糊
曾幾何時(shí),軟件當(dāng)中同樣存在漏洞。曾幾何時(shí),世界上同樣存在惡意軟件。但現(xiàn)如今,漏洞和惡意軟件危害之間的唯一區(qū)別,就在于作者的意圖——其造成的后果已經(jīng)幾無差異。
教訓(xùn)五:萬全準(zhǔn)備方為正途
那些在CrowdStrike bug面前能夠維持住彈性和可恢復(fù)性的企業(yè)之所以做得到這點(diǎn),是因?yàn)樗麄円呀?jīng)為勒索軟件攻擊及其他恢復(fù)情況做好了準(zhǔn)備。至于準(zhǔn)備是否萬全,很大程度上是由一家企業(yè)的CIO所決定。
教訓(xùn)六:用數(shù)據(jù)說話,以權(quán)衡為本
這一切也讓我們?cè)俅位貧w每位CIO都必須面臨的核心挑戰(zhàn)——確保公司當(dāng)中的高管團(tuán)隊(duì)接受IT行業(yè)這種“一切出于權(quán)衡、萬事皆須妥協(xié)”的本質(zhì)。CrowdStrike事故就是個(gè)很好的研究案例,我們可以用它來強(qiáng)調(diào)IT權(quán)衡的重要意義。而前面提到的在速度跟風(fēng)險(xiǎn)之間做出選擇的紅皇后困境,往往會(huì)成為開啟對(duì)話的良好起點(diǎn)。
當(dāng)然,大家也可以借助數(shù)據(jù)分析之力,為IT部門需要應(yīng)對(duì)的關(guān)鍵權(quán)衡設(shè)置正確的管控指標(biāo)。