CIO可以從 Optus 大規(guī)模故障中學到什么
本月早些時候,澳大利亞電信公司 Optus 發(fā)生大面積故障,導(dǎo)致 1,000 萬澳大利亞人和 40 萬家企業(yè)在長達 12 個小時的時間里無法使用電話或互聯(lián)網(wǎng),在此之后,Optus 首席執(zhí)行官 Kelly Bayer Rosmarin 本周辭職。
在上周澳大利亞參議院的一次調(diào)查中,該電信公司的網(wǎng)絡(luò)總經(jīng)理 Lambo Kanagaratnam 告訴當局,Optus “沒有針對這種特定規(guī)模的中斷制定計劃”。Rosmarin 本人也承認,在停電之前,她攜帶了一張競爭對手沃達豐的備用 SIM 卡,而停電之后,她現(xiàn)在又攜帶了一張競爭對手 Telstra 的備用 SIM 卡。
網(wǎng)絡(luò)中斷期間,Optus 未能接通 228 個緊急呼叫,其中包括一名心臟病發(fā)作男子的同事打來的電話。
這次網(wǎng)絡(luò)故障顯示了互聯(lián)系統(tǒng)的脆弱性,它提醒人們,盡管系統(tǒng)很先進,但還是有可能出錯,而且一定會出錯,它為 CIO 們提供了一些重要的經(jīng)驗教訓,要求他們現(xiàn)在就采取謹慎的行動。
盡管 Optus 的停電事件影響巨大且范圍廣泛,但此類事件絕非孤立的異?,F(xiàn)象,許多組織都曾發(fā)生過此類事件,嚴重程度各不相同。根據(jù) Uptime Institute 的《2023 年年度故障報告》,行業(yè)分析發(fā)現(xiàn)此類故障的成本正在增加。
對于 CIO 來說,處理此類事件不僅僅是管理 IT 系統(tǒng)那么簡單。它要求將前瞻性、戰(zhàn)略優(yōu)先級和有效的災(zāi)難恢復(fù)計劃結(jié)合起來。Optus 故障為評估提供了提示,讓 IT 領(lǐng)導(dǎo)者深入了解如何更好地加強防御以及如何在出現(xiàn)問題時更好地應(yīng)對。以下是最近這次備受矚目的 IT 故障的一些重要教訓。
采用協(xié)議,首先測試更新
Optus 公司的初步報告稱,此次故障與 “例行軟件升級”后“國際對等網(wǎng)絡(luò)路由信息的變化” 有關(guān)。母公司新加坡電信(SingTel)隨后駁斥了這一解釋,稱是 Optus 路由器的安全系統(tǒng)出了問題,而不是軟件升級。
Bayer Rosmarin 在參議院作證時指出,根本原因是該公司的路由器“觸發(fā)了故障安全機制,這意味著每臺路由器都獨立關(guān)閉”,她說這是“新加坡電信國際對等網(wǎng)絡(luò)升級引發(fā)的”。
盡管如此,這次故障強調(diào)了一個重要問題:在推出更新,尤其是組織或網(wǎng)絡(luò)范圍的更新之前,最好先在內(nèi)部系統(tǒng)上進行測試,然后再上傳到網(wǎng)絡(luò)。電信分析師 Paul Budde 說:“這就是所謂的‘fat fingers’”。
Budde 說:“如果其中有錯誤,你希望網(wǎng)絡(luò)能夠識別并過濾掉它,否則你就會在整個系統(tǒng)中產(chǎn)生連帶效應(yīng)。如果整個網(wǎng)絡(luò)癱瘓,技術(shù)人員在進入系統(tǒng)時就會遇到問題。那么問題就來了:你的冗余是什么?”
在 Optus 的案例中,修復(fù)工作涉及對澳大利亞 14 個站點的 100 多臺設(shè)備進行系統(tǒng)重置。據(jù) ABC News 根據(jù)參議院調(diào)查文件報道“同時還有 250 名其他員工和五家國際公司也提供了支持”。
找出薄弱點并加以解決
IT 研究和咨詢公司 Adapt 的數(shù)據(jù)和分析主管 Gabby Fredkin 說,必須繪制公司的基礎(chǔ)設(shè)施地圖,對服務(wù)進行細分,以便在發(fā)生故障時能夠獨立運行,找出薄弱點,并對這些薄弱點進行壓力測試,以了解系統(tǒng)中的任何漏洞。
Fredkin 承認:“說起來容易做起來難。”
不過,網(wǎng)絡(luò)的穩(wěn)健性取決于其最薄弱的環(huán)節(jié),如果出現(xiàn)單點故障,尤其是涉及關(guān)鍵基礎(chǔ)設(shè)施的單點故障,就會導(dǎo)致整個系統(tǒng)癱瘓。至少,CIO 必須知道他們的系統(tǒng)中存在哪些單點故障,以幫助確保冗余,并為圍繞優(yōu)先級和預(yù)算做出決策提供背景信息。
Enex 測試實驗室總經(jīng)理 Matt Tett 說:“你可能無法在整個網(wǎng)絡(luò)中建立冗余路徑,因為成本太高。但是,當你的組織或其他組織發(fā)生重大故障時,這是一個審查風險與成本的機會。值得對預(yù)算進行審查,并考慮在網(wǎng)絡(luò)上增加雙重負載是否能在將來省去一些麻煩。”
為不可避免的故障做好規(guī)劃
即使不是在監(jiān)管像 Optus 這樣的龐大網(wǎng)絡(luò),IT 領(lǐng)導(dǎo)人及其執(zhí)行同行也必須為自己或服務(wù)提供商的網(wǎng)絡(luò)中斷做好計劃,因為即使是小規(guī)?;蚓植康木W(wǎng)絡(luò)中斷,也會對企業(yè)及其客戶造成干擾。
Tett 指出:“重要的是審查業(yè)務(wù)連續(xù)性計劃,確保在可能的情況下有某種備份,以繼續(xù)[照常]開展業(yè)務(wù)。”
這種業(yè)務(wù)連續(xù)性計劃可能包括恢復(fù)紙質(zhì)系統(tǒng)的流程、改用蜂窩網(wǎng)絡(luò)而不是互聯(lián)網(wǎng)、確保高管和關(guān)鍵員工擁有雙 SIM 卡手機以切換網(wǎng)絡(luò),從而確保通信的連續(xù)性,或任何與組織相關(guān)的流程。
他說:“這就像一本飛行手冊,如果你失去了很大一部分技術(shù),你可以嘗試確保有一些離線方法來繼續(xù)運作?!?/p>
啟動災(zāi)難恢復(fù)對話
CIO 可以利用這些頭條新聞事件來激發(fā)他們與基礎(chǔ)設(shè)施領(lǐng)導(dǎo)者的對話,以審查他們的災(zāi)難恢復(fù)計劃。Fredkin 表示:“不要坐等事情發(fā)生。這應(yīng)該是一個持續(xù)的、系統(tǒng)的方法,來研究漏洞在哪里。”他引用 Netflix 的 Chaos Monkey(在其生產(chǎn)環(huán)境中制造隨機中斷)作為流媒體巨頭提高其復(fù)雜系統(tǒng)恢復(fù)能力戰(zhàn)略的關(guān)鍵組成部分。
他說:“在他們的系統(tǒng)中制造混亂可以讓他們暴露薄弱點,了解可能發(fā)生的情況,并對可能發(fā)生的情況進行規(guī)劃和演練。關(guān)于災(zāi)難恢復(fù)的討論需要首席財務(wù)官和首席執(zhí)行官的參與,以確定脫機和失去客戶信任的風險,以及降低這些風險的成本。Fredkin 表示:“一家公司受到影響的方式可能與另一家公司受到影響的方式大相徑庭,因此你必須考慮到這一點。”
了解第三方風險
根據(jù) Uptime 的數(shù)據(jù),包括云、主機托管、電信和托管公司在內(nèi)的托管數(shù)字基礎(chǔ)設(shè)施服務(wù)在當今的故障中占越來越大的比例。因此,IT 領(lǐng)導(dǎo)者必須意識到并知道如何管理第三方供應(yīng)商的風險,Budde 認為“尤其是在節(jié)約成本措施和外包已成為普遍現(xiàn)象的技術(shù)環(huán)境下”。
對于軟件或硬件的更新,關(guān)鍵是要有一份重要供應(yīng)商的名單,以及更新的時間和性質(zhì)。Fredkin 表示,CIO 需要考慮向某些客戶而不是其他客戶推出更新是否可行,或者向基礎(chǔ)設(shè)施的某些部分而不是其他部分推出更新是否可行。他們還需要找到 “一種可以進行測試的方法,這樣就不會影響整個生產(chǎn)環(huán)境”,他補充道。
他表示:“與提供硬件和軟件的人員保持良好關(guān)系至關(guān)重要。提前知道什么時候會有更新,并對何時將更新推送到企業(yè)進行某種控制,這將非常有益。”
提出 IT 現(xiàn)代化的理由
Fredkin 建議說,頭條新聞式的故障雖然令人遺憾,但往往也為 IT 領(lǐng)導(dǎo)者提供了機會,讓他們?yōu)樽约旱?IT 現(xiàn)代化辯護。他說,雖然 Optus 的情況并不明顯,但當系統(tǒng)脫機時,往往與遺留技術(shù)問題有關(guān),這些事件有助于促使領(lǐng)導(dǎo)層和董事會支持更新系統(tǒng),以確保系統(tǒng)安全、彈性、速度和規(guī)模。
他說:“當 CIO 們提出現(xiàn)代化使用案例時,他們需要得到利益相關(guān)者的支持,讓企業(yè)也能參與其中?!?/p>
復(fù)雜的關(guān)鍵任務(wù)功能可能需要兩到三年的時間才能完成,因此還需要一種排序和確定優(yōu)先級的方法。Fredkin 說:“把它想象成一個交通燈系統(tǒng),看看哪些是關(guān)鍵和重要的,哪些是緊急的。系統(tǒng)中最大的漏洞是什么?就長期更新而言,這是一個不同的優(yōu)先級排序,因為有些事情需要按照特定的順序來完成?!?/p>
他補充說:“這就是典型的瀑布思維,在重新設(shè)計關(guān)鍵基礎(chǔ)設(shè)施時,這種思維仍然占據(jù)著重要位置?!?/p>
從大處著眼
無論故障是源于你的系統(tǒng)還是連接網(wǎng)絡(luò)的結(jié)果,故障都會同時影響眾多企業(yè)。因此,IT 領(lǐng)導(dǎo)者可能需要考慮超越組織的四面圍墻,Budde 說。
他說:“量身定制的災(zāi)難和恢復(fù)計劃需要包括遵守行業(yè)標準以及定期審查 IT 系統(tǒng)和協(xié)議,以確保其穩(wěn)健性,尤其是在應(yīng)對潛在的網(wǎng)絡(luò)壓力和安全威脅時。我們可能需要打破常規(guī)思維,開始研究全國性解決方案和全行業(yè)解決方案,研究各組織如何在這些情況下相互協(xié)助?!?/p>
忽視溝通,后果不堪設(shè)想
最后,但絕非最不重要的一點是,當發(fā)生故障或中斷時,無論這些故障是否源于組織自身,組織都需要一個全面的通信手冊。
Enex Test Labs 的 Tett 認為:“就任何故障或問題進行清晰、簡明的溝通至關(guān)重要。這種溝通應(yīng)向上延伸至首席執(zhí)行官,向下延伸至客戶和媒體,以盡可能清晰地說明情況。組織需要考慮的第一件事是如何與客戶進行清晰的溝通,即使造成中斷的不是他們。其次,如果因為網(wǎng)絡(luò)中斷而無法與客戶溝通,也要制定能夠通過媒體進行溝通的策略。還應(yīng)該包括某種時間框架,以幫助管理對停機和恢復(fù)正常業(yè)務(wù)的預(yù)期。無論是幾小時還是 48 小時,都要公開透明。”















 
 





 