任何計算機系統都有出現故障的時候,可能發生在測試階段,也可能發生在系統剛剛上線,還可能發生在已經穩定運行很多年的系統上,又可能發生在系統一個小小的升級之后。而這些系統出現故障所帶來的負面影響則可大可小,小到一個終端的軟件無法使用,大到整個系統癱瘓,所有業務不能辦理。由此便有了IT故障處理分級的運作形式,將問題或故障做到先后有序,將IT運維故障劃分為普通、急、緊急……依靠這套省力的約定建立故障處理流程,是解放IT支持部門最有效的法則。
當計算機故障升級到“核災難”
佩特羅夫是原蘇聯一位年輕軍人、計算機工程師。1983年9月26日晚上,他正在莫斯科附近的某個導彈中心值班,他回憶說:“忽然,我面前的計算機屏幕變成了刺眼的紅色,刺耳的警報聲也隨之響起,聲音大得簡直能把死人都從墳墓里嚇醒。這是計算機預警系統發出美國向蘇聯實施核進攻的警報,美國人向我們發射核武器了!”一般人認為,計算機按事先編制的程序工作,它提供的信息應是絕對可靠的,計算機不會玩花招,但這次出現的情況卻不是這樣。警報還在不斷地響,佩特羅夫沒有被嚇呆,而是在積極思考。根據他掌握的情況來判斷,他認為,美國沒有理由在當時對蘇聯發動核攻擊,唯一的可能是計算機出錯。導彈中心接到佩特羅夫的報告后,急如星火地派人對計算機進行緊急檢修。結果證明,錯誤警報的發出完全是由計算機的故障造成的,計算機在這起故障中,充當了挑起核戰爭的罪魁禍首。
上面這個真實存在的計算機故障被列為IT界十大故障之首。雖然這起故障最終沒有引發全世界的“災難”,但是不是今后的數十年之后,就會完全避免此類事件發生呢?這引起了我們深深地思考。
作為IT運維產品和服務提供商的北塔軟件認為:“無論從技術角度出發,還是就業務角度而言,我們都需要對經常發生的IT故障進行各種考慮和權衡。在看起來似乎無法立即解決所有故障的情況下進行正確的權衡,則是IT運維人員成功的關鍵。這意味著要首先確定有哪些系統出現問題,會波及到核心業務的停滯范圍,以及理解并確定如何在出現故障的時候按照緊急度權衡,從而避免影響面最大的災難事件發生。”
北塔軟件的技術專家以一家正在實施BTIM IT綜合管理系統的銀行IT系統為例,為我們說明了故障和災難的區別。例如,對于一般的電腦系統故障,信科部或業務部門通過通常的措施(如激線、重組、重起、切換、脫機交易、沖證等)在短時間內能夠恢復對外的服務,對銀行業務和客戶利益沒有造成重大影響,此類事件稱之為故障。如果信息中心發生嚴重故障,導致管轄內大部分或全部的業務無法進行,且在一天內仍無法恢復正常對外服務,此類故障則要稱之為“災難”了。