星期一凌晨兩點鐘,您的手機突然響了,噩耗傳來……機房樓上的水管發生了嚴重的漏水,公司所有的伺服器、路由器和大部分使用者電腦現已浸泡在水中。而上班時間是早晨8點整。此時此刻您該怎麼辦?
類似情形是對IT部門災難應對能力的真正考驗。對於那些沒有制訂災難應對方案的IT部門來說,上述情形無異於是滅頂之災。在任何有可能發生資料完全遺失的場合,缺乏災難應對方案就意味著將您的業務置於風險之中,這一點對於那些無力承受災難打擊的中小型企業顯得尤為突出。儘管災難的發生是必然的並且在某種程度上是不可避免的,但做好應對災難的準備工作卻是能力所能及的。IT正逐漸成為各個公司災難應對方案的焦點。為公司制訂一套用於確保業務連續性並且能夠從災難中迅速回復的預案無疑是其IT部門核心價值的一種表現。
六步計畫
在災難應對方案的術語中有兩個詞特別流行︰業務連續性計畫(BCP)和災難回復計畫(DRP)。儘管許多人經常將它們混用,但這兩個詞的實際觀念是有區別的。BCP通常定義了一整套確保公司在面臨不利因素的情況下能夠繼續運轉的計畫。而DRP實質上是BCP的一部分,它更側重於在面臨災難時如何回復訊息和系統。舉個例子,資料庫伺服器的一塊硬碟壞了,這樣的事件對您的業務連續性構成潛在的威脅卻算不上災難。然而,一根水管破裂殃及機房且淹沒了您的資料庫伺服器,這種事不僅對業務連續性構成嚴重威脅,而且也屬於災難回復計畫應考慮的範疇。
BCP和DRP的制訂很複雜,事實上,大機構往往會指派專人來做這項工作。不過,在沒有進行詳細的風險分析及其相對應工作的情況下,您仍可以透過下述六個步驟來制訂出一套可有效確保業務連續性且能迅速回復的計畫。
步驟一︰確定必須的業務行為
制訂BCP和DRP的第一步就是確定您們機構必須的業務行為--即那些每天都發生的最基本的業務行為。例如,一個用戶服務電話中心至少應具備接聽電話、查詢用戶資料以及記錄用戶來電事件等功能。而一個法律事務所則必須能夠存取用戶訊息和電子日程表、收發電子郵件、查詢線上法律文獻以及撥打接聽電話。您可以與您們機構中的一些重要的業務決策者來共同探討哪些業務行為對於維持業務連續性是必不可少的。BCP的重點自然就應該放在如何回復這些必須的業務行為上。
步驟二︰找出與各業務行為相對應的IT系統
確定了必須的業務行為後,接下來要做的就是找出每個業務行為所倚賴的IT系統。例如,要保證客戶服務電話中心能夠查詢客戶資料並且記錄客戶來電事件,就必須確保那些儲存資料的資料庫伺服器和業務處理應用程式運轉正常。有些情況下,您的核心網路架構也需要為這些必須的業務行為提供一定的保障。當災難發生後,您必須儘快使這些IT系統回復運轉。
步驟三︰針對可預知的合理事件建立威脅處理模式
幾乎所有的災難和業務連續性的中斷在某種程度上都是可預知的且都具有一定的合理性。此類事件有可能是自然因素導致的,如︰地震或洪水;也可能是人為的,如︰火災或蓄意破壞;還可能是由機械故障引起的,如︰硬碟故障或水管破裂。例如,一家坐落於美國俄克拉荷馬Wakita鎮的客戶服務電話中心,其IT系統就存在遭受龍捲風襲擊的可能。同樣,任何倚賴當代科技的公司都無法逃避電腦硬體的老化失靈。
當您搞清了哪些IT系統對您是非常重要的之後,就應該著手對有可能危及這些系統的相關事件建立威脅處理模式。威脅處理模式能讓您用架構化的方法來找出那些對您的業務產生潛在影響最大的威脅及其緩解因素。可透過清單來列舉可能導致您的關鍵IT系統崩潰的原因以及各種威脅的產生是由何種事件引起的。例如,導致客戶服務電話中心的業務中斷的原因可能是無法存取客戶資料資料庫。而引起無法存取的事件有電腦硬體故障、電源故障甚至某些更糟的情況,如︰資料中心毀於一場龍捲風。
步驟四︰開發業務連續性計畫
至此,您已經列出了必須的業務行為、確定了各業務運轉所倚賴的IT系統、設想了可能危及您的IT服務的各種事件,現在是利用您的威脅模型來制訂對策的時候了。BCP主要應包含下述四大對策︰容錯和故障轉移、備份、冷配備和冷場所(cold spares & cold sites)、熱配備和熱場所(hot spares & hot sites)。
容錯和故障轉移。該對策旨在利用冗餘設備來保障系統在發生單一部件故障時的運轉。IT部門最常用的容錯和故障轉移解決方案有磁碟陣列、叢集技術和電池或發電機電源支援。
備份。本機和異地備份計畫是DRP中的一個核心對策。備份使您能夠回復或重建遺失的資料。
冷配備和冷場所。冷配備是一些經過簡單準備後即可投入運轉的離線裝置。例如,一組裝有公司標準作業系統且設定完好但沒有與公司網路相連的伺服器。當出現緊急情況時,您可以透過一些簡單的設定和必要資料的還原、拷貝來啟用備用系統從而回復運轉。類似的,冷場所指的是一些當災難降臨時可起到備用做用的隔離設施。通常,所謂的冷場所不過是一個能容納大量桌椅的大房間。冷場所對於大多數中小型企業來說還是個奢侈品。
熱配備和熱場所。熱配備是一些隨時待命的裝置。例如,您將本機資料庫中的重要資料不間斷的複製到遠端設備中,這樣在需要的時候便可將用戶應用程式重新導向到備用資料。熱場所指那些在極短的時間內就能讓您回復運轉的設施--一般的熱場所應當能實現員工的隨到隨用。熱場所擁有即時或幾乎即時的備用資料且始終保持待命狀態。由於熱備件和熱場所的維護過於昂貴,因此只有那些非用不可的機構(如︰公共安全機構)才會考慮使用它們。
步驟五︰開發災難回復計畫
並非所有的事情都是可預知的或合理的。最好的例子莫過於2001年發生的911事件。面對這樣的浩劫或其他有可能導致資料和服務完全崩潰的重大災難時,您必須制訂出一套回復整個系統的計畫。災難回復往往要求緊迫,因此預備一套詳細備案的、經測試的、成熟的回復程式顯得非常重要。同樣,透過演練回復程式也能幫助您確認資料備份是否成功。務必對您的DRP副本和有效的資料備份實施異地儲存。就大多數組織而言,銀行的保管箱是實現資料備份和DRP遠端儲存的最有效、最經濟和最安全的解決方案。
步驟六︰測試業務連續性計畫並演練災難回復
測試、測試、還是測試。對於BCP和DRP而言,它們存在的最根本的目的就是在緊要關頭這些計畫、程式、技術必須有所作為。因此,有必要透過一些計畫的或隨機的測試來反覆錘煉您的BCP和DRP。這些測試應包含︰每月一次的叢集節點失敗演練、定期執行的冷配備伺服器還原工作,或冷、熱場所的災難應變模擬。就算上述幾項都沒做,您至少也應定期執行異地備份資料的還原工作。記住,異地備份是您抵禦資料遺失的最後一道防線。
六個步驟讓災難走開
按照這六個步驟,您完全有能力為您的機構制訂一套行之有效的BCP和DRP,從而儘量減少由自然災害、人為破壞或機械故障所帶來的風險。當您的手機再次在凌晨兩點鐘響起時,您就毋需為如何回復那些浸泡在水中長達30個小時的資料而絞盡腦汁了。
沒有留言:
張貼留言