已加入收藏
已取消收藏
menu
帳號頭像 帳號選單下拉箭頭
/
熱搜內容
現正閱讀
公視外包釀禍》一旦發生,後果都是災難級別!如何避免「單點失誤」?
畫重點
段落筆記
新增筆記
「請稍等」英文別直接中翻英說please wait a minute!一次掌握,常用的電話對談英文
0
/500
不公開分類 公開分類
儲存
至頂箭頭

焦點 | 時事分析

公視外包釀禍》一旦發生,後果都是災難級別!如何避免「單點失誤」?

公視外包釀禍》一旦發生,後果都是災難級別!如何避免「單點失誤」?
公視片庫日前傳出災情,累計近5年、42萬筆新聞資料畫面遭外包公司人員全數刪除。 (來源:Dreamstime)
撰文者:傅瑞德
獨立觀點 2022/03/17
摘要

1.公視片庫日前傳出災情,累計近5年、42萬筆新聞資料畫面遭外包公司人員全數刪除。

2.不只是資料,企業中的營運、人事、資源管理、工作程序,都要避免「災難性單點失誤」出現。

3.我們必須假設,每一個程序都會出問題,並盡量將每一個可能出問題的環節錯開,將「單點失誤」導致全毀的機率降到最低。

4.如此預防性的設計,會像是免疫系統一樣,有助於資訊體系的健全、流程的順暢,以及資訊的安全與完整性。

財團法人公共電視新聞「片庫」驚傳重大災情,公視新聞部、客家電視台及台語台,近5年約42萬筆新聞資料畫面,竟遭外包資訊公司人員全數刪除,其中包括許多具歷史意義的珍貴影像,未來要剪輯相關畫面只能花公帑向華視購買。離譜的是,去年6月公視才遭駭客入侵,為防再遭駭客入侵,才找來專業資訊公司備份片庫等資料,沒想到竟出現如此低級錯誤。本刊調查,公視董事會已要求相關單位在24日前提出調查報告,並委託律師向廠商求償。——《鏡新聞》

以我當過業主、也當過外包廠商的經驗,把唯一一份資料交給外包廠商去備份,是最容易出錯的事情之一。不只是資料,企業中包括營運、人事、資源管理、工作程序等等,都必須遵循一個最高原則:絕對要避免讓「災難性的單點失誤」出現。

由於公視事件的詳細內情尚不清楚,所以這邊只是將它當作個引子,來討論一下「單點失誤」的問題。(本文所說的「備份」原則,如前面所提過的,雖然字面上談的是資料,但也適用於人事、財務、流程等等,請讀者自行推論聯想。)

廣告-請繼續往下閱讀

備份的原則

一般談備份,觀念上是從A複製出一份B,就算是備份了。確保A、B兩份符合以下標準的前提下,就算是完整的備份作業(這些前提適用於以下所有敘述,不再重複):

  • 備份作業成功、內容完整
  • A、B內容完全相同(行話叫做「mirrored」)
  • A、B內容可以各自獨立開啟

(圖表製作者:傅瑞德)

或許「完全相同」、「可各自開啟」看起來像是廢話;但在人類歷史上,備份完A、B內容不太一樣或有缺損,A打得開B打不開,甚至兩個都無法打開(如RAID 1嚴重損毀)的案例,都發生過太多,所以千萬不要覺得不可能。

以個人的非關鍵資料而言,或許從A到B的備份就夠用了;但是對於多人、多部門的企業而言,就必須有妥善的備份策略,才能避免如公視(和其他許多沒有上新聞的企業)這樣的慘劇發生。

廣告-請繼續往下閱讀

一切都要「分散」

理想的備份策略,不只要異地,還要多份、分時。部門在交出一份拷貝之前,自己也要先備份,而且不能同一時間備份在同一個地方。

異地、多份的觀念比較常聽說,「分時」則比較少人談。簡單的說,就是各部門不要在同一時間進行備份作業,以免特殊狀況(如公司大樓停電),導致同時進行的作業全部失敗。

總之,必須假設每一個程序都會出問題(這很正常,誰來做都一樣),但盡量將每一個可能出問題的環節錯開,將「單點失誤」導致全毀的機率降到最低。

以全公司的檔案備份而言,理想狀況下的基本策略應該是如下圖所示:

(圖表製作者:傅瑞德)

  • 各部門自己先將資料從A拷備份成B拷
  • 交出B拷給中央MIS(資訊管理系統,Management Information System)彙整成C拷,並備份成D拷
  • MIS將D拷交給外部廠商
  • 外部廠商將D拷做成E拷,再分散成異地或重複備份(行話叫做「redundant」)的F、G、H拷

在這個圖中,最容易出問題的有兩個地方:

  • 路徑重疊度越高的地方(例如前面提過的「同時停電」),所以要盡量錯開。
  • 只有單一路徑處,最容易出現「單點失誤」;如圖中間的部分,所以必須額外加上重複備份的安全措施。

中間的單一路徑部分,也可能在「安全措施」的單線處理中出錯,但至少C、D、E同時全部損毀的機率很低;而且萬一真的發生,也還有A、B階段的資料可以支援。

回過頭來看,即使在A拷階段就出錯,最糟也就是損失單一部門的資料而已,不會影響到其他部門。

人的問題

不過,除非公司中央的MIS有嚴格要求並執行,實務上會完整做到上述程序的公司很少;多半會省略其中一些步驟,甚至直接從A→C→E,沒有任何內部先備份,頂多MIS自己備個B拷留底,就交給廠商處理了。

而今天看到的公視新聞資料損毀情形,如果確定是「全毀無備份」,從這個狀況倒推,就是部門也懶得做備份、公司MIS也懶得留底,將一切回復到最原始的「A→B」做法,然後就在過程中發生了最違反資訊安全原則、最致命、損失最大,且最容易在不該發生的時候發生的「災難性單點失誤」。

這是十分常見的「人因問題」,我也在個人資料上犯過這種錯,所以十分明白這種「懶得做」、「沒碰沒責任」、「沒那麼倒楣」、「給廠商做就好」的心態。但如果MIS部分經過妥善的策略規劃,這些程序都可以全自動進行(排除「懶」和「部門責任」因素),也多用不了幾(十)顆硬碟,比起出狀況後的善後成本,實在便宜太多了。

設備的問題

新聞沒有明說廠商是用什麼方式備份,有其他報導指出廠商是用NAS網路磁碟機。但因為還無法確認,以下就從與事件無關的角度來談一下設備的事情。

我自己曾經是NAS的愛用者,但後來連續發生兩次主機板損毀、陣列重建失敗(不算是單點失誤,只是運氣很差),導致兩個備份全毀(幸好都已經先另外備份到雲端)之後,我對於NAS這種線上(不是網路的線上)備份機制就不再那麼信任了。現在則是改用雙重雲端備份,以及「定時備份到外接硬碟A,再設定程序自動將A備份到硬碟B」(如同前面所說的原則,A和B兩者都不是陣列,內容相同,而且可以獨立讀取)。

在正常的備份作業中,原始資料和備份資料同時完全損毀的機率不高,但確實會發生;除非是外部原因(如地震導致設備實體損毀或停電),多數的作業方式都只會造成備份資料因不完整而損壞,而不會損及原始資料。

依據我自己的經驗,最容易發生的設備配置就是磁碟陣列(RAID)。雖然許多種類的陣列設計都是以資料完整為目的,但在發生實體(如主機板)損毀之類的狀況時,往往分散儲存、甚至加密處理的陣列資料也是最難回復的。

以彙整資料的「線下」安全性備份(如上圖中的D和E步驟)而言,我認為反而「老式」的磁帶機、硬碟、或是RAID 1陣列,還比較安全。至於廠商,或許就用相對便宜的方式來處理(第一道備份千萬不要直接進NAS)。

結語

雖說不同的備份裝置有不同的特性,不同的資料型態、存取時間需求,甚至各家MIS主管都有自己的偏好,所以本文所提到的個人觀念(如「不要用NAS備份」)不一定大家都同意,每個人選擇的裝置、設計的程序也可能有所不同。

但如同一開始時所說,資料備份也好、人事佈局也好、投資策略也好,任何企業決策都一樣,避免風險最好的方式之一,就是透過機制的設計和資源(設備、人員、外部廠商等等)的配置運用,在整個流程中盡可能消除「災難性單點失誤」的可能性。

此外,雖然「消除單點失誤」屬於預防性的設計,但如果在數位轉型的過程中就已內化成體系的一部分,就會像是免疫系統一樣,有助於資訊體系的健全、流程的順暢,以及資訊的安全與完整性。

相信我,相對於出狀況後才彌補、事後才恍然大悟趕快建立流程,預防的成本會低得多。

*本文獲「吐納商業評論」授權轉載,原文:從備份到營運,都別讓「單點失誤」釀成企業災難

責任編輯:李頤欣
核稿編輯:易佳蓉

資料 單點失誤 備份 公視 外包廠商 流程改善 毀損
獨立觀點
獨立觀點
編輯精選
展開箭頭

匯聚專家真知灼見,打破思維框架,針對商業洞察、社會趨勢提供犀利評論。

廣告-請繼續往下閱讀
FOLLOW US
加入商周LINE好友 秒懂新商業
加入好友