要如何讓資訊安全的行為軌跡記錄會更即時更有效,在關鍵時刻反饋到公司安全治理(Governance)及風險預警上。讓各類難以解讀的軌跡記錄轉化成可以被分析的數據,並呈現具體警示和及時攔阻某些資訊安全行為。此時大家都會想到大數據的四個或五個V 的概念 ,筆者並不想放大「大數據」的傳奇,反而想回歸傳統數據分析,不是呈現是美麗的動態圖表,而是一種有意義的資訊安全趨勢建議。
大家都會從探詢軌跡分析工具,或是資安軌跡記錄整合工具下手,常見不外乎Splunk, Tableau分析工具、SIEM或BI整合應用。在數據分析為自動化前,其實工具使用是必要的,在導入時更需要訓練與熟悉 (數據分析困難之處不是工具的熟悉)。但是真正困難之處,是不同類型記錄交叉分析後的數據量尺的可靠度以及解釋力,最後才能賦予掌握預測相關趨勢,有興趣可以深入閱讀西內啟(Nishiuchi Hiromu)的「統計學, 最強的商業武器」一書。
將資訊安全軌跡記錄透過控制各類變因,排除干擾因素,將所蒐集的數值,再經過萃取轉換,而轉換成有意義的數值,且必須滿足統計計量相關標準,才有意義去賦予數值轉化成質化的解釋力,進而說明母體被分析後的真實意義或趨勢。簡言之,這樣的轉化過程就是將非結構化的資料合理轉化成為結構化的數值進行分析。
單就資訊安全軌跡記錄分析或預測可能可以滿足某些需求,但是如果要應用到駭客行為追蹤,可能需要搭配不同學門與經驗才會有意想不到的效果。舉一個筆者參與的應用系統入侵後鑑識案例:應用系統出現異常狀態,後門程式碼偽裝成正常程式碼,分別出現1ist.asp 以及HTTP Service 在凌晨1:00~2:00異常Web服務中斷服務但是80 Port SLA偵測正常。該如何追蹤分析呢!? 大家直覺是大概是駭客外部Injection入侵,但是兩者分別是「後因」與「後控」的關係,與真正入侵方式是無正相關的。
分析後發現來自一部內網另一部主機因被外單位借出時被植入木馬,透過木馬控制,取得後端資料庫控制權,將資料庫備份成一個aspx檔案(MS-SQL資料庫備份多為.bak檔),駭客為順利將資料庫資料取得,再透過資料庫SQL Command指令將1ist.asp檔案放置前端Web Application,為了欺騙「視覺」將該檔案偽裝成1ist.asp,進而取得內部資料庫。那 80 Port 偵測都是正常,為何Http Service為何在凌晨1:00~2:00服務中斷呢? 因為駭客為了往後長時期竊取資料,又不想再透過http方式取得,擔心被Access Log所記錄,於是在相同方式下,植入一支很知名後門程式,並將前端Web 伺服器提權取得Administrator權限後,將3389轉換成80,並設定排程在凌晨1:00~2:00轉換,成為他遠端桌面取資料或入侵其他主機好時間。
在上述案例中,單就軌跡記錄分析是不夠的,因為相關入侵作業長達一季的時間,每個hacking動作,都會中斷一段時間後,再繼續後續程序,況且相關記錄分析不是來自單一記錄型態,而多樣多來源記錄分析,才被發現這樣的入侵過程。其實還有個小插曲,就是Hacker為了怕被其他來源軌跡記錄反追蹤,又在某知名大學主機建立中繼站,將活動軌跡導向該校主機進行,從該校脆弱主機又可以輕易「抹」軌跡,乾乾淨淨,增加追蹤的難度。其實在軌跡記錄分析上,以人工搭配工具的處理,其實是十分費時費力的,筆者一直期待可以有更smart的分析系統,透過「微」資訊安全行為記錄,可以加速預測推估目前資訊安全的問題。這樣一來相關資訊安全記錄可以達到更貼近安全防護的效果,也才能賦予新的意義。
所以現今的數據分析,不能再是電腦與資訊科學的領域處理,數據分析需要結合數學、統計學(數據解釋力)、社會科學家(趨勢分析)、心理學家(駭客心理學),才能更有其價值。在前述案例中以人工方式是很難推測出四個月前駭客的動機的。過程會不會很困難呢!? 反過來說,想要馬上汲取到那些有用的「典範」或是「分析方程式」(這是最好的方式),都是需要進行一次又一次各類統計分析後,才能成為「有價」的方程式。不是嗎!?
在社會科學研究中這是很常見的質化與量化操作,可以在既有前人研究基礎上,或是在記錄巨大甚至混沌不明狀態下,推演找出某些趨勢。既然是趨勢,不用去質疑是否是「100%精確。」,但是統計分析的目的是在找出「多少百分比的解釋力。」而透過理論支持下,提早進行風險管控與犯罪預防,這才是統計分析的目的。建議可以去參考「穀倉效應」一書中的相關範例,再來思考統計分析的價值。當具備某些解釋力時,就可以預防或處理不少資安行為判讀麻煩,也是精品科技追求的目標。