為何需要Machine Learning應用在資安數據分析

: 精品科技資安顧問陳伯榆; 2016/11/15

為何需要Machine Learning應用在資安數據分析

Machine Learning將是數據分析重要里程碑

大數據分析透過Machine Learning朝向自動化分析，也將會重繪資訊安全、技術發展、人力資源、社會階層、以至新興戰爭型態。在大演算法一書中，提出自動作業將會取代多數工作，而「智人」(Homo Sapiens)將是管控自動化核心角色。簡言之，在演算法下新自動分析將影響未來人類生活。

而大數據與Machine Learning整合應用將縮短數據分析與預測。若是從學術角度來看，百年來五大學派(Symolists、Connectionaries、Evolutionaries、Bayesians、Analogizers) 將會匯流或分裂後，產生新的典範，讓大數據分析有更好的發展，這是可以預見的未來。資安數據分析之風險預測與資安分析都將是一個機會，而跟隨上這波潮流。

為何數據分析越來越精準

但是演算法並非萬無一失，當演算法超越人腦的理解，其交互影響下，就會有隱性錯誤的產生。換個角度以「烹飪」來舉例，當廚師烹飪一道之前沒嘗試過的創新美食，總需要在味覺與嗅覺，多次修正才能是道美食。而這些修正就像是演算法的隱性錯誤一樣，需要調整。只不過是朝向自動化的調整方式在進行著。

所以這些錯誤，經過自動化判讀後，可能會砍掉重練，創造新的自動分析模式。這樣的過程是十分重要的程序。從資安數據分析來看，透過不斷的演化，所創造的方法論才會越精準。而不會在資安行為誤判中讓人意外構陷入罪。必須降低判斷資訊安全風險事件時，因微量出現誤判的問題。

舉例來說，在使用行為中，發現有人違反管控連結進入賭博網站。我們是否開判定該使用者行為違反管制政策，而進行懲罰規範呢!? 其實只需利用演算法概念來看，要建立各種檢核機制，與分項因素數據統計：包含(1) 停留時間長短；(2) 是否還相關賭博程式觸發與連結；(3) 在當下行為時間的的多螢幕記錄…等多種因素(請參照下圖一)。

machine-learning

經過演算判讀，發現是使用者連結正常頁面資料時，可是該網頁內容程式，主動嵌入一段賭博網站連結，且iframe=0，隱藏在背景執行所造成的資安風險軌跡記錄。所以該員工不應該為軌跡記錄而受到懲罰。這樣的判讀過程，就必須依賴不斷Machine Learning來建立精準的方法論

再舉另一個案例與大家分享。傳統我們認知員工離職可能前往求職網站查詢資料表示可能離職。這樣的分析方式，稍嫌主觀與薄弱。如果我們利用社會科學分析方式，再搭配相關軌跡記錄分析，有了驚奇的不同發現。可能有其他因素，才是造成離職的主因。例如：壓力因素，舉凡家人要求或是親人重病；此外諸如其他軌跡因素，如：(1) 察覺到大型貨運資訊的尋找；(2) 搜尋欲前往之所在地資訊租屋資訊；(3) 搜尋所在地優質或職能相關之企業求人資訊…等。而求職網站之搜尋，只是眾多因素之一。換言之，看過求職網站並不代表甚麼意義，或許是人資主管在看應聘人資訊而已。

當程式可以由電腦自動編寫

「當程式可以由電腦自動編寫」，聽起來挺嚇人的，其實並不遠了，在筆者撰寫本文當下，Google AI 自動創造出沒人知道的加密演算法。筆者用希臘神話中的Hydra「九頭怪」來解釋上述複雜問題 (在古希臘Hydra「九頭怪」頭被砍下後，會自動長出新的頭)，機械學習不也是個開端。前述說過，當演算法可以自動修正錯誤，那程式自動修正也不是問題。簡言之，要機器自己學習演算，就像Hydra九頭怪一樣，不斷修正錯誤，會周而復始的再生，不斷精煉完美。或許你會問味覺的酸甜苦辣，或是情感的喜怒哀樂…等。現階段機器並不懂，只不過相關演算分析還沒被完美設計出來罷了。

結論

現階段仍無法排除人的介入與分析，但是長久下來所累積的方法論，就可以逐漸累積出更自動化的分析方法，這樣一來就可以減少「人」的情感的干擾，而更為精確。

資安新知