FineArt News

用AI看資安數據

勾勒出一種可能

關於Forget Killer Robots: Autonomous Weapons Are Already Online (忘記殺手機器人:自主武器已經在線),其實主要在探討AI自主武器問題,該文章點破一個十分重要事實,所謂AI自主武器已經在Cyberspace廣泛應用,唯一的差異就是沒有實際應用在殺害人命層面。因為「intelligent autonomous agents」的惡意程式或行為用在竊取人的相關數據已經存在,且越形成熟,數量也逐漸增加。

當我們面對快速發展的「自主惡意活動」,站在「資安」防守方,必須加緊腳步建立更有效防禦手段。雖然許多論述,往往在觸及人的隱私活動時,總讓相關惡意行為分析綁手綁腳。在面對快速且自動化惡意行為時,傳統「手工分析」或是「半自動」模式下,讓相關軌跡數據分析,通常只呈現某些態樣,例如跑統計圖表與視覺呈現,近期出現EDR的相關產品也不夠全觀,最終必須搭配人的智慧與邏輯,才能勾勒出一個可能的模式。

所以在人的角度處理分析上,就會觸碰到記錄背後所擬態出的「人」的隱私與行為模式。反觀若讓AI介入分析,導入資安專業Domain為基礎,那麼人會碰觸的隱私與行為數據,將會大幅減少,只針對有問題惡意程序與行為活動,進行警示禁止(最好狀態),或是需要人的介入分析,也可以大幅降低觸及人的隱私資料,資安防護手段能更有效抑制惡意程序行為發生,兼顧降低隱私侵犯的疑慮。

 

資料清洗與標記必然過程

不分產業別,在Loading Data後,進行Data的雜訊清洗,留下具分析價值數據,是人工智能與數據統計重要前置工作,要準備多少Data來進行後續的處理,取決採用哪種智能分析模式,例如:對抗式學習、監督式學習、RNN、CNN…等。接著進行Data Exploring,進行數據「預處理」,在資安數據中以上網行為記錄中,最常見且區要先規類的,就是在瀏覽器URL位置直接輸入查詢關鍵字或是公司內預設頁面。可以查詢關鍵字又可區分出有意義與無意義的資料,例如:輸入法錯誤的字串…等。

接著我們必須進行Data的Binning、Rescale及Recode,例如:區分內網與外網,往往在127.0.0.1會被我們界定在Localhost的內網上,可是一旦專家知識介入後,會發現127.0.0.1卻是存在著風險,例如代上特定通訊埠,有可能是ZeronNet翻牆行為,所以在Data的Binning過程中,就是需有效分析歸類。而在Rescale以及Recode的層面上,應將部門屬性與職級加入,因為代表著可以接觸的資料與網路活動的差異,再者把時間的因素進行Rescale。舉凡上班、下班、加班或是部門關閉活動時間加入,就可以找出在非人為時段,背景上網的特異網路活動。在資料標記上,尤其用再多螢幕畫面擷取與行為事件連結,或是特殊微量惡意行行為,建議以標註方式,來將顯Data在數據分析時,快速可用性。當然還有許多專業分析無法在文中一一呈現,但是很重要很重要的一點,數據蒐集工具的搭配,才是挖掘出潛在風險重要基礎。