DLP 非常單純,因為它可以搜尋可能發送給未授權的收件者的關鍵資訊,比對文件內容,記錄操作行為,採取對應措施等。傳統DLP 依賴於靜態規則和正規表達式 (RegEx),例如搜尋特定關鍵字(例如機密專案的代號)或搜尋包含 9 個數位的字串(也許看起來可能像身分證號碼)。
然而,單單這還不夠,因為可能會錯過一些訊息。如果寄件者刻意小心的避免使用專案代號,則傳統 DLP 不會檢測到該郵件。安全團隊則須持續不斷提出規則來滿足每一種可能的組合,不但低效而且曠日廢時。而且正規表示式可能誤判,不含敏感內容的文件也會被標記。
如果 DLP 規則設置標註行動電話號碼為包含九位數的字串,則意味著本文中含有連續9個數字的訊息都會被標註,即便人可以一眼看出它不是電話號碼。傳統資料自動分類技術在處理複雜性高、變化快速的資料時,有幾個明顯的缺點:
- 需要大量人工干預
依賴人工定義規則或擷取已知特徵,例如使用正規表達式或手動選擇分類標準,這需要大量的領域專家知識和時間。隨著資料類型和內容變化(理如流行語),規則需要不斷更新和維護。
- 對資料多樣性適應能力差
面對高維度或非結構化數據(如非資料庫的一般文字、圖片)時效果不佳。很難處理語意模糊、多義詞或上下文相依的情境,例如像自然語言處理中的分類任務,固定規則難以應用。
- 對新類別和變化的應對能力有限
傳統方法無法輕鬆適應未見過的資料類別或動態變化的資料類型。如果資料分佈改變(如新增類別),需要手動調整規則,系統無法動態調整規則。
- 對大規模資料的效率不高
RegEx比對量大,通常無法有效處理大規模的資料集,尤其是在分類類別數量龐大或資料維度很高的情況下。
- 難以應對複雜分類問題
例如複雜資料型別的分類,全篇文章不含”會計”這二個字,但是全篇內容都是會計的數字運算。除此之外拼字錯誤,含有其他雜訊的訊息類型也無法被識別。
當數據主要儲存在本地端時,基於 RegEx 規則的 DLP 做得似乎還不錯。但隨著雲端服務和生成式 AI 的興起,非結構化數據資訊的龐大數量,和增長速度使傳統的 DLP 變得越來越難以應付。固定規則的特性容易產生大量的誤報,使安全團隊失焦疲於奔命,難以專注於真正的風險。使得當今的雲端服務環境中,防止數據資訊洩露就像大海撈針一樣;大量的操作與運算成本而效率低的可憐。
下一代 DLP 如何防止數據洩漏?
AI 研究最有趣的領域之一是在計算機系統中,如何使用自然語言(人類使用的語言)去(指使機器)工作,而不是建構(程式設計)語言(如 Java、C 或 Rust)依程序規則執行工作。自然語言處理 (NLP) 側重於機器能夠將人類語言作為輸入,並將其轉換為標準結構以輸出資訊。自然語言理解 (NLU) 則是解釋語言並識別理解所表達的上下文、意圖和情感。例如,NLP 會將句子“Please crack the windows, the car is getting hot.”作為字面上解釋(翻譯)為破壞窗戶,而 NLU 考量後文將推斷,該要求實際上是關於打開(車)窗戶的。
幸好對DLP來說還有另一種新的發展選擇:整合注入自然語言理解 (NLU) 的 DLP。與傳統的 DLP 工具不同,NLU 使用 AI 來分析和理解包含書面和口頭格式的人類語言。NLU 模型可以即時處理檔案中的文字訊息,從新數據中學習,而無需管理人員不斷輸入新規則。NLP資訊分類自動化的程度比起傳統規則要高得多。 基於 NLU 的 DLP 系統更加可靠,具有更高的準確性和更少的誤報。這意味著增強的合規性、更好的數據保護,最重要的是產出更少的雜訊,使安全團隊能夠專注於實際威脅而不是誤報。
能力較弱,對內部威脅著墨少,容易對例外情況產生誤報等。UBA 以使用者行為分析基準,能包括設備、應用程式等的異常活動,提供更全面的風險監控,更能精確的捕捉內部威脅。