DLP的內容分析還有進步的空間

: 精品科技資安顧問陳育徽; 2025/01/20

DLP的內容分析還有進步的空間

DLP 非常單純，因為它可以搜尋可能發送給未授權的收件者的關鍵資訊，比對文件內容，記錄操作行為，採取對應措施等。傳統DLP 依賴於靜態規則和正規表達式（RegEx），例如搜尋特定關鍵字（例如機密專案的代號）或搜尋包含 9 個數位的字串（也許看起來可能像身分證號碼）。

然而，單單這還不夠，因為可能會錯過一些訊息。如果寄件者刻意小心的避免使用專案代號，則傳統 DLP 不會檢測到該郵件。安全團隊則須持續不斷提出規則來滿足每一種可能的組合，不但低效而且曠日廢時。而且正規表示式可能誤判，不含敏感內容的文件也會被標記。

如果 DLP 規則設置標註行動電話號碼為包含九位數的字串，則意味著本文中含有連續9個數字的訊息都會被標註，即便人可以一眼看出它不是電話號碼。傳統資料自動分類技術在處理複雜性高、變化快速的資料時，有幾個明顯的缺點：

需要大量人工干預
依賴人工定義規則或擷取已知特徵，例如使用正規表達式或手動選擇分類標準，這需要大量的領域專家知識和時間。隨著資料類型和內容變化(理如流行語)，規則需要不斷更新和維護。

對資料多樣性適應能力差
面對高維度或非結構化數據（如非資料庫的一般文字、圖片）時效果不佳。很難處理語意模糊、多義詞或上下文相依的情境，例如像自然語言處理中的分類任務，固定規則難以應用。

對新類別和變化的應對能力有限
傳統方法無法輕鬆適應未見過的資料類別或動態變化的資料類型。如果資料分佈改變（如新增類別），需要手動調整規則，系統無法動態調整規則。

對大規模資料的效率不高
RegEx比對量大，通常無法有效處理大規模的資料集，尤其是在分類類別數量龐大或資料維度很高的情況下。

難以應對複雜分類問題
例如複雜資料型別的分類，全篇文章不含”會計”這二個字，但是全篇內容都是會計的數字運算。除此之外拼字錯誤，含有其他雜訊的訊息類型也無法被識別。

當數據主要儲存在本地端時，基於 RegEx 規則的 DLP 做得似乎還不錯。但隨著雲端服務和生成式 AI 的興起，非結構化數據資訊的龐大數量，和增長速度使傳統的 DLP 變得越來越難以應付。固定規則的特性容易產生大量的誤報，使安全團隊失焦疲於奔命，難以專注於真正的風險。使得當今的雲端服務環境中，防止數據資訊洩露就像大海撈針一樣；大量的操作與運算成本而效率低的可憐。

下一代 DLP 如何防止數據洩漏?

AI 研究最有趣的領域之一是在計算機系統中，如何使用自然語言（人類使用的語言）去(指使機器)工作，而不是建構（程式設計）語言（如 Java、C 或 Rust）依程序規則執行工作。自然語言處理（NLP）側重於機器能夠將人類語言作為輸入，並將其轉換為標準結構以輸出資訊。自然語言理解（NLU）則是解釋語言並識別理解所表達的上下文、意圖和情感。例如，NLP 會將句子“Please crack the windows, the car is getting hot.”作為字面上解釋(翻譯)為破壞窗戶，而 NLU 考量後文將推斷，該要求實際上是關於打開(車)窗戶的。

幸好對DLP來說還有另一種新的發展選擇：整合注入自然語言理解（NLU）的 DLP。與傳統的 DLP 工具不同，NLU 使用 AI 來分析和理解包含書面和口頭格式的人類語言。NLU 模型可以即時處理檔案中的文字訊息，從新數據中學習，而無需管理人員不斷輸入新規則。NLP資訊分類自動化的程度比起傳統規則要高得多。基於 NLU 的 DLP 系統更加可靠，具有更高的準確性和更少的誤報。這意味著增強的合規性、更好的數據保護，最重要的是產出更少的雜訊，使安全團隊能夠專注於實際威脅而不是誤報。

能力較弱，對內部威脅著墨少，容易對例外情況產生誤報等。UBA 以使用者行為分析基準，能包括設備、應用程式等的異常活動，提供更全面的風險監控，更能精確的捕捉內部威脅。

資安新知

DLP的內容分析還有進步的空間

下一代 DLP 如何防止數據洩漏?