國家保密局網(wǎng)站>>保密科技

工業(yè)數(shù)據(jù)脫敏技術研究

2022年03月21日    來源:國家保密科技測評中心【字體: 打印

【摘 要】 隨著兩化融合不斷深入和工業(yè)互聯(lián)的加速發(fā)展,工業(yè)領域開放互聯(lián)程度不斷提高。工業(yè)控制系統(tǒng)、生產(chǎn)信息系統(tǒng)等工業(yè)領域重要信息基礎設施產(chǎn)生的數(shù)據(jù)潛藏著大量敏感信息,具有巨大價值,一旦發(fā)生數(shù)據(jù)安全事件將可能造成難以估量的損失。為提高工業(yè)數(shù)據(jù)安全,保障敏感信息不被泄露,本文分析了當前工業(yè)數(shù)據(jù)脫敏現(xiàn)狀,研究提出工業(yè)數(shù)據(jù)脫敏方案,為企業(yè)保障工業(yè)數(shù)據(jù)安全提供借鑒。

【關鍵詞】 工業(yè)數(shù)據(jù) 敏感數(shù)據(jù) 數(shù)據(jù)脫敏

1 引言

新一代信息技術與工業(yè)領域的融合發(fā)展,推動了工業(yè)數(shù)據(jù)的流通共享。但敏感的工業(yè)數(shù)據(jù)若遭到篡改、竊取等,將會威脅工業(yè)生產(chǎn)、社會穩(wěn)定乃至國家安全。因此,迫切需要針對當前工業(yè)數(shù)據(jù)脫敏現(xiàn)狀,研究提出工業(yè)數(shù)據(jù)脫敏方案,對工業(yè)數(shù)據(jù)進行脫敏、審計和管理,支撐構建“可識別、可防護、可處置、可管理”的工業(yè)數(shù)據(jù)安全防護體系。

2 工業(yè)數(shù)據(jù)脫敏難點

2.1 工業(yè)數(shù)據(jù)脫敏現(xiàn)狀分析

在數(shù)據(jù)脫敏實踐方面,目前國內(nèi)重點行業(yè)企業(yè)已意識到工業(yè)數(shù)據(jù)安全的重要性,但在數(shù)據(jù)采集、傳輸、存儲、處理、交換共享等環(huán)節(jié),存在未進行有效的數(shù)據(jù)脫敏、直接使用原始敏感數(shù)據(jù)等現(xiàn)象。

在脫敏技術方面,工業(yè)企業(yè)使用的數(shù)據(jù)脫敏工具雖然具備一定的數(shù)據(jù)脫敏功能,但在技術細節(jié)方面仍有不足。一方面,內(nèi)置的數(shù)據(jù)脫敏算法較為單一,支持的數(shù)據(jù)源類型較少,無法滿足多種場景下多類型工業(yè)數(shù)據(jù)脫敏后的開發(fā)和測試使用;另一方面,數(shù)據(jù)脫敏工具在工業(yè)數(shù)據(jù)分類分級、敏感數(shù)據(jù)自動識別等方面的應用尚不成熟,脫敏算法、脫敏效率、脫敏機制等都有待提高。此外,部分數(shù)據(jù)脫敏工具不具備多維可視化功能,相關技術人員無法通過任務狀態(tài)、任務進度條、脫敏報告等自動獲取工業(yè)數(shù)據(jù)脫敏的即時情況。

2.2 工業(yè)數(shù)據(jù)脫敏難點分析

工業(yè)數(shù)據(jù)脫敏存在以下難點:一是工業(yè)數(shù)據(jù)種類多、格式多,導致工業(yè)數(shù)據(jù)脫敏需針對性解決海量、多源、異構等問題;二是工業(yè)數(shù)據(jù)間邏輯關系強,數(shù)據(jù)從產(chǎn)生到使用與產(chǎn)品生命周期密切相關,關聯(lián)分析準確性要求較高等,增加了工業(yè)數(shù)據(jù)脫敏技術難度;三是工業(yè)數(shù)據(jù)實時性、連續(xù)性等特點,以及工業(yè)時序數(shù)據(jù)的高維度、關系依賴性強特征使得工業(yè)數(shù)據(jù)的動態(tài)脫敏難度大。

3 工業(yè)數(shù)據(jù)脫敏方案

3.1 數(shù)據(jù)脫敏業(yè)務流程

數(shù)據(jù)脫敏業(yè)務流程主要包括敏感數(shù)據(jù)梳理、敏感數(shù)據(jù)識別、脫敏算法選擇、脫敏任務執(zhí)行、脫敏結果輸出5個步驟,如圖1所示。

3.1.1 敏感數(shù)據(jù)梳理

為使工業(yè)數(shù)據(jù)能夠安全共享使用,充分發(fā)揮其價值,首先需要梳理出其中的敏感數(shù)據(jù),并進行有效脫敏后再流通共享,確保敏感數(shù)據(jù)不被泄露或篡改。

3.1.2 敏感數(shù)據(jù)識別

敏感數(shù)據(jù)識別是數(shù)據(jù)脫敏的前提和關鍵。本文研究提出基于機器學習的工業(yè)敏感數(shù)據(jù)識別框架,如圖2所示。該識別框架通過從已標注的數(shù)據(jù)集中提取特征屬性,利用機器學習的方法構建識別模型,從而達到識別未知數(shù)據(jù)集的目的。相比傳統(tǒng)的數(shù)據(jù)識別方法而言,該識別框架可支持多種機器學習算法,具有性能卓越、兼容性強等優(yōu)勢。

3.1.3 脫敏算法選擇

依據(jù)不同的工業(yè)數(shù)據(jù)的類型、特征及脫敏需求,選取不同的數(shù)據(jù)脫敏算法,所采用的數(shù)據(jù)脫敏算法一般包括泛化、變形、遮蔽、隨機、替換、強加密和格式保留加密等。

3.1.4 脫敏任務執(zhí)行

脫敏任務執(zhí)行過程應支持任務的啟動、暫停、中斷、延續(xù)、終止等操作。

3.1.5 脫敏結果輸出

依據(jù)上述脫敏流程,輸出工業(yè)數(shù)據(jù)脫敏結果。

3.2 數(shù)據(jù)脫敏步驟

基于工業(yè)數(shù)據(jù)具有實時產(chǎn)生及動態(tài)增加等特征,相較于傳統(tǒng)的數(shù)據(jù)脫敏技術而言,批量數(shù)據(jù)脫敏技術可支持多種類型數(shù)據(jù)庫,且能一次性輕量級處理數(shù)據(jù),更能滿足工業(yè)數(shù)據(jù)脫敏需求。因此,本文選擇Sqoop技術對工業(yè)數(shù)據(jù)進行脫敏處理。具體脫敏流程可分為3個步驟,如圖3所示。

(1)數(shù)據(jù)抽取:工業(yè)數(shù)據(jù)可利用Sqoop技術從Oracle、SQL Server、MySQL、Informix、PostgreSQL、DB2、Sybase、EDB等常用數(shù)據(jù)庫,TimescaleDB、KairosDB等時序數(shù)據(jù)庫,以及文件、FTP等接口進行抽取。數(shù)據(jù)抽取過程可保證原始數(shù)據(jù)的完整性,還可保證數(shù)據(jù)之間的邏輯關系完整。

(2)數(shù)據(jù)脫敏:通過數(shù)據(jù)脫敏算法庫中的脫敏算法實現(xiàn)對敏感數(shù)據(jù)的轉換,在脫敏過程中要保持數(shù)據(jù)的關聯(lián)性和完整性,確保數(shù)據(jù)在同一系統(tǒng)中的一致性。

(3)數(shù)據(jù)分發(fā):工業(yè)數(shù)據(jù)脫敏后,通過數(shù)據(jù)庫、文件、FTP等接口進行分發(fā)。

3.3 數(shù)據(jù)脫敏規(guī)則

數(shù)據(jù)脫敏規(guī)則主要包括可恢復規(guī)則和不可恢復規(guī)則。可恢復規(guī)則是指可通過某種方式恢復原始數(shù)據(jù)的規(guī)則,如各類加解密規(guī)則。不可恢復規(guī)則是指使用任何方法都無法恢復原始數(shù)據(jù)的規(guī)則。對于工業(yè)數(shù)據(jù)而言,需要從數(shù)據(jù)的重要程度、用途、影響范圍等多種維度綜合確定數(shù)據(jù)脫敏規(guī)則。

3.4 數(shù)據(jù)脫敏系統(tǒng)

3.4.1 數(shù)據(jù)脫敏系統(tǒng)總體架構

工業(yè)數(shù)據(jù)脫敏系統(tǒng)通過采集SCADA、PLC、DCS、ERP等系統(tǒng),以及工業(yè)主機、數(shù)據(jù)庫等軟硬件設備的數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗、轉換等預處理過程,利用敏感數(shù)據(jù)識別與數(shù)據(jù)脫敏引擎實現(xiàn)對敏感數(shù)據(jù)的深度分析和脫敏處理。該系統(tǒng)通過設置脫敏算法選擇和脫敏任務執(zhí)行子模塊,可以實現(xiàn)靈活配置的目的。無論是針對已有還是新上的工業(yè)數(shù)據(jù)脫敏業(yè)務,該系統(tǒng)都能提供一套合適的數(shù)據(jù)脫敏方案。

3.4.2 數(shù)據(jù)脫敏系統(tǒng)功能

數(shù)據(jù)脫敏系統(tǒng)功能包括敏感數(shù)據(jù)梳理、敏感數(shù)據(jù)識別、脫敏算法選擇、脫敏任務執(zhí)行及安全管理5個模塊功能,如圖4所示。

(1)敏感數(shù)據(jù)梳理

數(shù)據(jù)脫敏系統(tǒng)應內(nèi)置完善的敏感數(shù)據(jù)特征庫,支持包括

Oracle、SQL Server、MySQL、Informix、PostgreSQL、DB2、Sybase、EDB等主流數(shù)據(jù)庫、TimescaleDB、KairosDB等時序數(shù)據(jù)庫的接入,并可支持自定義數(shù)據(jù)庫類型。

(2)敏感數(shù)據(jù)識別

數(shù)據(jù)脫敏系統(tǒng)應支持敏感數(shù)據(jù)的自動發(fā)現(xiàn)和識別,并且應配置多種識別策略。

(3)脫敏算法選擇

數(shù)據(jù)脫敏系統(tǒng)應支持多種脫敏算法并應具備完善的脫敏規(guī)則,以實現(xiàn)對不同業(yè)務系統(tǒng)、不同數(shù)據(jù)庫的脫敏操作。數(shù)據(jù)脫敏系統(tǒng)應設置專門的脫敏算法管理模塊,內(nèi)置包括數(shù)據(jù)替換、泛化、有損、混洗等常用的數(shù)據(jù)脫敏算法,基于機器學習、神經(jīng)網(wǎng)絡等方法的智能化脫敏算法,以及自定義脫敏算法,便于新業(yè)務應用或系統(tǒng)升級。此外,數(shù)據(jù)脫敏系統(tǒng)還應具備相對獨立的脫敏規(guī)則管理模塊,包括可恢復性規(guī)則和不可恢復性規(guī)則等。

(4)脫敏任務執(zhí)行

數(shù)據(jù)脫敏系統(tǒng)應具備完善的任務調(diào)度功能,包括狀態(tài)監(jiān)控、調(diào)試配置、參數(shù)管理、進度執(zhí)行、時間調(diào)用、命令行調(diào)用等。

(5)安全管理

數(shù)據(jù)脫敏系統(tǒng)應具備完善的安全管理模塊,包括系統(tǒng)安全管理、用戶權限管理和安全審計等。

4 結語

工業(yè)數(shù)據(jù)脫敏技術是數(shù)據(jù)脫敏與制造業(yè)相結合的技術產(chǎn)物,是工業(yè)企業(yè)、平臺企業(yè)等保護工業(yè)數(shù)據(jù)安全的重要技術手段。工業(yè)數(shù)據(jù)不僅包含工業(yè)生產(chǎn)圖紙、機理模型文件、指令代碼等,還包括大量的時序數(shù)據(jù)。如何面向工業(yè)時序數(shù)據(jù)進行脫敏處理成為工業(yè)數(shù)據(jù)脫敏技術須解決的難題。期待在不遠的將來,工業(yè)數(shù)據(jù)脫敏技術在現(xiàn)有工業(yè)數(shù)據(jù)脫敏方案的基礎上,可實現(xiàn)針對性更強、擴展性更好的功能。

 

 

(原載于《保密科學技術》2021年4月刊)


主站蜘蛛池模板: 色777狠狠狠综合| 人人狠狠综合久久亚洲婷婷| 国产成人综合久久精品| 国产亚洲欧洲Aⅴ综合一区| 一本色道久久88亚洲综合| 五月丁香综合缴情六月小说| 亚洲综合色婷婷在线观看| 人人婷婷色综合五月第四人色阁| 国产色综合天天综合网| 久久综合香蕉国产蜜臀AV| 亚洲一区综合在线播放| 亚洲综合久久精品无码色欲 | 天天欲色成人综合网站| 成人综合久久精品色婷婷| 亚洲综合精品成人| 色欲综合久久躁天天躁| 久久综合综合久久| 亚洲av成人综合网| 亚洲精品第一国产综合精品99| 色综合天天综合婷婷伊人| 综合五月激情五月开心婷婷| 国产成人综合久久精品下载| 久久99国产综合精品女同| 久久狠狠一本精品综合网| 国产精品综合一区二区三区| 亚洲妓女综合网99| 婷婷亚洲综合五月天小说| 亚洲狠狠婷婷综合久久| 精品无码综合一区二区三区| 伊人伊成久久人综合网777| 亚洲色欲久久久久综合网| 亚洲国产精品综合一区在线| 亚洲 自拍 另类小说综合图区| 亚洲伊人精品综合在合线| 国产成人综合精品| 中文字幕亚洲综合久久| 天天综合色一区二区三区| 曰韩人妻无码一区二区三区综合部| 亚洲AV综合色区无码另类小说 | 亚洲国产精品综合久久2007| 久久综合狠狠综合久久综合88|