前言:尋找寫作靈感?中文期刊網(wǎng)用心挑選的關(guān)于敏感數(shù)據(jù)脫敏策略技術(shù)的探索,希望能為您的閱讀和創(chuàng)作帶來靈感,歡迎大家閱讀并分享。
摘要:隨著互聯(lián)網(wǎng)、云計(jì)算、大數(shù)據(jù)等信息技術(shù)與通信技術(shù)的迅猛發(fā)展,社會逐步進(jìn)入了數(shù)據(jù)時代,數(shù)據(jù)在進(jìn)行采集、傳輸、交換和共享的過程中如果不采用必要的手段防止數(shù)據(jù)泄露,數(shù)據(jù)安全將無法得到保障。本論文從數(shù)據(jù)安全的角度出發(fā),研究了敏感數(shù)據(jù)的識別掃描方式,同時研究了敏感數(shù)據(jù)脫敏技術(shù)的處理過程和脫敏方式。
關(guān)鍵詞:敏感數(shù)據(jù);數(shù)據(jù)脫敏
1引言
信息化時代,海量數(shù)據(jù)在各種信息系統(tǒng)上被存儲和處理,其中包含大量有價值的敏感數(shù)據(jù)。不管企業(yè)還是政府單位,每天都在有意無意地收集、存儲、共享數(shù)據(jù),且規(guī)模越來越大。這些數(shù)據(jù)中包含了大量客戶的敏感信息和企業(yè)自身隱私數(shù)據(jù),這些數(shù)據(jù)已然成為企業(yè)發(fā)展的生命線,一旦出現(xiàn)數(shù)據(jù)泄露,不但影響企業(yè)的形象,還會造成不同程度的經(jīng)濟(jì)損失,甚至有些可能會承擔(dān)法律責(zé)任。數(shù)據(jù)在流轉(zhuǎn)過程中的安全性保證,已經(jīng)越來越受到企業(yè)的重視,對敏感數(shù)據(jù)脫敏處理可有效保證數(shù)據(jù)的安全。
2敏感數(shù)據(jù)識別掃描
通常情況下,根據(jù)梳理出的數(shù)據(jù)資產(chǎn),進(jìn)?敏感數(shù)據(jù)的?動探測,通過特征探測定位敏感數(shù)據(jù)分布在哪些數(shù)據(jù)資產(chǎn)中;針對敏感的數(shù)據(jù)資產(chǎn)進(jìn)?分級分類標(biāo)記,分類出敏感數(shù)據(jù)所有者(部門、系統(tǒng)、管理?員等);根據(jù)已分類的數(shù)據(jù)資產(chǎn)由業(yè)務(wù)部門進(jìn)?敏感分級,將分類的數(shù)據(jù)資產(chǎn)劃分公開、內(nèi)部、敏感等不同的敏感級別。數(shù)據(jù)分級分類按照下述原則進(jìn)行:1)數(shù)據(jù)分類依據(jù)數(shù)據(jù)的來源、內(nèi)容和?途對數(shù)據(jù)進(jìn)?分類;2)數(shù)據(jù)分級按照數(shù)據(jù)的價值、內(nèi)容敏感程度、影響和分發(fā)范圍不同對數(shù)據(jù)進(jìn)?敏感級別劃分。基于分類分級策略,參考公司企業(yè)標(biāo)準(zhǔn)數(shù)據(jù)安全分級標(biāo)準(zhǔn)的要求,并根據(jù)用戶自身的數(shù)據(jù)特點(diǎn)進(jìn)行優(yōu)化調(diào)整,針對不同類別、不同級別的敏感數(shù)據(jù),采用不同脫敏策略。
2.1敏感字段標(biāo)注
通常情況下,根據(jù)敏感數(shù)據(jù)構(gòu)成特征來設(shè)定,一般包含兩類,一類是個人隱私數(shù)據(jù),一類是企業(yè)經(jīng)營類數(shù)據(jù)。個人隱私敏感數(shù)據(jù)標(biāo)簽包括:身份證、手機(jī)號、銀行卡號、地址、郵箱等;企業(yè)經(jīng)營類敏感數(shù)據(jù)標(biāo)簽在各行業(yè)之間,區(qū)別較大,除統(tǒng)?社會信?代碼,營業(yè)執(zhí)照號碼,稅務(wù)登記證號碼,組織機(jī)構(gòu)代碼,車輛識別代碼等,可根據(jù)實(shí)際業(yè)務(wù)情況進(jìn)行合理定義。
2.2敏感字段識別
敏感字段識別主要有正則匹配,關(guān)鍵字,算法三種?式。通常情況下,銀?卡號、證件號、?機(jī)號,有明確的規(guī)則,可以根據(jù)正則表達(dá)式和算法匹配;姓名、特殊字段,沒有明確信息,可能是任意字符串,可以通過配置關(guān)鍵字來進(jìn)?匹配;營業(yè)執(zhí)照、地址、圖?等,沒有明確規(guī)則,可以通過?然語?算法來識別,使?開源算法庫。人工梳理敏感數(shù)據(jù)信息工作量繁重,為了提高效率,我們需要實(shí)現(xiàn)自動發(fā)現(xiàn)功能,例如敏感數(shù)據(jù)探測引擎,對數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行抽樣查詢,使用探測規(guī)則與查詢出的數(shù)據(jù)進(jìn)行匹配,當(dāng)滿足一定匹配百分比時,將數(shù)據(jù)確定為疑似敏感數(shù)據(jù),記錄數(shù)據(jù)庫中并在敏感數(shù)據(jù)分布結(jié)果中進(jìn)行展示。抽樣數(shù)據(jù)量以及探測結(jié)果匹配率可以通過實(shí)際情況進(jìn)行設(shè)定。獲取抽樣數(shù)據(jù)實(shí)現(xiàn)方案是,對表按照一定數(shù)據(jù)單位進(jìn)行等分,并從每個單位中隨機(jī)抽取數(shù)據(jù),然后根據(jù)隨機(jī)抽取的數(shù)據(jù)內(nèi)容進(jìn)行正則匹配。例如:某表數(shù)據(jù)庫量是2000,需要抽樣20條數(shù)據(jù),按500條數(shù)據(jù)量進(jìn)行等分,即2000條數(shù)據(jù),分成4份,從每份500條數(shù)據(jù)中,隨機(jī)抽樣5條數(shù)據(jù)進(jìn)行規(guī)則匹配。這種方式最大限度的保證了探測速度,并且保持了隨機(jī)性,探測結(jié)果相對更加準(zhǔn)確。對用戶現(xiàn)有數(shù)據(jù)源數(shù)據(jù)的敏感數(shù)據(jù)掃描,通過配置待掃描數(shù)據(jù)源列表,確定具體掃描任務(wù)的覆蓋范圍,逐一適配待掃描列表中的數(shù)據(jù)源類型,連接數(shù)據(jù)源,對數(shù)據(jù)源中的數(shù)據(jù)進(jìn)行抽取和抽檢;通過配置掃描任務(wù)的待檢測敏感信息正則表達(dá)式,確定掃描任務(wù)檢測的內(nèi)容,當(dāng)系統(tǒng)發(fā)現(xiàn)符合項(xiàng)時,將其記錄下來保存到數(shù)據(jù)庫,形成可視化的掃描報(bào)告。
3敏感數(shù)據(jù)脫敏
數(shù)據(jù)脫敏是指對敏感信息通過脫敏規(guī)則進(jìn)行數(shù)據(jù)變形,實(shí)現(xiàn)敏感隱私數(shù)據(jù)的可靠保護(hù)。數(shù)據(jù)脫敏也叫數(shù)據(jù)的去隱私化,在我們給定脫敏規(guī)則和策略的情況下,對敏感數(shù)據(jù)?如?機(jī)號、銀?卡號等信息,進(jìn)?轉(zhuǎn)換或者修改的?種技術(shù)?段,防?敏感數(shù)據(jù)直接在不可靠的環(huán)境下使?。像政府、醫(yī)療?業(yè)、?融機(jī)構(gòu)、移動運(yùn)營商是?較早開始應(yīng)?數(shù)據(jù)脫敏的,因?yàn)樗麄兯莆盏亩际?戶最核?的私密數(shù)據(jù),如果泄露后果是不可估量的。數(shù)據(jù)脫敏可以使數(shù)據(jù)本身的安全等級降級,這樣就可以在開發(fā)、測試和其它非生產(chǎn)環(huán)境以及外包或其它計(jì)算環(huán)境中安全地使用脫敏后的數(shù)據(jù)集。數(shù)據(jù)脫敏的應(yīng)?在?活中也是?較常見的,?如我們在淘寶買東西訂單詳情中,商家賬戶信息會被?*遮擋,保障了商戶隱私不泄露,這就是?種數(shù)據(jù)脫敏?式。
3.1數(shù)據(jù)脫敏分類
數(shù)據(jù)脫敏?分為靜態(tài)數(shù)據(jù)脫敏和動態(tài)數(shù)據(jù)脫敏:1)靜態(tài)數(shù)據(jù)脫敏靜態(tài)數(shù)據(jù)脫敏:適?于將數(shù)據(jù)抽取出?產(chǎn)環(huán)境脫敏后分發(fā)?測試、開發(fā)、培訓(xùn)、數(shù)據(jù)分析等場景。有時我們可能需要將?產(chǎn)環(huán)境的數(shù)據(jù)復(fù)制到測試、開發(fā)庫中,以此來排查問題或進(jìn)?數(shù)據(jù)分析,但出于安全考慮?不能將敏感數(shù)據(jù)存儲于??產(chǎn)環(huán)境,此時就要把敏感數(shù)據(jù)從?產(chǎn)環(huán)境脫敏完畢之后再在??產(chǎn)環(huán)境使?。這樣脫敏后的數(shù)據(jù)與?產(chǎn)環(huán)境隔離,滿?業(yè)務(wù)需要的同時?保障了?產(chǎn)數(shù)據(jù)的安全。2)動態(tài)數(shù)據(jù)脫敏動態(tài)數(shù)據(jù)脫敏:?般?在?產(chǎn)環(huán)境,訪問敏感數(shù)據(jù)時實(shí)時進(jìn)?脫敏,因?yàn)橛袝r在不同情況下對于同?敏感數(shù)據(jù)的讀取,需要做不同級別的脫敏處理,例如:不同??、不同權(quán)限所執(zhí)?的脫敏?案會不同。在抹去數(shù)據(jù)中的敏感內(nèi)容同時,也需要保持原有的數(shù)據(jù)特征、業(yè)務(wù)規(guī)則和數(shù)據(jù)關(guān)聯(lián)性,保證我們在開發(fā)、測試以及數(shù)據(jù)分析類業(yè)務(wù)不會受到脫敏的影響,使脫敏前后的數(shù)據(jù)?致性和有效性。?論是靜態(tài)脫敏還是動態(tài)脫敏,其最終都是為了防?組織內(nèi)部對隱私數(shù)據(jù)的濫?,防?隱私數(shù)據(jù)在未經(jīng)脫敏的情況下從組織流出。
3.2數(shù)據(jù)脫敏技術(shù)處理過程
數(shù)據(jù)脫敏技術(shù)對數(shù)據(jù)的處理基本經(jīng)過5個過程,分別是元數(shù)據(jù)識別、脫敏數(shù)據(jù)識別、數(shù)據(jù)脫敏方案制定、任務(wù)執(zhí)行及效果比對。數(shù)據(jù)脫敏技術(shù)處理過程如圖1所示:1)元數(shù)據(jù)識別數(shù)據(jù)脫敏平臺將脫敏文本讀入,脫敏平臺可設(shè)置讀入數(shù)據(jù)的行數(shù),默認(rèn)為文本格式,用戶可自行設(shè)置間隔符號;同時若文本文件中默認(rèn)不包含元數(shù)據(jù)頭文件,用戶可自行設(shè)置元數(shù)據(jù)名稱與格式。2)脫敏數(shù)據(jù)識別經(jīng)過元數(shù)據(jù)識別或設(shè)置后,文本脫敏的敏感數(shù)據(jù)識別與數(shù)據(jù)庫敏感數(shù)據(jù)識別是相同的,均按照元數(shù)據(jù)描述及抽樣數(shù)據(jù)本身特點(diǎn),使用系統(tǒng)的敏感數(shù)據(jù)掃描可識別出疑似敏感數(shù)據(jù)。3)定義脫敏方案在疑似敏感數(shù)據(jù)基礎(chǔ)上,用戶根據(jù)實(shí)際需求對需要脫敏的數(shù)據(jù)、脫敏規(guī)則進(jìn)行設(shè)置,形成文本文件的脫敏方案。4)脫敏執(zhí)行設(shè)置脫敏后數(shù)據(jù)的目標(biāo)(需支持到文件、到庫),脫敏執(zhí)行過程將數(shù)據(jù)抽取、處理、裝載一次性完成。5)脫敏后對比脫敏后數(shù)據(jù)用戶需在界面可見脫敏前后對比,對比的內(nèi)容包括:脫敏前數(shù)據(jù)條數(shù)、脫敏后數(shù)據(jù)條數(shù)等。
3.3數(shù)據(jù)脫敏?式
數(shù)據(jù)脫敏技術(shù)的目的是通過一定方法消除原始環(huán)境數(shù)據(jù)中的敏感信息,數(shù)據(jù)脫敏的數(shù)據(jù)處理方法是通過對指定的敏感數(shù)據(jù)進(jìn)行編輯,使得敏感數(shù)據(jù)不再含有敏感內(nèi)容,從而達(dá)到使人或機(jī)器無法獲取敏感數(shù)據(jù)的敏感意義的目的。數(shù)據(jù)脫敏的?式主要有如下六種方式。1)仿真仿真是根據(jù)敏感數(shù)據(jù)的原始內(nèi)容生成符合原始數(shù)據(jù)編碼和校驗(yàn)規(guī)則的新數(shù)據(jù),使用相同含義的數(shù)據(jù)替換原有的敏感數(shù)據(jù),例如姓名脫敏后仍然為有意義的姓名,住址脫敏后仍然為住址。仿真算法能夠保證脫敏后數(shù)據(jù)的業(yè)務(wù)屬性和關(guān)聯(lián)關(guān)系,從而具備較好的可用性。2)數(shù)據(jù)替換數(shù)據(jù)替換用某種規(guī)律字符對敏感內(nèi)容進(jìn)行替換,從而破壞數(shù)據(jù)的可讀性,并不保留原有語義和格式,例如特殊字符、隨機(jī)字符、固定值字符等。例如,采?特殊字符*代替真值,這種隱藏敏感數(shù)據(jù)的?法簡單,但缺點(diǎn)是?戶?法得知原數(shù)據(jù)的格式,如果想要獲取完整信息,要讓?戶授權(quán)查詢,?如我們將?份證號?*替換真實(shí)數(shù)字就變成了"220724******3523"。3)加密通過加密算法進(jìn)行加密。例如Hash(密碼算法)算法是指對于完整的數(shù)據(jù)進(jìn)行Hash加密,使數(shù)據(jù)不可讀,或如對稱加密,是?種特殊的可逆脫敏?法,通過加密密鑰和算法對敏感數(shù)據(jù)進(jìn)?加密,密?格式與原始數(shù)據(jù)在邏輯規(guī)則上?致,通過密鑰解密可以恢復(fù)原始數(shù)據(jù),要注意的就是密鑰的安全性。4)數(shù)據(jù)混淆混淆算法是將敏感數(shù)據(jù)的內(nèi)容進(jìn)行無規(guī)則打亂,從而在隱藏敏感數(shù)據(jù)的同時能夠保持原始數(shù)據(jù)的組成方式。例如,使用隨機(jī)值替換,字母變?yōu)殡S機(jī)字母,數(shù)字變?yōu)殡S機(jī)數(shù)字,?字隨機(jī)替換?字的?式來改變敏感數(shù)據(jù),這種?案的優(yōu)點(diǎn)在于可以在?定程度上保留原有數(shù)據(jù)的格式,往往這種?法?戶不易察覺的。5)數(shù)據(jù)偏移和取整這種?式通過隨機(jī)移位改變數(shù)字?jǐn)?shù)據(jù),偏移取整在保持了數(shù)據(jù)的安全性的同時保證了范圍的?致真實(shí)性,?之前?種?案更接近真實(shí)數(shù)據(jù),在?數(shù)據(jù)分析場景中意義?較?。?如下邊的?期字段create_time中2021-11-0816:15:25變?yōu)?018-02-0315:00:00。取整,數(shù)據(jù)脫敏規(guī)則在實(shí)際應(yīng)?中往往都是多種?案配合使?,以此來達(dá)到更?的安全級別。
4結(jié)論
為深入評估客戶敏感信息在創(chuàng)建、存儲、使用、傳輸和銷毀等過程中的安全風(fēng)險(xiǎn),綜合運(yùn)用多因素認(rèn)證、訪問控制、邊界防護(hù)、泄密檢測、密碼算法和技術(shù)、數(shù)據(jù)脫敏和安全審計(jì)等手段,切實(shí)提高客戶身份認(rèn)證和驗(yàn)證強(qiáng)度,防范敏感數(shù)據(jù)泄露、篡改、丟失和非授權(quán)訪問等風(fēng)險(xiǎn),越來越多的行業(yè)將采集數(shù)據(jù),利用大數(shù)據(jù)技術(shù)提高產(chǎn)業(yè)效率,從而推動產(chǎn)業(yè)升級。數(shù)據(jù)量將進(jìn)一步匯聚,規(guī)模將以指數(shù)級增長,數(shù)據(jù)脫敏技術(shù)的應(yīng)用場景將擴(kuò)展到國民經(jīng)濟(jì)的各個領(lǐng)域,隨著需求的增長和多樣化,數(shù)據(jù)脫敏技術(shù)也將得到長足的發(fā)展。
參考文獻(xiàn):
[1]劉雋良王月兵譚錦端等.數(shù)據(jù)安全實(shí)踐指南[M].機(jī)械工業(yè)出版社.2022
[2]張莉.數(shù)據(jù)治理與數(shù)據(jù)安全[M].人民郵電出版社.2019
作者:宗蕓 單位:中國聯(lián)合網(wǎng)絡(luò)有限公司天津市分公司