為什么談SAP數(shù)據(jù)脫敏?
SAP進(jìn)入中國市場(chǎng)超過30年,作為一個(gè)典型的德國思維的產(chǎn)品,我們很難找到另一個(gè)市值這么大的軟件,在過去的幾十年中,一直活的這么滋潤,沒有太多的挑戰(zhàn),而且軟件本身的變化肉眼可見的不大。
但近年來,這個(gè)固有的套路不斷的被挑戰(zhàn),背后的推手有很多,我個(gè)人理解較大有兩個(gè)。一個(gè)是AI的技術(shù),使得傳統(tǒng)SAP顧問不敢去想的一些功能,例如預(yù)測(cè)性分析,自然語言處理(NLP),圖像識(shí)別,RPA,Machine Learning,AI驅(qū)動(dòng)的業(yè)務(wù)流程優(yōu)化等等,變成了可能,另一個(gè)是數(shù)據(jù)治理和隱私保護(hù)的日益重視。不管是法律法規(guī)還是大家的意識(shí),都需要實(shí)現(xiàn)更先進(jìn)的數(shù)據(jù)治理和隱私保護(hù)功能,以確保數(shù)據(jù)的質(zhì)量、安全和合規(guī)性。
本篇是個(gè)知識(shí)分享篇,更多的是想借助團(tuán)隊(duì)剛剛完成的SAP數(shù)據(jù)脫敏的項(xiàng)目,聊聊相關(guān)的業(yè)務(wù)需求,系統(tǒng)架構(gòu)和技術(shù)實(shí)現(xiàn)的關(guān)鍵點(diǎn)。
SAP數(shù)據(jù)脫敏的需求有哪些
這里不去談什么高大上的定義和論述。更多的引述我們實(shí)際項(xiàng)目的需求。
第一個(gè)項(xiàng)目,一個(gè)體量龐大的德國S記跨國集團(tuán),需要把一塊業(yè)務(wù)板塊整體切割出去,屬于Carve Out 項(xiàng)目。切出去的系統(tǒng)除了SAP,還有若干個(gè)其他系統(tǒng),SAP是這些系統(tǒng)的骨干系統(tǒng)(Backbone system)。項(xiàng)目的公司代碼拆分部分,和第三方系統(tǒng)與SAP集成部分,都需要有大量的業(yè)務(wù)數(shù)據(jù)來支撐測(cè)試。因此,項(xiàng)目組同事以生產(chǎn)機(jī)為源系統(tǒng)(Source System),刷新(System Refresh)了一個(gè)新的系統(tǒng),其中只包含待切出業(yè)務(wù)板塊的數(shù)據(jù)。以這個(gè)新系統(tǒng)為測(cè)試系統(tǒng),提供給各路人馬進(jìn)行集成及測(cè)試工作。但這個(gè)德國企業(yè)嚴(yán)格遵循GDPR的要求,這個(gè)測(cè)試系統(tǒng)的數(shù)據(jù)必須對(duì)敏感數(shù)據(jù)進(jìn)行脫敏操作。待處理的數(shù)據(jù)主要是員工的個(gè)人信息(包含姓名,生日,住址,銀行信息,聯(lián)系方式,個(gè)人薪資,個(gè)人合同等等)。
第二個(gè)項(xiàng)目,是日本的一家生產(chǎn)辦公用品的A記公司。該公司需要升級(jí)SAP系統(tǒng),并集成更多的外圍系統(tǒng)。與S記公司類似,A記公司也準(zhǔn)備了包含生產(chǎn)機(jī)數(shù)據(jù)的測(cè)試系統(tǒng)。A記公司希望,除了員工數(shù)據(jù),也希望對(duì)BP數(shù)據(jù)進(jìn)行脫敏工作。
SAP數(shù)據(jù)脫敏的工具
市場(chǎng)上有幾款能完成SAP數(shù)據(jù)脫敏的工具產(chǎn)品。下面主要是介紹是SNP公司的TDO工具技術(shù)路徑講解和截圖。
SAP數(shù)據(jù)脫敏的關(guān)鍵要點(diǎn) – 系統(tǒng)架構(gòu)
考慮到方案的嚴(yán)謹(jǐn)性和運(yùn)作的持續(xù)性,用源系統(tǒng)-控制機(jī)-目標(biāo)系統(tǒng)的三位一體的架構(gòu)更好。 架構(gòu)可以參照一下圖例:
中間的Cockpit 控制機(jī)可以裝在SOLMAN上,如果SOLMAN條件不具備,也可以裝在源系統(tǒng)上。上述的功能點(diǎn)可以通過在安裝過程中引入TR的方式來實(shí)現(xiàn)。在此過程中,也需要注意權(quán)限的管控。
SAP數(shù)據(jù)脫敏的關(guān)鍵要點(diǎn) – 敏感數(shù)據(jù)的池化數(shù)據(jù)(Pool Data)
舉個(gè)例子說明這個(gè)要點(diǎn)。某員工的家庭住址信息需要脫敏,他的住址是上海市浦東新區(qū)金海路x弄x號(hào),郵編201209。我們?cè)鯓幼鲆粋€(gè)masking,用一個(gè)新的地址去替換呢?
我們不能用同一個(gè)地址強(qiáng)行付給所有的員工(或者BP),例如,北京市東長(zhǎng)安街天安門廣場(chǎng)。 這個(gè)不太嚴(yán)謹(jǐn),而且后續(xù)的一些業(yè)務(wù)流程也需要要到地址信息。
我們也不能用太虛假或自相矛盾的一個(gè)masking 數(shù)據(jù),例如,我們不能有一個(gè)地址是類似是天津市凱達(dá)格蘭大道這樣的。還例如,我們?cè)诿撁魡T工姓名及性別數(shù)據(jù)時(shí),不能太多的出現(xiàn),姓名王金剛,性別女這樣的數(shù)據(jù)。
脫敏的目標(biāo)是,以假亂真。數(shù)據(jù)本身要合理嚴(yán)謹(jǐn)完整。
SNP TDO中提供了Pool table的模板及部分?jǐn)?shù)據(jù)。模板參見下圖列表
我們以第一個(gè)pool table,address data?。ǖ刂沸畔ⅲ槔N覀兛梢赃\(yùn)行程序上載SAP中的PA0006表,或者BUT***表中的地址信息,可以在SE16中直接維護(hù)這張表(/SNP/CM05ADRPOOL)內(nèi)容。我們維護(hù)的結(jié)果如下(僅供示例之用)。
有了這張表,我們做data masking就有準(zhǔn)星了。我們可以從這張表中,由程序隨機(jī)挑選一條數(shù)據(jù)去替換員工的正式地址數(shù)據(jù)。當(dāng)然在實(shí)際項(xiàng)目中,我們可以選擇國家是否要替換,城市是否要替換。Masking程序會(huì)帶入這些選擇條件在Pool Table中隨機(jī)找到滿足條件的記錄來完成替換。
另外多說一句,這個(gè)隨機(jī)替換,有Random的實(shí)現(xiàn),也有Hash實(shí)現(xiàn)。這個(gè)是底層技術(shù),不清楚這個(gè)算法的同學(xué)直接跳過。但結(jié)果是確定的,就是SAP用戶們不可能根據(jù)新的地址去猜到這個(gè)員工(或者BP)是誰,或者他的真實(shí)地址是哪一個(gè)。
審核編輯 黃宇
-
SAP
+關(guān)注
關(guān)注
1文章
383瀏覽量
21638
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論