文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.2018.S1.032
0 引言
數據安全是信息安全的關鍵環節。在當今大數據技術和互聯網飛速發展的時代,數據是推動國家經濟與社會發展的重要戰略資源。在電力行業領域,隨著信息技術的深入應用,尤其是用電采集、SCADA等系統的應用,業務數據量呈爆炸式增長,數據中蘊藏的巨大商業價值被逐步挖掘出來,同時也帶來了巨大的安全挑戰——個人隱私信息的保護。2017年6月,《中華人民共和國網絡安全法》正式實施,其中對個人信息的保護做了明確規定,網絡運營者應當采取技術措施和其他必要措施,確保其收集的個人信息安全,防止信息泄露、毀損、丟失。
由于非線性數據量巨大,數據關系錯綜復雜,傳統的安全手段難以提供完善的保障,攻擊者可通過大數據技術還原信息、竊取隱私。因此,針對大數據應用建設過程中的安全問題,根據實際情況制定特有的數據脫敏規則加以保障,對提高電力大數據安全應用具有重要意義。
1 電力大數據脫敏策略研究
電力大數據的應用場景主要有重過載預測、日用電負荷預測、設備事故關聯分析、精準客戶服務、業務工單分析等,涉及用戶數據、工單數據、流程數據、用電數據、設備數據等。為了保護客戶隱私數據,提高電力信息安全,需要對重要數據進行脫敏。
數據脫敏又叫數據漂白或者數據去隱私化,通過一定的規則,對某些重要信息進行數據的變形,以實現對重要隱私數據的可靠保護。比如個人身份識別數據(personal identifiable data)、個人重要數據(personal sensitive data)和商業重要數據等,必須經過脫敏后才能使用,尤其是在大數據應用的開發測試階段。經過數據脫敏后的數據,就可以在規定的授權環境中使用。
在電力行業中,重要數據主要包括兩方面,一是工作中各業務系統的運行數據,包括內部郵件、組織架構、業務流程數據、各類工單數據、現場工作票數據、各類電表儀器實時量測數據等;二是客戶的個人信息,包括個人客戶的姓名、性別、年齡、住址、手機號、身份證號、銀行賬號等,單位客戶的名稱、地址、行業等。
本文通過研究一種自適用于電力大數據應用的數據脫敏手段,自適應于電力大數據場景中的數據脫敏分類,精準定位電力業務重要數據,從而實現電力業務數據的多層次安全防護。
2 重點內容及創新點
電力大數據脫敏的最大難點在于電力大數據不同業務場景下的數據安全(隱私保護)和數據信息價值兩者之間的平衡,因此,電力大數據應用建設中的重要數據保護需要在保護數據安全的基礎上更好地展現大數據的業務應用價值,從而為電力事業提供更高水平的服務。
2.1 脫敏規則遵循原則
(1)數據可用性需求:要求脫敏后的數據能夠滿足各業務部門的大數據應用需求。如分析用戶用電習慣,需要保留完整戶號信息、用戶電量信息,戶號作為用戶在電力系統里的唯一標記,可在電力系統里作為基礎查詢標識。而用戶姓名、性別、地址、聯系方式可以隱私數據可以脫敏展示。
(2)數據的邏輯關聯:為滿足大數據的分析邏輯特征、統計分布特征,對于復雜的業務,需要保留各種數據之間的關聯性。如工單數據分析,需要保留工單信息、客戶信息、內部流程信息等數據之間的關聯性。
(3)數據可重現性:采用相同規則和參數配置,相同源數據脫敏后的數據必須保持一致。
(4)脫敏規則可配置:可以結合應用需求和隱私保護的需要,動態配置脫敏規則及相關處理方法,從而滿足各種不同業務應用的需要。
2.2 數據脫敏分類分級方法
在電力行業的大數據應用建設過程中,因為數據的多樣性以及生產、營銷等應用各自的分析側重點不同,對數據脫敏細分提出了更高要求。基于電力大數據場景數據安全(隱私保護)和數據信息價值的共同追求,遵循以上數據脫敏規則,結合電網業務數據的實際情況,根據不同的應用場景,按用戶編號、客戶姓名、電話號碼、用電地址、身份證號等不同類別進行數據脫敏,并將數據脫敏工作按不同的數據類型分為三個等級,從一級到三級安全等級依次降低,從而實現了基于多層次安全等級防護的電力大數據應用建設。
下面就用戶編號、客戶姓名、電話號碼、用電地址、身份證號等不同類別數據進行等級劃分,具體舉例說明:
2.3 建立電力大數據脫敏管理平臺
電力大數據脫敏管理平臺及應用架構分別如圖1、圖2所示。
根據數據脫敏的規則以及本文提出的分類分級脫敏的設定,設計適用于電力大數據的數據脫敏機制:
(1)源數據層:電力大數據來源于電力系統內部各系統的數據,主要包括用戶數據、工單數據、流程數據、用電數據、設備數據等。
(2)脫敏處理:根據脫敏規則選取相應的脫敏算法,將原始數據進行拆分和脫敏存儲,并遵循設定的分級脫敏規則,對于重要數據進行分級脫敏并分別存儲,形成數據中間庫。
(3)脫敏中間庫存儲:中間庫重要數據采用單獨字段分級脫敏存儲,保證數據存儲的安全性。同時中間庫的應用也有助于提高系統的工作效率。
(4)脫敏數據服務:根據應用場景需求分析所要展示的數據及數據之間的關聯特性,并分析數據是否需要脫敏,自動識別脫敏的級別,從中間庫提取相關數據。如張三豐->張先生->張**->張*,某某某指揮部-> ***。系統同時進行數據的校驗,符合數據安全規則的交由應用層進行相關展示。
(5)電力大數據應用:根據各業務部門的需求,電力大數據的應用場景主要有業務工單分析、精準客戶服務、用電行為分析、設備故障管理分析、用電負荷預測。
采用本文的數據脫敏機制,在保證數據安全的基礎上,根據數據重要度不同的分級制度能夠更好地滿足業務場景應用。如進行業務工單的重復致電分析,需要展示的數據是電話號碼、戶號、姓名、地址、致電次數、關聯工單等。采用本方法的分級脫敏規則,電話號碼作為展示主體,采用三級脫敏,保留主要特征。戶號作為系統唯一標記不脫敏。用戶姓名、身份證、地址信息采用二級脫敏,保證用戶隱私。即保證了大數據應用的直觀展示,同時業務部門在系統中有據可查、有效處理,又保護了用戶的隱私,避免了數據安全風險。
2.4 應用實例介紹
以營銷服務工單熱詞分析場景為例,涉及的業務數據有全量工單數據、客戶基本信息數據、接入點信息數據、接入點計量表信息數據、計量表讀數數據、氣象數據,這些原始數據有數據量大、數據形態多樣性等特點,具體情況如下表:
3 結論
數據脫敏是電力行業信息化應用中的一個環節,現有的脫敏方法既要滿足大數據價值分析應用的需要,也要遵從整體信息安全治理的要求。本文研究了電力大數據典型應用場景下的數據脫敏分級分類方法,通過電力大數據脫敏管理平臺實現電力業務數據內容、性質及應用場景的自適應脫敏,分級分類脫敏,并對數據脫敏的框架提出建議及具體的脫敏執行方案,在保護用戶隱私、保證數據安全的前提下,滿足各業務單位、數據歸口單位、科技信息等部門大數據成果應用需求。
參考文獻
[1] 張沛,楊華飛,許元斌.電力大數據及其在電網公司的應用[J].中國電機工程學報,2014,34(增刊):85-92.
[2] 彭小圣,鄧迪元,程時杰,等.面向智能電網應用的電力大數據關鍵技術[J].中國電機工程學報,2015,34(3):503-511.
[3] 張沛,和怡,張大海,等.電力大數據應用的判斷原則[J].電力建設,2017,38(5):85-90.
[4] Datamasker. Data masking:what you need to know[J].A Net 2000 Ltd.White Paper, 2016.
[5] CHOUDRY B. Masking the data on cloud[J].International Journal of Advances in Computing, 2012,1(04):388—390.
[6] CASTELLANOS M, Zhang BaimenezI,et al. Data desensitization of customer data for use in optimizer performance experiments[M].IEEE International Conference on Data Engineering, 2010:1081-1092.
[7] Gartner.Gartner 2014 Magic Quadrant Data Masking Report[R].2015.
[8] 王繼業.智能電網大數據[M].北京:中國電力出版社.
作者信息:
黃凌宇1,叢中方1,趙 城2,葉紅星2,張豹鋒2
(1. 山東文登抽水蓄能有限公司,山東 威海264200;2. 北京易用視點科技有限公司,北京100144)