這次開發出的數據保護工具,可確保關鍵數據集中的敏感個人信息通過嚴密檢查后再公開共享,比如用于跟蹤COVID-19疫情蔓延的數據集。
澳大利亞國家科學機構(CSIRO)下轄Data61專家小組、新南威爾士州政府、澳大利亞計算機協會(ACS)等多家機構合作開發了一款隱私保障工具,被命名為個人信息因素(Personal Information Factor,簡稱PIF),可評估任意數據集內的個人數據風險,建立起有針對性的高效保護機制。
傳統上,這類評估往往由領先的數據與隱私專家進行。如今,專家們可以使用計算機模型快速驗證數據敏感性評估結果。
自2020年以來,澳大利亞國家科學機構一直與本國網絡安全合作研究中心(CSCRC)合作探索增強這款工具的方法。
01 使用復雜的數據分析算法
PIF工具使用了一種復雜的數據分析算法,對數據集敏感信息的還原風險(已脫敏的個人信息是否還能與實際所有者重新匹配起來)做出評估。
自2020年3月以來,新南威爾士州政府一直使用這款工具的早期版本對州內的COVID-19疫情傳播數據集進行跟蹤,旨在保證數據內容公開發布前得到適當保護。
新南威爾士州政府首席數據科學家Ian Oppermann博士表示,“目前,PIF工具的作用可以說是獨一無二。它經歷了長期的合作與發展,源自各州、聯邦政府以及行業從業者們的不懈努力。”
“每一天,它都在幫助我們對新南威爾士州民眾的匿名COVID-19感染數據集進行安全性與隱私風險評估。在它的幫助下,我們能夠在公開發布數據內容之前,將敏感信息還原風險降至最低水平。”
Oppermann博士還提到,COVID-19進一步增強了公眾對于數據隱私需求的認識。
Oppermann博士指出,“考慮到社區對于不斷增長的COVID-19病例的強烈關注,我們需要在細粒度層級上及時發布關鍵信息,詳細介紹何時、何處確認了新的COVID-19病例。這項工作要求我們在疫情流行初期推理出可能的感染原因,并確認感染者的年齡范圍。”
“我們希望相關數據盡可能詳盡精準,同時切實保護與這些數據集相關的個人隱私與身份信息。”
02 數據去身份化方法可進一步提高隱私水平
澳大利亞國家科學機構Data61項目首席研究員兼高級研究科學家Sushmita Ruj博士表示,新的數據去身份化方法有望進一步提高隱私水平,并保證個人私密數據得到嚴格保護。
Ruj博士提到,“在研究了多種隱私指標之后,研究小組決定采取一種統一的衡量方法,用于評估對特定數據成功進行身份還原的風險水平。”
“PIF一直在探索新的方法,考慮如何消除各類能夠實現身份還原的攻擊方法,并據此對不同數據集采用量身定制的保護手段。以此為基礎,該工具將為各個數據集做出一項PIF評分。”
如果PIF高于所需的閾值,則程序將提出如何提高框架安全水平、證明數據集可以安全公開發布的相關建議。
澳大利亞網絡安全合作研究中心研究主任Helge Janicke教授表示,最重要的目標是在信息共享需求與保護隱私之間找到平衡點。Janicke教授提到,“在PIF的幫助下,各方可以充分了解風險水平,這無疑補充了相關工具領域的空白。”
“數據分析已經成為一項廣為人知的技術方案,但我們以往很難把握共享輸出結果的具體質量。正因為如此,PIF在根據指標評估關鍵數據共享行為的道德保障與負責任水平方面,發揮著極為重要的作用。借助這項技術,數據所有者可以全面評估與數據共享相關的風險與后續影響。”
PIF工具還可用于檢查其他有待發布的數據集,比如在COVID-19社交隔離期間收集到的家庭暴力數據與公共交通工具使用數據。CSIRO Data61與CSCRC將繼續開發PIF工具,并規劃在2022年6月之前進入外部推廣階段。