大數據、物聯網、深度學習等技術的發展,人工智能時代正在到來,商業級的AI應用如火如荼不斷深入。而人工智能的基本特征是需要收集和組合不同規模的數據、提取信息和知識進行自主學習、不同程度的自動化決策。一方面,需要海量用戶數據訓練出高質量的模型,另一方面,如何保證數據的安全和用戶的隱私也面臨巨大的挑戰。本文針對用戶數據用于AI模型訓練的場景下的數據安全和隱私合規風險,筆者結合DPO群里專家的意見,整理該文,拋磚引玉,希望能共同探討新技術、新應用的不同場景下如何開展數據安全和隱私合規。
一、AI模型訓練場景的相關問題探討
1、AI模型訓練過程用戶數據的處理方式
數據采集:通過配合式采集、獲取公開數據集的方式合法采集數據。
數據清洗:對數據進行技術處理,刪除無用數據、進行質量檢查、統一數據格式、刪除敏感信息數據脫敏、數據標注等。
數據運用:將清洗完畢的數據用于算法訓練。
數據管理:針對采集的數據及清洗后的數據,通過特定格式將數據以加密存儲的方式記錄在存儲介質上,并根據法規要求及內部數據合規制度要求進行管理。
2、關于AI模型訓練數據去標識化
AI模型訓練數據通常使用用戶使用產品/業務過程產生的數據,原始數據一般不需要用戶身份標識原始數據,因此在AI模型訓練時不建議將姓名、身份證、手機號等類型數據發送給使用方或者供應商,必須使用時需要對此類數據做去標識處理。
3、關于數據用于模型訓練的再次授權
個人數據用于模型訓練沒有豁免個人信息處理者的義務,所以仍然基于個人信息的敏感程度,獲取用戶的不同類別的授權,并且告知用戶訓練的基本邏輯,訓練后個人數據的后續處理方式(刪除/存留期)。但如涉及個人數據量大,無法做到對每個用戶進行再次詢問和獲取授權。此時考慮用戶原始授權的兼容性,及數據使用范圍是否擴大,綜合考慮是否需要再次獲取授權。
二、數據合規評估要點
1、業務必要性評估
遵循非必要不外發的原則,確認業務價值和必要性,數據外發是否為必要方式。業務方主管確認是否有數據外發的替代方案,確認數據外發的必要性。
業務方需詳細說明數據外發的業務邏輯和必要性,包括但不限于:業務場景描述、數據字段、渠道或方式、采取的安全控制措施、是否涉及數據交易、是否涉及用戶數據或用戶敏感數據、是否跨境、是否有用戶授權、與數據接收方的合作協議等內容。
在此基礎上,安全人員評估數據外發的業務必要性。
示例:
——在數據外發供應商,供應商用于AI模型訓練場景,用于定位客戶的明確的信息,例如手機號、身份證號等,不是訓練數據,訓練數據通常為用戶產生的數據,此時如需外發客戶身份證號、手機號等信息時評估結果為業務非必要。
——AI模型盡量在本地部署,避免用戶數據外發。
涉及數據出境時,應按照相關法律、法規和國家標準要求處理,并且外發審批流程須升級處理。
2、數據使用的合法性評估
業務必要性評估結果通過后,需要評估數據用于AI技術或模型訓練是否合法,即數據使用合法性評估。
數據接收方使用數據的目的和用途需要在用戶授權相關條款說明告知,獲得用戶授權。
合法性評估建議由法務、安全共同評估。
3、如涉及數據外發須評估數據接收方的資質
數據發送方須對開展數據合作的供應商或合作方在合作前進行安全評估,且簽署供應商保密協議。
應在保密協議或合同中,明確雙方在數據安全方面的責任及義務。明確說明數據使用的限制,包括使用目的、使用后立即刪除數據、處理結果僅用于某些產品、數據安全措施、以及違法協議的責任等。
示例:數據外發用于模型訓練的場景,應在保密協議或合同中明確數據的使用僅限于訓練,不能用于其他目的。明確模型的使用限制,數據使用結束后立即刪除用戶數據。
如有可能數據發送方應建立供應商或合作方誠信檔案,如有違反協議行為采取相應的處罰措施。
4、數據外發共享的安全要求
在必要性、合法性、接收方資質都評估通過的情況下,數據外發或共享渠道應加密傳輸。
數據外發或共享時,如涉及姓名、身份證等用戶唯一標識類數據,應進行去標識處理。
數據加密、去標識的加密算法應滿足安全要求。
示例:身份證號經過MD5哈希處理后外發給供應商,存在客戶身份證號被破解,重新定位用戶的可能。
用戶數據發送前,應與接收方明確告知隱私合規安全要求,明確數據期限和到期后清理刪除。
如數據接收方為企業供應商或合作伙伴,客戶數據進行訓練后的模型,建議在合同中約束模型使用的范圍。
以上是筆者總結的關于數據用于AI模型訓練需要進行數據外發或共享時需要進行的合規操作或評估要點,如有遺漏或錯誤,還望探討指正。(完)