文獻標識碼: A
DOI: 10.20044/j.csdg.2097-1788.2022.02.004
引用格式: 魏宏原,華蓓,林飛. 面向數據共享的模型訓練服務系統[J].網絡安全與數據治理,2022,41(2):20-29.
0 引言
隨著物聯網、大數據、人工智能技術的發展,以及智慧城市、智慧醫療、電子商務等應用的廣泛普及,每天都有海量的數據產生,這些數據蘊涵了大量有價值的信息。但是另一方面,數據不足正成為當下制約人工智能發展的一大瓶頸。例如,深度神經網絡需要大量數據來訓練,但現實中大多數領域只有少量數據集可用,如自動駕駛只有數個公開數據集,醫學圖像領域不僅數據集少,且每個數據集僅包含數十或數百個病例。造成這種現象的原因主要有兩個方面,一是原始數據必須經過清洗和標注才能使用,而這一過程不僅費時費力,更可能需要專業人士的介入;二是目前各行各業的數據主要由政府和企業在收集,出于行業競爭、數據安全、管理制度等方面的考慮,這些數據不能被共享,形成了許許多多的數據孤島。如何在保護數據和使用數據之間取得平衡,是當下迫切需要解決的問題[1]。
一些企業和機構已經或正在建設數據共享和交易平臺來促進數據流通,如Exchange、數據堂、上海數據交易中心等。但目前這些平臺多以交易數據為主,用戶在付費之后擁有對數據的永久/指定期限訪問權,可以在數據上執行任意計算來挖掘感興趣的信息。這會帶來兩個問題,一是如果這些數據中包含敏感信息,直接開放給用戶下載會帶來數據安全問題;二是難以控制用戶對數據進行非法復制和傳播,數據可能被用于不正當用途。其實很多時候用戶只想利用數據來訓練他們需要的模型,對原始數據本身并不感興趣,向用戶提供數據的功能性服務而非直接提供數據,可以在一定程度上解決數據保護和數據使用之間的矛盾。比如,交通管理部門可在自有的城市出行數據上,為社會學研究人員訓練用于分析人群移動規律的數學模型。
本文提出面向數據共享的模型訓練服務系統,允許機構或企業利用自有數據集和自有計算資源,向用戶提供模型訓練服務(當然機構可以向用戶收費,但這不在本文討論的范圍內)。用戶只需指定需要的數據集并上傳自定義的模型結構(本系統主要考慮深度學習模型),系統可自動完成模型訓練作業,并向用戶返回訓練好的模型,真正實現“數據可用不可見”。提供數據的功能性服務接口而非數據本身,對于消除數據孤島、促進數據安全流通具有極為積極的作用
本文詳細內容請下載:http://www.j7575.cn/resource/share/2000004854
作者信息:
魏宏原1,2,華 蓓1,2,林 飛1,2
(1.中國科學技術大學 計算機科學與技術學院,安徽 合肥230027;
2.中國科學院無線光電通信重點實驗室,安徽 合肥230027)