文献标识码:A
DOI:10.20044/j.csdg.2097-1788.2022.02.004
引用格式: 魏宏原,华蓓,林飞. 面向数据共享的模型训练服务系统[J].网络安全与数据治理,2022,41(2):20-29.
0 引言
随着物联网、大数据、人工智能技术的发展,以及智慧城市、智慧医疗、电子商务等应用的广泛普及,每天都有海量的数据产生,这些数据蕴涵了大量有价值的信息。但是另一方面,数据不足正成为当下制约人工智能发展的一大瓶颈。例如,深度神经网络需要大量数据来训练,但现实中大多数领域只有少量数据集可用,如自动驾驶只有数个公开数据集,医学图像领域不仅数据集少,且每个数据集仅包含数十或数百个病例。造成这种现象的原因主要有两个方面,一是原始数据必须经过清洗和标注才能使用,而这一过程不仅费时费力,更可能需要专业人士的介入;二是目前各行各业的数据主要由政府和企业在收集,出于行业竞争、数据安全、管理制度等方面的考虑,这些数据不能被共享,形成了许许多多的数据孤岛。如何在保护数据和使用数据之间取得平衡,是当下迫切需要解决的问题[1]。
一些企业和机构已经或正在建设数据共享和交易平台来促进数据流通,如Exchange、数据堂、上海数据交易中心等。但目前这些平台多以交易数据为主,用户在付费之后拥有对数据的永久/指定期限访问权,可以在数据上执行任意计算来挖掘感兴趣的信息。这会带来两个问题,一是如果这些数据中包含敏感信息,直接开放给用户下载会带来数据安全问题;二是难以控制用户对数据进行非法复制和传播,数据可能被用于不正当用途。其实很多时候用户只想利用数据来训练他们需要的模型,对原始数据本身并不感兴趣,向用户提供数据的功能性服务而非直接提供数据,可以在一定程度上解决数据保护和数据使用之间的矛盾。比如,交通管理部门可在自有的城市出行数据上,为社会学研究人员训练用于分析人群移动规律的数学模型。
本文提出面向数据共享的模型训练服务系统,允许机构或企业利用自有数据集和自有计算资源,向用户提供模型训练服务(当然机构可以向用户收费,但这不在本文讨论的范围内)。用户只需指定需要的数据集并上传自定义的模型结构(本系统主要考虑深度学习模型),系统可自动完成模型训练作业,并向用户返回训练好的模型,真正实现“数据可用不可见”。提供数据的功能性服务接口而非数据本身,对于消除数据孤岛、促进数据安全流通具有极为积极的作用
本文详细内容请下载:https://www.chinaaet.com/resource/share/2000004854
作者信息:
魏宏原1,2,华 蓓1,2,林 飞1,2
(1.中国科学技术大学 计算机科学与技术学院,安徽 合肥230027;
2.中国科学院无线光电通信重点实验室,安徽 合肥230027)