面向数据共享的模型训练服务系统-AET-电子技术应用

面向数据共享的模型训练服务系统

网络安全与数据治理 2期

魏宏原1，2，华蓓1，2，林飞1，2

(1.中国科学技术大学计算机科学与技术学院，安徽合肥230027； 2.中国科学院无线光电通信重点实验室，安徽合肥230027)

摘要： 数据驱动的人工智能应用需要大数据支持，然而现实中因隐私保护等原因,数据往往互不流通,而以孤岛形式存在。如何实现数据安全可用是当前亟待解决的问题。设计和实现了面向数据共享的模型训练服务系统，通过向用户提供数据功能服务接口而非数据本身，实现数据可用不可见。重点针对资源受限的数据共享平台，设计了高效的资源分配和作业调度方法，特别是通过自动资源缩放来应对多变的工作负载，达到优化用户体验和提高资源利用的目的。实验表明，相较于常规的作业调度方法，本系统在各种工作负载下都具有响应服务请求快、作业完成时间短的优点。

关键词： 数据共享模型训练服务作业调度资源分配

中图分类号： TP14
文献标识码： A
DOI： 10.20044/j.csdg.2097-1788.2022.02.004
引用格式：魏宏原，华蓓，林飞. 面向数据共享的模型训练服务系统[J].网络安全与数据治理，2022，41(2)：20-29.

A model training service system for data sharing

Wei Hongyuan1，2，Hua Bei1，2，Lin Fei1，2

(1.School of Computer Science and Technology，University of Science and Technology of China，Hefei 230027，China； 2.CAS Key Laboratory of Wireless-Optical Communications，Hefei 230027，China)

Abstract： Data-driven artificial intelligence applications require the support of big data. However, in reality, most of the data do not circulate with each other due to privacy leakage. How to achieve data security and availability is an urgent problem to be solved. This paper designs and implements a data sharing-oriented model training service system. By providing users with data function service interfaces instead of the data itself, data availability is invisible. This paper focuses on resource-constrained data sharing platforms, and designs efficient resource allocation and job scheduling methods, especially through automatic resource scaling to cope with changing workloads, to optimize user experience and improve resource utilization. Experiments show that, compared with the conventional job scheduling method, the system has the advantages of fast response to service requests and short job completion time under various workloads.

Key words : data sharing；model training service；job schedule；resource allocation

0 引言

随着物联网、大数据、人工智能技术的发展，以及智慧城市、智慧医疗、电子商务等应用的广泛普及，每天都有海量的数据产生，这些数据蕴涵了大量有价值的信息。但是另一方面，数据不足正成为当下制约人工智能发展的一大瓶颈。例如，深度神经网络需要大量数据来训练，但现实中大多数领域只有少量数据集可用，如自动驾驶只有数个公开数据集，医学图像领域不仅数据集少，且每个数据集仅包含数十或数百个病例。造成这种现象的原因主要有两个方面，一是原始数据必须经过清洗和标注才能使用，而这一过程不仅费时费力，更可能需要专业人士的介入；二是目前各行各业的数据主要由政府和企业在收集，出于行业竞争、数据安全、管理制度等方面的考虑，这些数据不能被共享，形成了许许多多的数据孤岛。如何在保护数据和使用数据之间取得平衡，是当下迫切需要解决的问题[1]。

一些企业和机构已经或正在建设数据共享和交易平台来促进数据流通，如Exchange、数据堂、上海数据交易中心等。但目前这些平台多以交易数据为主，用户在付费之后拥有对数据的永久/指定期限访问权，可以在数据上执行任意计算来挖掘感兴趣的信息。这会带来两个问题，一是如果这些数据中包含敏感信息，直接开放给用户下载会带来数据安全问题；二是难以控制用户对数据进行非法复制和传播，数据可能被用于不正当用途。其实很多时候用户只想利用数据来训练他们需要的模型，对原始数据本身并不感兴趣，向用户提供数据的功能性服务而非直接提供数据，可以在一定程度上解决数据保护和数据使用之间的矛盾。比如，交通管理部门可在自有的城市出行数据上，为社会学研究人员训练用于分析人群移动规律的数学模型。

本文提出面向数据共享的模型训练服务系统，允许机构或企业利用自有数据集和自有计算资源，向用户提供模型训练服务(当然机构可以向用户收费，但这不在本文讨论的范围内)。用户只需指定需要的数据集并上传自定义的模型结构(本系统主要考虑深度学习模型)，系统可自动完成模型训练作业，并向用户返回训练好的模型，真正实现“数据可用不可见”。提供数据的功能性服务接口而非数据本身，对于消除数据孤岛、促进数据安全流通具有极为积极的作用

本文详细内容请下载：https://www.chinaaet.com/resource/share/2000004854

作者信息：

魏宏原1，2，华蓓1，2，林飞1，2

(1.中国科学技术大学计算机科学与技术学院，安徽合肥230027；

2.中国科学院无线光电通信重点实验室，安徽合肥230027)

微信图片_20210517164139.jpg

原创声明：此内容为AET网站原创，未经授权禁止转载。

相关内容