大数据环境下密码技术的研究
2021-10-08
来源:信息安全与通信保密杂志社
0 引 言
根据麦肯锡全球研究所给出的定义,大数据是“一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低等特征”。
随着云计算、物联网、5G及人工智能等新技术的迅速发展,人们可以通过海量的终端、感知元件等获得大量的信息化数据。利用这些数据对其进行分析,可以更加便捷地服务社会。在2019年全球数据量已超过41ZB的情况下,如何实现这些数据以达到人与物之间的互联互通,是各国业界目前都在讨论研究的课题。
发达国家方面,美国在2019年发布了《联邦数据战略第一年度行动计划(Federal Data Strategy Year-1 Action Plan)》草案。该草案包含了美国如何利用大数据来制定未来发展战略,提高整个社会效率。此外,英国政府正在研究如何利用交通行业的大数据来判定英国经济情况和制定经济政策。
我国在大数据领域的技术进展也不遑多让。2019年5月,我国成立了国家电网大数据中心;2019年,三大电信运营商也完成了全集团大数据平台的建设。
1 大数据环境下的安全风险
大数据在全球各行业都已取得了重大进展,但同时带来了很多问题,其中最大的问题是大数据的安全问题。2019年爆出的Collection#1数据集事件泄露了超过27亿个电子邮件/密码对;2019年9月6日,杭州魔蝎数据科技有限公司因用户隐私泄露被警方控制。
国内外用户隐私泄露事件频发,表明大数据的安全必须被重视。大数据技术具有5V特征,即Volume(体量大)、Variety(种类多)、Velocity(速度快)、Velocity(准度高)和Value(价值大),如图1所示。其中,体量大是指大数据技术中包含的数据规模巨大;种类多是指大数据技术来源的数据集多种多样;速度快是指大数据技术需要对数据进行快速处理;准度高是指大数据技术处理后的结果需要具有较高的准确性;价值大是指大数据技术可以带来很大的战略价值。
图1 大数据的5V特征
大数据环境下数据的安全概念来自于传统的信息安全的数据安全。传统的信息安全的目的是保障数据的机密性、完整性、可用性及不可否认性等。大数据环境下要保障数据在整个生命周期中的安全,即从数据产生阶段到数据销毁阶段都需要保障数据自身的安全和用户的隐私不被泄露,而使用密码技术是一种通用的手段。同时,密码技术也应满足大数据具有的5V特征,并且不影响大数据的处理速度。
大数据环境下,数据拥有者即用户希望将数据加密后上传至服务器,使数据处理方在不解密的情况下对密文数据进行处理。如此可以使得用户的隐私不会泄露,同时数据处理方也可以获得数据处理后的结果。当用户需要原始数据时,可以将密文数据从服务器处下载至本地进行解密操作得到原始数据。但是,这样会导致每一次用户上传下载都将消耗很多的网络带宽,同时加解密操作也需要大量的计算资源。为了解决上述问题,可搜索加密、全同态加密和安全多方计算等技术随之产生。
2 可搜索加密技术
数据拥有者将数据密文数据存储在云端,可以对个人的隐私进行良好的保护。但是,如果需要访问搜索自己保存在云端的数据,需要先将密文数据下载至本地再解密,会带来很大的通信和计算开销。如何使得数据拥有者在保障隐私的同时访问搜索自己的数据即密文索引,成为近年来的研究热点。
可搜索加密技术(Searchable Encryption,SE)可以满足数据拥有者既可以确保个人隐私不被泄露又可以通过索引搜索到存储在云端的数据。可搜索加密技术可以达到只有合法用户才具备基于关键词检索的能力,提供了加密和检索两种服务。加密保证了数据拥有者信息的机密性,在数据传输过程和云端都不会被泄露;检索保证了数据拥有者自身的隐私,同时提供了查询检索功能。
可搜索加密大体上可以分为两类:对称可搜索加密(Symmetric Searchable Encryption,SSE)和公钥可搜索加密(Public Key Encryption with Keyword Search,PEKS)。其中,对称可搜索加密主要是以基于索引的思想构建的,公钥可搜索加密的典型构造一般都是基于身份的公钥密码(Identity-Based Cryptography,IBE)。
可搜索加密有多种模式,下面介绍一种可满足大数据特征的模式,即授权委托模式。数据拥有者将原始密文和陷门发送至数据中心,数据中心收到密文后进行重加密(Re-crypt)步骤生成新的密文,原始密文只允许授权过的数据管理者查询关键词。如果其他的数据使用者想获得需要的明文,则必须通过数据管理者发送重加密密钥才能对新的密文进行解密,如图2所示。
图2 满足大数据特征的可搜索加密模式
3 安全多方计算技术
安全多方计算(Secure Multiparty Computation,SMC)是指有若干位互不信任、相互独立的数据参与方在分布式环境下通过共同计算得到对于每位数据参与方都公开的计算结果,但是无法获取其他数据参与方的输入数据。
安全多方计算基于姚期智院士在1982年提出的百万富翁问题。百万富翁问题的描述为“两个百万富翁的目的是比较双方的财富总量,但是并不想知道对方的财富具体数量,如何解决这一问题”。具体来说,就是为了让独立数据拥有者可以在不信任对方以及第三方的情况下进行隐私协同计算。安全多方计算中,假设有n位计算参与者,这些计算参与者的数据为图片。通过计算这些计算参与者共同得到一组数据图片,任何一位计算参与者都可以得图片,但是对于整个计算过程他们只能得到这一种结果。
正是基于百万富翁问题的假设,安全多方计算可以满足大数据环境下用户数据交由数据处理方进行操作,数据操作方只能得到处理后的结果而不能获得用户的具体数据图片,从而保护用户的隐私。
通常安全多方计算系统中,每个数据持有者由数据反馈、数据库和安全多方计算节点构成。所有的数据持有者权限相同,可以同时执行计算任务。各个数据持有者之间的数据流通称为数据流,而每个数据持有者在本地完成数据的处理并将处理后的结果发送给数据节点。这种系统可以保证在大数据环境下用户的隐私,如图3所示。
图3 安全多方计算系统
4 全同态加密技术
大数据通常与云计算技术结合使用,将大数据置于云存储服务器上,提供云服务的提供者为数据拥有者服务。但是,随之产生了一个问题,即数据拥有者需要信任云服务提供者,否则将会泄露数据拥有者的隐私。如何解决这一问题,是大数据与云计算技术协同合作的难题。
为解决这一问题,人们先将数据加密为密文,再将密文存储在云端进行处理,云服务提供者在不掌握数据持有者明文数据的情况下为数据拥有者提供计算等服务,这就是全同态加密的概念。
全同态加密最早是1978年Rivest等人提出的概念,即寻找一种密码技术可以对两个密文进行加和乘的操作,再对操作后的密文进行解密,所得的结果就是原始明文进行同样操作的结果。其后专家学者们为了寻找到满足这一特性的技术而不断努力,直到2009年,Gentry[9]在其博士论文提出了一种基于可以实现的全同态加密技术,被称为密码学界的“圣杯”。
如果存在一个适合大数据的全同态加密系统,那么数据拥有者可以将数据加密为密文,再将密文在云端进行处理。云端无法查看数据拥有者的具体数据,只可以对其进行处理,从而实现数据拥有者对自己隐私的有效保护。
5 大数据环境下密码技术展望
针对大数据环境下的密码技术,目前业内专家学者们已经对可搜索加密、安全多方计算和全同态加密技术进行了广泛及深入研究,并在电子投票、智能电网及区块链等不同领域取得了一定进展,但是仍然存在效率问题。当前认为解决效率问题的核心是优化算法性能,对于特定场景的算法优化可以使其在相应的应用领域提高效率。大数据环境下在满足大数据5V特征的前提下进行算法优化,对于整个大数据的应用研究至关重要。
另外,除了对算法本身研究优化外,还应该结合先进的分布式计算技术和密码芯片技术。其中,分布式计算可以整合共享算力资源,具有很高的计算负载均衡,并提高容错和可靠性,也可以提高算法的效率;密码芯片技术可以减低算法功耗,提高性能,并获得更高的安全性。
国家标准有助于规范行业的发展,提高行业竞争力。因此,大数据环境下应完善国家相关标准,保证数据本身的安全和数据拥有者的隐私安全,推动我国大数据行业健康发展。
6 结 语
大数据环境下的数据安全是目前大数据技术面临的重要问题,解决此问题的手段之一就是应用密码技术。大数据技术在实际应用场景下通常与云计算技术结合使用,即大数据在云端进行处理,但是云端对于数据拥有者而言是不可信的,最好的解决方法是通过密码技术将密文数据发给云服务提供者。本文对可搜索加密、安全多方计算和全同态加密技术进行介绍与分析,可以解决大数据安全中的用户隐私问题。但是,由于上述3种密码技术都需要对密文进行操作,面临大数据环境下数据规模巨大、操作流程复杂的情况,性能会急剧下降。因此,下一步的工作重点是优化技术,使其满足大数据的特征。