墨奇科技:生物识别技术如何兼顾高性能和保护隐私?
2021-07-26
来源:墨奇科技
7月15日,在清华大学智能产业研究院(AIR)举办的“数据安全与可信AI”主题学术工作坊上,墨奇科技CEO 及联合创始人邰骋受邀做了主题为“高性能、保护隐私的生物识别技术”的报告。在报告中,邰骋阐释了如何将指纹识别问题转化为高精度图像搜索问题,业内首次达到 20 亿量级上的秒级、高精度、自动化比对,并介绍了保护隐私的生物识别技术特性和实现途径。
突破大库衰减的天花板,高性能生物识别的探索成为当务之急
随着以指纹识别为代表的生物识别技术在各类场景的广泛应用,如何在保证生物识别的性能同时保护用户的隐私成为一个亟待解决的时代命题。
生物识别技术一般来说有两种类型任务:第一种是验证,也称之为 1:1 的比对;第二种是识别,也称之为 1:N 的比对。1:N 的问题比 1:1 的问题要困难约N 倍,而且随着库容增大到20亿级别,这一问题会变得更加困难。
除了在亿级大库指纹识别任务中的技术挑战,传统指纹识别流程存在四方面问题:
一是很难自动化处理低质量的指纹图像,仍依赖于指纹专家对细节特征进行人工标注,技术门槛很高,效率却很低。
二是由于传统方法都是基于细节特征,而细节特征本身的精度就有限,只覆盖了指纹信息中的一小部分,曲率和几何信息都丢失了。随着数据库大小的增加,准确率会迅速下降,即“大库衰减”现象。
三是基于深度学习的方法需要大量的训练数据,但是这些数据并不易于获得。
四是在大型数据库比对上花费的时间过长。
墨奇科技一直致力于探寻新的技术路径来解决这些问题,并发现了一种可行的方式:将指纹比对问题转化为高精度图像搜索问题,并自主研发出了高精度图像搜索引擎技术,它包含三个部分:图像的自适应多尺度表示和索引系统、无标注或极少标注的自学习框架,以及高速异构的搜索系统。
图:多尺度特征
首先通过一个更有效的数学框架为指纹图像构建最佳的多尺度表示,让高精度、高性能的图像搜索成为可能。例如,在从像素到整体图像的每一个中间尺度上,都提取了标签(label)、向量(vector)和图(graph)等不同的特征,极大地扩充了指纹信息。
其次,只需要极少样本的AI自学习框架,让系统可以自学习,且需要的标注数据减少了几千至上万倍。
另外,超高性能的异构系统和架构,让准确性和速度提升。专门用于视觉搜索的异构多层分布式系统,针对多尺度特征进行了优化。对于量大且不需要高精度的图像,可以使用GPU来进行运算;而对精度要求较高的图像则调用CPU来进行运算,从而实现指纹图像的高速比对。
上图:需要人工标注细节特征
下图:无标注比对自动搜索指纹图像相似的区域
凭借这些思路以及底层的技术创新,墨奇科技的新一代指纹识别系统彻底改变了传统系统的工作流程,突破性地实现了 20 亿量级大库的秒级、高精度、自动化比对。这一技术目前已运用到了指纹以外的更多图像,如掌纹识别上,未来将推广到更广泛的图像搜索应用中。
保护隐私是未来生物识别技术发展的关键和难点
生物识别技术在许多应用中带来了便利,但由此引发的数据和隐私保护问题也日益凸显。生物识别技术的隐私问题不仅包括数据库泄露所带来的隐私泄露,也会面临着多种外部攻击:模仿攻击,设备替换,重放攻击,暴力破解等。因此,生物特征识别技术需要一种更有效的隐私保护机制。
墨奇科技认为,一个真正保护隐私的生物识别系统需要具备如下三点:
第一,不可逆。在给定比对特征的情况下,恢复原始的特征模板非常困难。这一特性防止了滥用存储的生物特征数据进行欺骗或重放攻击,提高了生物识别认证系统的安全性。
第二,可撤销。一旦某一个模板泄露或被认为不安全,就可以安全注销,然后签发一个新模板,这样就使得使用生物识别的方式和使用密码的方式一样可撤销。
第三,非关联性。这意味着想要确定一个或者多个变换后的模板是源于同一个原始特征,在计算上应该是困难的。也就是说,用户有不同的生物识别应用,但彼此之间并不关联。
只有满足上述三点的方案才可被称为可撤销的生物识别技术,其中有三种方案最具代表性:Biohashing 、Fuzzy Commitment 和 Fuzzy Vault。
第一种方案,Biohashing。这种方法的优点是由于需要同时借助原始生物特征模板和外部密钥两个因素验证,实际上提高了准确性。然而,该方案的缺点是仍需要记住密钥,且一旦密钥暴露,原始生物特征数据也不安全。
第二种方案,Fuzzy Commitment,使用纠错码技术,优点是可以看到用户不需要记住任何密钥,而缺点在于取决于纠错码的构造,可撤销性或者非关联性可能无法完全满足。
第三种方案,Fuzzy Vault,实际上假设原始生物特征模板包含图像的许多特征点,使用一组网格点对图像进行分区,并将这些特征点量化到网格,如果足够多的特征点是正确的,那多项式可以用Generalized Reed Solomon解码技术来恢复,否则,有很多错误点的多项式重建问题,实际上是 NP-hard 问题。这种方法的优点是多项式重建问题的难度保证了一定的安全属性,缺点是比对速度很慢。
图:Biohashing 、Fuzzy Commitment 和 Fuzzy Vault
总的来说,这三种方案各有优缺点,在准确性、安全性、比对速度等方面不能兼得。由此可见,研发保护隐私的生物识别相当困难,目前业内正在积极探索。
尽管保护隐私的生物识别技术尚未被广泛采用,但潜力巨大。这也正是墨奇科技持续努力的领域,墨奇科技也将继续致力于为数十亿人提供保护隐私、安全可靠的下一代身份认证和识别服务,引领高性能、保护隐私的生物识别,为生物识别行业演进出新的技术高度。