中文引用格式:吴磊,汪杭军. 基于预训练模型的基层治理敏感实体识别方法[J]. 电子技术应用,2023,49(9):109-114.
英文引用格式:Wu Lei,Wang Hangjun. Identification method of sensitive entities in grassroots governance based on pre-training models[J]. Application of Electronic Technique,2023,49(9):109-114.
0 引言
随着中国特色社会主义进入新时代,构建现代化的基层治理体系对乡村振兴和国家长治久安意义重大,而治理体系现代化需要信息化要素的融入[1]。基层治理数字化产生的大量数据经过数据分析与挖掘,可用于乡、镇、街道的信息化、智慧化建设。这些数据难以避免地会包含个人隐私信息,且在现有安全条件下这些数据采集和使用可能存在数据泄露风险[2]。数据脱敏是一种将结构化或非结构化数据中的敏感信息按照一定脱敏规则进行数据变形的技术,经过脱敏后的数据兼顾了可用性和安全性,能够在保护隐私的前提下正常应用于各个场景。文献[3]阐述司法领域结构化文本和非结构化文本的脱敏问题,并以匈牙利法律文件作为案例研究可能的方案。该文献提供了一种思路,即将命名实体识别与数据脱敏联系起来。结构化数据中敏感数据较为明确,可依据不同的数据列划分,但非结构化数据需要将敏感数据从大量文本中识别出来,这就需要命名实体识别技术应用于基层治理文本的数据脱敏过程中。
命名实体识别[4]是一种从非结构化文本中识别出具有特定意义实体的技术,为自然语言处理中的一项基础任务。该任务有助于关系抽取、知识图谱等下游任务[5]。常见的实体有人名、地名、机构名等,例如在“李彦宏在北京举办了百度AI开发大会”识别出李彦宏(人名)、北京(地名)、百度(机构名)3个实体。命名实体识别技术的发展可划分为3个阶段:基于词典和规则的方法、基于机器学习的方法和基于深度学习的方法[4]。除了通用语料的实体识别,还存在面向特定应用场景的领域命名实体识别(Domain Named Entity Recognition,DNER),例如医疗、生物、金融、司法、农业等领域[6]。双向长短期记忆网络(Bidirectional Long Short-Term Memory Networks,BiLSTM)和条件随机场(Conditional Random Field,CRF)的组合模型由于良好的表现,在不同领域都被作为最经典的模型而广泛使用。本文将基层治理非结构化文本的敏感词识别任务转换为命名实体识别任务,沿用常规的序列标注方法。
英文单词之间有空格划分,分词边界明确,以及首字母、词根、后缀等区分信息使得命名实体识别表现较好。而中文最明显的特点是词界模糊,没有分隔符来表示词界[7]。由于中文字词之间没有空格分隔,中文命名实体识别若以词粒度划分,必须先进行分词。分词错误导致的误差传递使得词粒度识别效果差于字粒度。因此,中文命名实体识别常采用字粒度进行识别。文献[8]综述了中文命名实体识别的方法、难点问题和未来研究方向。文献[9]通过在中文词嵌入加入语义、语音信息以提升识别效果。目前,命名实体识别广泛应用于各个领域,但在基层治理领域的相关应用较少。与通用领域数据相比,基层治理过程中的敏感信息识别实体嵌套、一词多义和字词错误等问题更为严重。
此外,通用领域的命名实体识别虽包含了人名、地名和机构名等部分敏感实体,但未能将身份证号、手机号和银行卡号等数字类型的敏感实体作为数据标注,难以包含基层治理过程中产生的众多敏感实体类型。
本文详细内容请下载:https://www.chinaaet.com/resource/share/2000005647
作者信息:
吴磊1,汪杭军2
(1.浙江农林大学 数学与计算机科学学院,浙江 杭州 311300;2.浙江农林大学暨阳学院 工程技术学院,浙江 诸暨 311800)