文献标识码:A
DOI:10.16157/j.issn.0258-7998.223323
中文引用格式:袁金斗,潘明明,张腾,等. 基于规则和词典的用电安全领域命名实体识别[J].电子技术应用,2022,48(12):22-27.
英文引用格式:Yuan Jindou,Pan Mingming,Zhang Teng,et al. Electricity safety domain named entity recognition based on rules and dictionaries[J]. Application of Electronic Technique,2022,48(12):22-27.
0 引言
命名实体识别[1-3](Named Entity Recognition,NER)在通用领域中主要是指识别文本中的人名、地名、机构名、时间、货币等具有特定意义的实体。目前,命名实体识别的主要方法包括三类:基于规则[4]和词典[5-6]的方法、基于统计机器学习的方法[7]和基于深度神经网络的方法[8]。
目前,用电安全领域缺乏权威数据集[9],命名实体识别研究工作首先需要对语料集进行序列标注,标记非结构文本中的相关实体、无关字符、词性序列等,在此研究背景下,采用统计机器学习、深度神经网络的方法较难获取大规模的训练语料集。因此,本文主要基于规则和词典的方法对实体命名识别进行第一阶段研究,发掘用电安全领域实体构词规则及词性特征,构建领域词典及规则模板,进一步扩充语料库,为后续用电安全领域命名实体识别的机器学习、神经网络方法的研究奠定基础。
从技术角度分析,如果构建的领域词典能够覆盖待识别文本中绝大多数相关实体,那么,基于词典的命名实体识别方法将具有高准确度及高响应度。但是,领域实体的多样性、复杂性、衍生性导致构建覆盖全面的高质量词典较为困难。因此,基于词典的方法通常是基于规则方法的辅助补充手段[10]。基于规则的实体命名识别多采用人工归纳并构造规则模板,选用特征包括标点符号、关键字、指示词和方向词、位置词(如前后缀)、中心词等,以规则模板的正则匹配为主要手段[11]。当语料规模不大且提取的规则能比较精确地反映语言现象时,基于规则和词典的方法其性能要优于基于统计的方法[12]。
另一方面,物联网设备和数据的爆发式增长,使得基于云计算模型的聚合性服务逐渐显露出其在实时性、网络制约、资源开销等方面的不足。为弥补集中式云计算的不足,本文采用边缘计算架构,其优势在于能够在数据产生侧快捷、高效地响应业务需求,减小服务对网络的依赖,在离线状态下也能够提供基础业务服务。
本文详细内容请下载:https://www.chinaaet.com/resource/share/2000005035。
作者信息:
袁金斗1,潘明明1,张 腾2,姜 珏1
(1.中国电力科学研究院有限公司,北京100192;2.国网江苏省电力有限公司,江苏 南京210000)