文献标志码:A
DOI: 10.16157/j.issn.0258-7998.233824
中文引用格式:陈晓晋,唐球,王耀君. 面向农业知识图谱构建的文本实体标注准则构建及应用[J]. 电子技术应用,2023,49(5):1-7.
英文引用格式:Chen Xiaojin,Tang Qiu,Wang Yaojun. Construction and application of agricultural text data entity labeling criteria for agricultural knowledge graph construction[J]. Application of Electronic Technique,2023,49(5):1-7.
0 引言
近年来,随着大数据技术的发展,各个领域的数值、图像、文本、语音视频等多源大数据增长迅速。以农业领域为例,农业新闻、农资信息、农业政策法规等与农业生产生活息息相关的信息通过互联网发布和传播,构成了农业文本大数据的主要组成部分。农业从业者及研究者主要通过网络中的文本信息来获取农业资讯,有效分析文本数据不仅可以帮助农业从业者了解最新的实践和趋势,还可以为农业从业者、专家在农业任务管理中做出决策提供支持。农业资讯中蕴含着大量的专业农业知识及丰富的农业信息,且主要以非结构化的形式存在。农业领域的命名实体识别的任务是从非结构化的文本中识别与农业领域相关的实体,例如作物名称、病虫害、农药、肥料等,是作为农业知识图谱构建和问答等下游任务不可或缺的基本组成部分。
针对命名实体识别任务的主要方法为,基于规则和字典匹配、基于机器学习的方法以及两者混合的方法。但存在不足,无法满足复杂文本需求,仍有局限性。
近年来随着深度学习的快速发展,其实现了无需复杂的特征工程和丰富的领域知识就可以学习复杂的隐藏表示。目前,基于深度学习的模型已被广泛应用于完成命名实体识别任务,并已广泛应用于医学、金融等领域,但是目前,在农业领域仍存在挑战。
农业文本实体存在着领域特殊性、实体命名方式繁多、实体边界模糊、特征提取不充分、实体边界标注不一致、数据库不足等问题。这在一定程度上增加了识别农业文本中实体的成本和难度。
为了解决上述问题,并促进基于农业文本命名实体识别任务及其后续应用的完成,本文将构建农业文本数据实体标注准则,并以此建立农业实体标注语料库。为农业领域相关从业人员提供实体标注准则,便于其开展农业文本研究,例如知识图谱构建及问答等相关工作。
本文详细内容请下载:https://www.chinaaet.com/resource/share/2000005299
作者信息:
陈晓晋1,唐球2,王耀君1
(1.中国农业大学 信息与电气工程学院,北京 100083;2.中国电子信息产业集团有限公司第六研究所,北京 100083)