kaiyun官方注册
您所在的位置: 首页> 其他> 设计应用> 面向农业知识图谱构建的文本实体标注准则构建及应用
面向农业知识图谱构建的文本实体标注准则构建及应用
2023年电子技术应用第5期
陈晓晋1,唐球2,王耀君1
(1.中国农业大学 信息与电气工程学院,北京 100083;2.中国电子信息产业集团有限公司第六研究所,北京 100083)
摘要:随着农业大数据及智慧农业的发展,面对海量的农业文本数据,构建知识图谱等自然语言处理应用需求逐渐增长。目前,在农业领域的实体语料库及实体标注体系仍处于空白状态。对农业文本进行处理时,面临如何定义实体类别及范围等问题。基于此问题,以农业科学叙词表为科学依据,提出面向农业知识图谱构建的农业文本数据实体标注准则,涵盖了农作物、病虫草害等多种农业实体,以及基于该准则设置标注原则构建基于农业文本的自注释语料库,并进行实验验证,证明了该准则的有效性。该准则为农业实体语料库的构建提供可参考的标注规范,以及为农业实体识别提供语料支持。
中图分类号:TP391
文献标志码:A
DOI: 10.16157/j.issn.0258-7998.233824
中文引用格式:陈晓晋,唐球,王耀君. 面向农业知识图谱构建的文本实体标注准则构建及应用[J]. 电子技术应用,2023,49(5):1-7.
英文引用格式:Chen Xiaojin,Tang Qiu,Wang Yaojun. Construction and application of agricultural text data entity labeling criteria for agricultural knowledge graph construction[J]. Application of Electronic Technique,2023,49(5):1-7.
Construction and application of agricultural text data entity labeling criteria for agricultural knowledge graph construction
Chen Xiaojin1,Tang Qiu2,Wang Yaojun1
(1.College of Information and Electrical Engineering, China Agricultural University, Beijing 100083, China; 2.National Computer System Engineering Research Institute of China ,Beijing 100083 ,China)
Abstract:With the development of agricultural big data and smart agriculture, in the face of massive agricultural text data, the demand for building knowledge graph and other natural language processing applications has gradually increased. At present, the entity corpus and entity labeling system in the agricultural field are still in a blank state. When dealing with agricultural texts, we are faced with such problems as how to define the category and scope of entities. Based on this problem, this paper takes the agricultural thesaurus as the scientific basis, proposes the agricultural text data entity labeling criteria for the construction of agricultural knowledge graph, covering a variety of agricultural entities such as crops, pests and weeds, and constructs a self-annotation corpus based on agricultural text based on the labeling principles of the criteria, and carries out experimental verification to prove the effectiveness of the criteria. This criterion provides a referential labeling specification for the construction of agricultural entity corpus and corpus support for agricultural entity recognition.
Key words :knowledge graph;agricultural text;entity tagging;knowledge representation

0 引言

近年来,随着大数据技术的发展,各个领域的数值、图像、文本、语音视频等多源大数据增长迅速。以农业领域为例,农业新闻、农资信息、农业政策法规等与农业生产生活息息相关的信息通过互联网发布和传播,构成了农业文本大数据的主要组成部分。农业从业者及研究者主要通过网络中的文本信息来获取农业资讯,有效分析文本数据不仅可以帮助农业从业者了解最新的实践和趋势,还可以为农业从业者、专家在农业任务管理中做出决策提供支持。农业资讯中蕴含着大量的专业农业知识及丰富的农业信息,且主要以非结构化的形式存在。农业领域的命名实体识别的任务是从非结构化的文本中识别与农业领域相关的实体,例如作物名称、病虫害、农药、肥料等,是作为农业知识图谱构建和问答等下游任务不可或缺的基本组成部分。

针对命名实体识别任务的主要方法为,基于规则和字典匹配、基于机器学习的方法以及两者混合的方法。但存在不足,无法满足复杂文本需求,仍有局限性。

近年来随着深度学习的快速发展,其实现了无需复杂的特征工程和丰富的领域知识就可以学习复杂的隐藏表示。目前,基于深度学习的模型已被广泛应用于完成命名实体识别任务,并已广泛应用于医学、金融等领域,但是目前,在农业领域仍存在挑战。

农业文本实体存在着领域特殊性、实体命名方式繁多、实体边界模糊、特征提取不充分、实体边界标注不一致、数据库不足等问题。这在一定程度上增加了识别农业文本中实体的成本和难度。

为了解决上述问题,并促进基于农业文本命名实体识别任务及其后续应用的完成,本文将构建农业文本数据实体标注准则,并以此建立农业实体标注语料库。为农业领域相关从业人员提供实体标注准则,便于其开展农业文本研究,例如知识图谱构建及问答等相关工作。



本文详细内容请下载:https://www.chinaaet.com/resource/share/2000005299




作者信息:

陈晓晋1,唐球2,王耀君1

(1.中国农业大学 信息与电气工程学院,北京 100083;2.中国电子信息产业集团有限公司第六研究所,北京 100083)


微信图片_20210517164139.jpg

此内容为AET网站原创,未经授权禁止转载。
Baidu
map