计算机文本分析算法发展综述
电子技术应用 2023年3期
孙静含1,任静2
(1.北京工业大学,北京 100124;2.中国电子信息产业集团第六研究所,北京 100083)
摘要:计算机文本分析是自然语言处理领域的一个重要分支,是研究如何在文本数据中提取出给定语料的各类信息的计算机技术。目前,计算机文本分析已经进入了新的历史阶段,一方面关键词提取算法已经逐渐完备,另一方面随着BERT方法的出现,词向量计算问题也取得了极大的进步。但是,无论是关键词提取还是词向量计算都仍存在一些有待解决的问题。另外,现有的许多适合使用文本分析的研究仍在使用早期的文本分析方法。因此在未来,如何更好地降低模型尺寸以促进学科融合、提升文本分析的综合社会效益,成为文本分析算法发展的重要问题。
中图分类号:TP181 文献标志码:A DOI: 10.16157/j.issn.0258-7998.223117
中文引用格式:孙静含,任静. 计算机文本分析算法发展综述[J]. 电子技术应用,2023,49(3):42-47.
英文引用格式:Sun Jinghan,Ren Jing. A survey of the development of computer text analysis algorithms[J]. Application of Electronic Technique,2023,49(3):42-47.
中文引用格式:孙静含,任静. 计算机文本分析算法发展综述[J]. 电子技术应用,2023,49(3):42-47.
英文引用格式:Sun Jinghan,Ren Jing. A survey of the development of computer text analysis algorithms[J]. Application of Electronic Technique,2023,49(3):42-47.
A survey of the development of computer text analysis algorithms
Sun Jinghan1,Ren Jing2
(1.Beijing University of Technology,Beijing100124, China; 2.The Sixth Research Institute of China Electronics Corporation, Beijing 100083, China)
Abstract:Abstract: Computer text analysis is an important branch in the field of natural language processing, and it is a computer technology that studies how to extract various types of information from a given corpus from text data. At present, computer text analysis has entered a new historical stage. On the one hand, the keyword extraction algorithm has gradually been completed. On the other hand, with the emergence of the BERT method, the word vector calculation problem has also made great progress. However, there are still some problems to be solved in both keyword extraction and word vector calculation. In addition, many existing studies suitable for using text analysis still use ancient text analysis methods. Therefore, in the future, how to better reduce the model size to promote the integration of disciplines and improve the comprehensive social benefits of text analysis will become an important issue in the development of text analysis algorithms.
Key words :text analysis;natural language processing;algorithm
0 引言
计算机文本分析是自然语言处理(Natural Language Processing, NLP)领域的一个重要分支,是指对文本数据或语料库内的语料进行分析,最终提取出给定语料的各种信息,包括关键词、词向量等内容的计算机技术,在一些文献中也将这一领域的相关技术纳入自然语言处理预训练技术之中。文本分析最早起源于20世纪50~60年代,这一阶段的研究重点是如何对语言规则进行设定。到20世纪70年代,随着语料库的丰富和硬件设备的进步,文本分析技术开始融合机器学习算法,并得到了快速发展。进入21世纪之后,深度学习方法被运用到文本分析之中,诞生了诸如Word2Vec、BERT等技术,进一步提高了文本分析的应用场景。在可以预见的未来,传统的基于数字数据的分析方法将逐渐无法满足越发庞杂的应用需求,文本分析和其所属的自然语言处理领域将会是一个愈发重要的发展方向。
本文详细内容请下载:https://www.chinaaet.com/resource/share/2000005227
作者信息:
孙静含1,任静2
(1.北京工业大学,北京 100124;2.中国电子信息产业集团第六研究所,北京 100083)
此内容为AET网站原创,未经授权禁止转载。