kaiyun官方注册
您所在的位置: 首页> 人工智能> 设计应用> 面向机器学习建模的数据治理技术路径研究
面向机器学习建模的数据治理技术路径研究
网络安全与数据治理
李彦泽1,郭超2,孙旭明2,母东杰2
1.北京百分点科技集团股份有限公司; 2.中国电子产业工程有限公司
摘要:随着人工智能和机器学习技术的快速发展,数据质量已成为提升模型性能和可靠性的核心因素。特别是在不同类型机器学习模型的应用中,如何有效地实施数据治理以提升数据质量、稳定性和公平性,仍然是一个亟待解决的问题。综述了数据治理在机器学习建模中的关键作用,提出了一套系统性的数据治理框架,涵盖数据采集、处理、标注、模型训练等全过程,旨在提供切实可行的治理方案以支撑机器学习应用。该框架强调在不同阶段采用针对性的技术措施,确保数据治理的有效性,从而促进数据质量的提升和模型的可解释性、稳定性及公平性的保障。本研究为数据治理在机器学习中的深入应用提供了理论基础,并为后续的技术实践和创新提供了指导。
中图分类号:TP18.4 文献标识码:ADOI:10.19358/j.issn.2097-1788.2025.03.011
引用格式:李彦泽,郭超,孙旭明,等. 面向机器学习建模的数据治理技术路径研究[J].网络安全与数据治理,2025,44(3):63-70.
Data governance technical process for machine learning modeling
Li Yanze1, Guo Chao2, Sun Xuming2, Mu Dongjie2
1. Beijing PERCENT Technology Group Co., Ltd.; 2. China Electronics Industry Engineering Co., Ltd.
Abstract:With the rapid development of artificial intelligence and machine learning technologies, ensuring data quality has become a core factor in enhancing model performance and reliability. Particularly in the application of different types of machine learning models, how to effectively implement data governance to improve data quality, stability, and fairness remains an urgent issue to be addressed. This paper reviews the critical role of data governance in machine learning modeling and proposes a systematic data governance framework, covering the entire process from data collection, processing, and annotation to model training. The framework aims to provide practical governance solutions to support machine learning applications. It emphasizes the adoption of targeted technical measures at different stages to ensure the effectiveness of data governance, thereby enhancing data quality and ensuring model interpretability, stability, and fairness. This research provides a theoretical foundation for the in-depth application of data governance in machine learning and offers guidance for subsequent technical practices and innovations.
Key words :data governance; machine learning; artificial intelligence; architecture; data management; model training

引言

当前,人工智能(AI)和机器学习(ML)已广泛应用于语音技术、医疗研发、自动驾驶等多个日常生活领域。AI的核心构成是算法、数据和基础设施三者的有机结合[1]。单纯依靠算法优化和硬件性能提升不足以推动AI的发展,更需高质量数据集的支撑。关于如何优化数据处理和治理过程,大部分研究集中于标注质量的提升、数据集的构建及优化、模型评估等方面,缺乏系统化的技术路径和全面的解决方案。尤其是在面对不同类型的机器学习模型(如监督学习、无监督学习、强化学习等)时,如何提升数据质量和模型的稳定性、可解释性以及公平性,仍然是一个亟待解决的问题。

本文综合现有研究成果,提出了一套系统性的数据治理框架,结合机器学习建模需求,从数据采集、处理、标注到模型训练的全过程中提供可操作的治理方案,推动数据治理在机器学习应用中的深入实施。


本文详细内容请下载:

https://www.chinaaet.com/resource/share/2000006380


作者信息:

李彦泽1,郭超2,孙旭明2,母东杰2

(1.北京百分点科技集团股份有限公司,北京100096;

2.中国电子产业工程有限公司,北京100036)


Magazine.Subscription.jpg

此内容为AET网站原创,未经授权禁止转载。
Baidu
map