中国信通院启动AI大模型幻觉评测
总体涉及五种测试维度
2025-03-20
来源:IT之家
3 月 19 日消息,IT之家从中国信通院官方微信公众号获悉,为摸清大模型的幻觉现状,推动大模型应用走深走实,中国信息通信研究院人工智能所基于前期的AISafety Benchmark 测评工作,发起大模型幻觉测试。
大模型幻觉(AI Hallucination)是指模型在生成内容或回答问题时,产生了看似合理,实则与用户输入不一致(忠实性幻觉)或者不符合事实(事实性幻觉)的内容。随着大模型在医疗、金融等关键领域广泛应用,大模型幻觉带来的潜在应用风险日益加剧,正得到业界的广泛关注。
本轮幻觉测试工作将以大语言模型为测试对象,涵盖了事实性幻觉和忠实性幻觉两种幻觉类型,具体测评体系如下:
测试数据包含 7000 余条中文测试样本,测试形式包括对应于忠实性幻觉检测的信息抽取与知识推理两类题型,以及对应事实性幻觉检测的事实判别题型。总体涉及人文科学、社会科学、自然科学、应用科学和形式科学五种测试维度。
中国信通院邀请各相关企业参与模型测评,共同推动大模型安全应用。
本站内容除特别声明的原创文章之外,转载内容只为传递更多信息,并不代表本网站赞同其观点。转载的所有的文章、图片、音/视频文件等资料的版权归版权所有权人所有。本站采用的非本站原创文章及图片等内容无法一一联系确认版权者。如涉及作品内容、版权和其它问题,请及时通过电子邮件或电话通知我们,以便迅速采取适当措施,避免给双方造成不必要的经济损失。联系电话:010-82306118;邮箱:aet@chinaaet.com。