浙大求是特聘教授吴飞:数据驱动与知识引导相互结合的智能计算
2021-12-01
来源:雷峰网leiphone
大数据时代的到来,既向传统的计算范式提出挑战,又为范式突破准备了基础条件。数据驱动和知识引导相互结合的智能计算恐怕是当前社会正经历的人工智能时代,传统的计算范式是怎样的?大数据时代对新的计算范式提供了什么先天条件?有了数据驱动,为何还要与知识引导相互结合?
今年10月12日,2021中国人工智能大会(CCAI 2021)在成都正式启幕,23位中外院士领衔,近百位学术技术精英共聚西南人工智能新高地,深入呈现人工智能学术研究,以及技术创新与行业应用的最新成果。浙江大学求是特聘教授,博士生导师吴飞教授发表了题为《数据驱动与知识引导相互结合的智能计算》的演讲,娓娓道来地向与会者介绍了人类社会已经历的四种计算范式,通过人脑的三种记忆体的工作模式引出社会目前已经进入的第五种计算范式时代,即数据驱动与知识引导相互而结合的人工智能时代。
吴飞:浙江大学求是特聘教授,博士生导师。主要研究领域为人工智能、多媒体分析与检索和统计学习理论。吴老师是浙江大学人工智能研究所所长、美国加州大学伯克利分校统计系访问学者。国家杰出青年科学基金获得者、入选“高校计算机专业优秀教师奖励计划”、宝钢优秀教师奖,曾任教育部人工智能科技创新专家组工作组组长、现任科技部科技创新2030“新一代人工智能”重大科技项目指南编制专家、《中国人工智能2.0发展战略研究》执笔人之一。
吴教授著有《人工智能导论:模型与算法》(高等教育出版社)和浙教版普通高中教科书信息技术选择性必修教材《人工智能初步》(浙江教育出版社)等教材。在中国大学MOOC(爱课程)开设国家级一流本科课程(线上课程)《人工智能:模型与算法》慕课
个人主页:https://www.x-mol.com/university/faculty/243543
本次演讲,吴飞教授首先对1998年图灵奖获得者 Jim Gray 提出的四种计算范式做了简要介绍,指出我们已经进入第五范式时代,随后以人脑三种记忆体之间的联系,引出数据驱动与知识引导相互而结合的智能计算,最后举例详细介绍了数据驱动与知识引导相互而结合的人工智能时代。
以下是演讲全文,AI科技评论进行了不改变原意的整理。
1
五种计算范式
图灵奖获得者 Jim Gray 曾说,人类社会已经经历了四种计算范式。第一种是做实验,比如,伽利略在斜塔上同时扔下两个大小不一的铁球,两个铁球同时落地。通过这个实验,伽利略发现物体不管质量大小,重力加速度相同。
麦克斯韦让一段电流通过磁铁的左右,发现磁铁的南北极发生了变化,推导出磁弱力和电弱力之间的方程。因此,第二个探索未知领域的范式就是做方程,即建立方程和模型来指导我们的计算。
第三种范式是虚拟仿真,就是搭建系统去模拟物理世界,观测仿真系统里各种物质的变化。Jim Gray 认为现在进入了第四种范式,叫做数据密集型的计算年代。
今年8月,李国杰院士写了一篇文章,提出了一个疑问:为什么我们的人工智能上不着天下不落地?恐怕我们已经进入了第五范式时代。李院士的这篇文章,直接用 AlphaFold 的例子来表示他所认为的第五范式:今后的科学计算,或者人工智能计算,一定是领域专家和数据的驱动相互结合,才能形成场景人工智能或者解决场景的任务。
数据驱动和知识引导相互结合的人工智能时代,即给定一堆数据,我们需要从数据里面吸取知识,然后基于知识做决策和服务。这里的数据一定是满足任务可学习、结果可信、过程可推理和架构可实现这些条件。这种架构可实现,是现在的大型互联网公司有能力完成的,我们也发现,下游的任务确实在大模型的驱动下能够得到很好解决。
2
三种记忆体
我们反思一下,人脑的智能计算或者科学计算是怎样的模式?生物学家和神经学家告诉我们,人的大脑有三种记忆体,第一个叫做瞬时记忆。我们可以眼观六路、耳听八方,在一个空间里可以瞬时感觉到这个空间里各种各样数据,这就是瞬时记忆。但如果我们没有对瞬时记忆的数据引起注意,这些信息就不会传给工作记忆体。
瞬时记忆传给工作记忆体后,工作记忆体直接展开用因果智能计算的高层次数据活动,但这些高层次的活动并不是就事论事,就数据论数据,它会激活我们长期记忆里的先验和知识。比如,我们今天来到成都,中午和朋友聚餐;。我们在到达成都时,可能会回忆起上一次来成都干什么;和上次相比,成都有什么变化;朋友又发生了什么变化。我们经常讲弦外之音、话外之意,为什么别人讲话,我们能听出话外之意?这是因为工作记忆体激活了相关的信息来理解当前的数据。
3
数据驱动与知识引导相互而结合的人工智能时代
我们从这个过程已经深刻感觉到,对当前数据的理解,一定激活了其他信息,这种信息是一种潜在的信息,或者叫做common sense,即常识性信息,也有人把它称为暗知识,我们无法表达,机器也无法捕捉,但人的大脑可以很好地捕捉下来。既然人脑是这样的活动模式,现在的智能计算可否往这个渠道进行?
DeepMind 在 2016 年发表了一篇《神经图灵机》的文章,我们知道图灵计划就是两端无限长的纸袋,上面有非常多的方格,然后把数据放在纸袋上,数据驱动以写好的程序进行。这个过程没有利用到数据以外的信息。但神经图灵机架构起一个外在记忆体,对当前数据能更好地学习、理解和处理,以得到更好的学习成果。这篇文章发表后,Nature 期刊为其形成社论,称其为深度神经推理,而不是平常的推理机制。
现在我们也发现,只要有一个 x 算法,神经网络一定会把 x 算法变成一个 give 算法,或者一定想把它和认知或者神经结合起来,也就是不停地探索计算方式和方法,与我们大脑和心理认知如何更好地结合,这不是无病呻吟,而是沿着人脑的思路进行扩展。现在的计算一定要有数据,而且一定是数据驱动;亦即人工智能是引擎,大数据是燃料,一个模型空转转不起来。
第二,知识很重要。我们不能一味从数据里发现知识,一定要有知识指导计算过程。此外,行为探索也很重要,人毕竟是在一个开放的环境里进行认知与思考。所以,数据、知识、行为相互结合,是不是一种更好的计算模式?掀起新一轮人工智能浪潮使用的计算方法,AlphaGo 有深度学习、强化学习和蒙特卡罗树搜索三把利剑,而AlphaFold 则是图神经网络、注意力模型和物理建模相互结合。
科学计算经过了三代发展,已经把数据和知识进行更好的探索。第一代是给定一个结构,然后去预测结构的性质;第二代是给定一些组成成分,去重建结构,然后基于重建的结构预测性质;第三代就是给定一堆数据,从给定的数据里繁衍结构,以及推理这个结构的性质,这是一个很重要的人工智能发展方向。
AlphaFold是 1972 年诺贝尔奖获得者的一个猜想。人体有非常多的氨基酸,氨基酸里编码了蛋白质,这些蛋白质不同的三维空间结构已经定义了我们生命的功能。那么,给定一段氨基酸,能否预测氨基酸所具有的三维空间结构?如果能预测,我们就编码了生命的功能。
今年8月份,《自然》杂志发表了一篇现在被称为 AlphaFold 的文章,《科学》杂志同时也发表了一篇叫做 Rose TTAFold 的文章。AlphaFold 和 Rose TTAFold 都非常强调 attention,即注意力,但这个“注意力”不是我们大脑的一种注意力,注意力是学习的输入和输出之间的一种关系。例如,给定一幅人脸图像,为什么要去预测这是一张人脸?一定是学习到的输入和输出之间存在一种关联,这个关联肯定是通过像素点复杂的空间模式挖掘出来的。如果现在输入一段氨基酸序列,去重演它的三维结构,是不是也是学一种叫做 attention 的关联?
这两篇文章有什么区别?Rose TTAFold 是美国华盛顿大学的一个实验室写的,它的第一作者非常坦白地承认 Rose TTAFold 的性能不如 AlphaFold,因为他们的实验室没有深度学习的工程师,只是一些生物学家拿着 Deep Learning 的工具写出来。但是 AlphaFold 不仅会利用工具,还会修改工具,比如,它可以对 Deep Learning 的一些结构进行修改和重新设计,因此其性能超越了 Rose TTAFold。
大家可以反思一下,今后的人工智能一定是来自不同领域的工程师一起协作,这也预测着李国杰院士说的为什么人工智能上不了天、落不了地,因为要解决场景的任务,一定要和场景的工程师,以及 Deep Learning 的专家结合起来。按照李院士的说法,就是要把领域的知识和数据,在 Deep Learning工具之下更好地结合,他把它称为正在呈现的第五范式。
2020年3月份,李院士受命撰写中国工程院有关人工智能的特刊,我是咨询副主编。特刊发表时,编辑部的同事让我们画封面文章,我和一位年轻老师先用铅笔画,只有人脑和机器脑结合起来才会形成这种学会学习能力。人的大脑一定是稀疏的,虽然人脑据说有 400 亿个神经元,但完成任务时只有一小部分的神经元被激活,所以人脑一天只有 25 度电。而 AlphaGo Zero 经过了 2900 万次的训练,能战胜所有的 AlphaGo,它的耗电量几乎等于洛杉矶一年的耗电量。
人的大脑很复杂,但在完成某个任务时一定是稀疏的,而机器脑一定是密集的 ,比如机器的进化速度服从摩尔定律,每18个月性能就提升一倍。一个稀疏的人脑和一个稠密的机器脑结合,恐怕就是迈向人机耦合获得数据驱动和人的知识相互结合的时代。这期期刊还邀请了一些专家撰写文章,比如潘院士认为人工智能的下一步就是多重知识表达。今年的 CAAI 年会上有一期分论坛就叫做视觉知识的表达,把知识表达好,可能是下一步人工智能迈进的正确方向。
朱松纯老师也受邀写了一篇文章,以此回答他认为的“机器大脑是大数据小任务,人的大脑是小数据大任务”。但是,小数据大任务不是只给一点数据就能学复杂的任务,一定是在大任务的构建之下。只有小数据,如何完成大任务的训练?知识在其中起了很重要的作用,这里的知识不只是旧数据,可编码的知识、可感知的知识、暗知识以及常识性的知识一定也参与了大脑的智能活动。朱老师的这篇文章的标题也很吸引人,叫《“暗”,不止于“深”——迈向认知智能与类人常识的范式转换》。
我们最近在做一些数据驱动与知识引导的工作,首先这里的知识肯定是领域知识。如果是维基百科或百度百科的知识,把高中生都懂的知识放到神经系统的模式里,也许能改进神经系统的学习性能,但和领域知识相比,作用力而言要小一点。我举两个例子,第一个例子是司法的智能化学习,这里有两个案例都给出了一些司法数据。第一个案例,法院认定了一些事实,原告要求法院判定他的一些事实是成立的;第二个案例,法院认定了一些事实,原告要求法院在这些认定事实的基础上,判决原告的一些诉求是成立的。但在一些真实的案子里,原告有些诉求被驳回,有些则被法院认同。
那么,什么情况下原告的诉求会被法院认同,什么时候会被驳回?能不能把司法知识和这样的数据结合起来,形成数据驱动和知识引导相互结合的神经网络的学习方法?我们提出了数据驱动和知识引导相互结合的方法,数据由神经网络 co-attention network 去学,由数据驱动学习出数据模式,再加以 legal knowledge,即一阶编码的司法知识,两者结合起来以加强原告诉求的判断。把一些司法领域的知识通过一阶位置编码利用起来,与数据驱动进行结合,在一些数据集上进行了测试。
第二个例子叫做 video caption,主要是想解决一段短的 video clip 怎么得到更好的文本描述,主要和阿里达摩院合作。因为阿里要让用户点击商品,必须要把商品所对应的视频用文本描述出来。如何自动生成这种文本描述?我们引入了一个商品属性的知识图谱,通过图神经网络学习得到不同的纸袋之间的空间分布,再通过卷积神经网络学习得到一个像素点的空间分布模式,然后把这些知识结合起来,是不是能够生成一种更具广告效应的文本描述?
把数据和视觉知识结合后,能不能把一些外在的记忆体也引进来?正如刚刚讲的话外之意和弦外之音,不能只针对 video 理解 video,video 里一定有一些高级语义或属性触发了外在记忆体里的知识,加以利用这种知识更好地做视觉信息的分析与处理。再进一步,引入因果知识的关系,去除伪相关的关联,
例如,一个吉他手穿着T恤弹吉他,也许弹吉他的人都喜欢穿T恤,本来弹吉他和穿什么衣服没有因果关系,但由于数据选择的偏差,选择的这些场景,吉他手都穿了T恤,结果系统错误地认为,T恤和吉他有关联。这有点像因果学习中,我们常说的公鸡打鸣和太阳升起的例子,公鸡打鸣和太阳升起好像有因果关系,因为公鸡一打鸣太阳就升起。但如果有一天,把全世界的公鸡都杀死,太阳照样升起,它们之间是一种伪关联,这种关系影响了我们学习的效果。如何消除T恤和吉他手的这种关联,用统计分析的关联学习,会说乐器和衬衫之间的关联达到6%,但是引入因果的话,可以把这种伪关联去掉。
数据驱动和知识引导实际上是很难的,特别是如何编码领域知识。对徐院士之前报告里的一句话非常深刻:数据不够模型上,模型不够知识上。好像有点道理,数据不够怎么办?用更强大的模型去拟合,比如支持向量机。模型的能力不够怎么办?知识上,把数据、模型和知识和算力结合起来;算力也很重要,因为我们的模型现在变得比较复杂。
所以,我们提的问题首先一定要领域相关,比如化学问题、物理问题等;然后是物理建模,例如,麦克风放在桌子上,我们不能说麦克风悬浮在空中,这样的物理结构是在人类社会是不存在的,一定要从物理结构里更好地约束建模的方法。最后,人一定要参与进去,这个问题确实很复杂,实际上是我们现在面临的巨大挑战。但人工智能在驱动科学计算,科学计算反过来也会驱动人工智能的进展。我们现在用数据和神经网络,把物理的规则和模型结合起来,是不是能更好地解决领域相关的问题?而领域相关问题的解决,就促进了人工智能的发展。
现在有一个方向的研究,认为精确刻画交通湍流和疾病传播等复杂系统的动力学偏微分方程异常困难。如何刻画新冠肺炎的传播?怎么刻画马航失事的飞机在大西洋和太平洋的残骸?它受到非常多的因素影响,大西洋彼岸一只蝴蝶翅膀的扇动,就会带来台风和暴雨,怎么带来的台风和风暴雨,这很难用方程表示。怎么办?我们可以学神经网络,但神经网络的方程我们不知道,且这些神经网络也不是简单的神经网络,而是建立输入数据和输出数据之间的关联。现在没有这个方式怎么办?
神经算子是科学计算里非常热门的一个方向,要把知识和数据更好地结合起来,就要更好地研究一些科学算子,更好地进行设计,把物理建模的约束融入到模型之中的模型。然后还要有一些快速的优化方法,从软件的角度进行考虑,因为真实世界实在太复杂了,我们无法用方程建立,只能用逼近、函数、优化、拟合等科学的方法加以解决。
我们和潘院士之前做过一个调研,通用人工智能现在的态势到底是怎样的?很多媒体说美国已经把通用人工智能当成国家任务在积极部署,我们把特朗普、奥巴马和拜登政府的国家人工智能规划通读一遍后,发现美国没有把通用人工智能当成国家的重要任务,最多只在奥巴马政府时期,用了一个叫做 General Purpose 的 AI。General Purpose 意为“通用目的”,和我们讲的 AGI 不同。在美国的这些人工智能计划里,更多是人工智能应该 more general,也就是更灵活、更通用。
借今天的演讲我想传递一个想法:数据驱动和知识引导,这里的知识一定是来自领域的知识,AlphaFold、Rose TTAFold 肯定没有用到百度百科或维基百科的知识,一定是化学家能看懂的知识,只有把这些知识和领域的专家做更好的结合,我们的人工智能才会 more general,才会向领域专家的能力靠近。