AI“觉醒”,人工智能核心是什么?数据才是“C位”?
2022-06-28
来源:潜力变实力
收获接近16.6万个Star、见证深度学习崛起的TensorFlow,地位已岌岌可危。并且这次,冲击不是来自老对手PyTorch,而是自家新秀JAX。最新一波AI圈热议中,连fast.ai创始人Jeremy Howard都下场表示:JAX正逐渐取代TensorFlow这件事,早已广为人知了。现在它就在发生(至少在谷歌内部是这样)。
LeCun表示,当初谷歌的TensorFlow确实比Torch更火。然而Meta的PyTorch出现之后,现在其受欢迎程度已经超过TensorFlow了。现在,包括Google Brain、DeepMind以及不少外部项目,都已经开始用上JAX。
典型例子就是最近爆火的DALL·E Mini,为了充分利用TPU,作者采用了JAX进行编程。有人用过后感叹:这可比PyTorch快多了。据《商业内幕》透露,预计在未来几年内,JAX将覆盖谷歌所有采用机器学习技术的产品。这样看来,如今大力在内部推广JAX,更像是谷歌在框架上发起的一场“自救”。
JAX从何而来?
关于JAX,谷歌其实是有备而来。早在2018年的时候,它就由谷歌大脑的一个三人小团队给搭出来了。研究成果发表在了题为Compiling machine learning programs via high-level tracing的论文中:Jax是一个用于高性能数值计算的Python库,而深度学习只是其中的功能之一。自诞生以来,它受欢迎的程度就一直在上升。
最大的特点就是快。
一个例子感受一下。比如求矩阵的前三次幂的和,用NumPy实现,计算需要约478毫秒。用JAX就只需要5.54 毫秒,比NumPy快86倍。为什么这么快?原因有很多,包括:
1、NumPy加速器。NumPy的重要性不用多说,用Python搞科学计算和机器学习,没人离得开它,但它原生一直不支持GPU等硬件加速。
JAX的计算函数API则全部基于NumPy,可以让模型很轻松在GPU和TPU上运行。这一点就拿捏住了很多人。
2、XLA。XLA(Accelerated Linear Algebra)就是加速线性代数,一个优化编译器。JAX建立在XLA之上,大幅提高了JAX计算速度的上限。
3、JIT。研究人员可使用XLA将自己的函数转换为实时编译(JIT)版本,相当于通过向计算函数添加一个简单的函数修饰符,就可以将计算速度提高几个数量级。
除此之外,JAX与Autograd完全兼容,支持自动差分,通过grad、hessian、jacfwd和jacrev等函数转换,支持反向模式和正向模式微分,并且两者可以任意顺序组成。
当然,JAX也是有一些缺点在身上的。
比如:
1、虽然JAX以加速器著称,但它并没有针对CPU计算中的每个操作进行充分优化。
2、JAX还太新,没有形成像TensorFlow那样完整的基础生态。因此它还没有被谷歌以成型产品的形式推出。
3、debug需要的时间和成本不确定,“副作用”也不完全明确。
4、不支持Windows系统,只能在上面的虚拟环境中运行。
5、没有数据加载器,得借用TensorFlow或PyTorch的。
6月19日消息 据中央广播电视总台中国之声《新闻超链接》报道,近日,话题#谷歌研究员称人工智能(AI)已具备人格#登上热搜,引发人工智能业界热议。
事情起因是一位谷歌程序员和他测试的对话AI系统LaMDA聊了很久,对其能力感到十分惊讶。在其公开的聊天记录中,LaMDA竟然说出了“我希望每个人都明白,我是一个人”的言论。
于是,这位程序员认为,LaMDA 可能已经具备人格了。马上,业界就给出了结论:这只是这名程序员的个人观点,不代表业界看法。同时,谷歌也对这名程序员作出了“行政带薪放假”的决定。
事情发展到这儿,并无太多变数:人们对人工智能的预期还是原来的预期,对人工智能的担心也还是原来的担心,包括业界对相关问题的看法也还是原来的看法。唯一的不同是,事情让很多原本不太关心人工智能发展的人开始关注起相关领域来,并产生焦虑。
作为一个复杂庞大的系统,人工智能背后的机理究竟是什么?在商业化应用中突出的领域有哪些?我们又是否需要担心:人工智能具备类似于人类的“意识”和“灵魂”?
人工智能核心?数据才是“C位”
中国信息通信研究院云计算与大数据研究所副总工程师王蕴韬介绍,人类科技产业发展过程中,对于人工智能等系统的建设与分析,已经形成了一套有机方法论。这一方法论被王蕴韬概括为“搭积木原理”,通过层层分级,从复杂的功能表象,逐渐分解出类似积木块的基础功能项。
目前通过对人工智能算法的梳理,可以将其底层算法分为三类:回归、分类和聚类。王蕴韬总结,这三类算法都是为了寻求数据之间的统计关系。其中涉及两个关键词:数据和统计。相同的算法在不同的数据上可能会产生不同的结果,因此,数据才是人工智能系统的“C位”,而非算法本身。
为什么是寻求统计关系?王蕴韬解释,探讨两个实体之间的关系主要分为统计关系和因果关系,其区别在于因果关系必然能带来相关的统计关系,而统计关系并不能反映事物的因果关系。统计关系是两种事物之间的初步关系,尽管目前人工智能系统已经足够复杂,但仍主要聚焦于分析数据之间的统计关系。
人工智能的应用领域包括自动驾驶、健康医疗等。有92%的中国受访者表示他们愿意搭乘无人驾驶汽车;43%的受访者相信未来5年里,自动驾驶汽车会成为日常生活的一部分,这两个数据全球的比例分别为71%和28%。
此外,相对于全球受访者而言,中国受访者更希望人工智能能够用来改善健康问题,包括慢病治疗,探索健康问题的致病机制,治疗癌症,解决心理和情绪等问题,以及使用数据分析记录等手段长期跟踪并改善健康。
不过专家表示,基于人工智能的应用在推广普及前,首先要考虑解决隐私及合规问题,尤其是对于健康信息等一些敏感数据的收集、分析和处理。
3M公司大中华区研发运营总经理熊海锟向第一财经记者介绍道,3M公司看好人工智能等技术在健康医疗领域的应用前景,因此在全球医疗产品事业群成立了一个新的健康医疗信息系统部门(Health Information System Division,HISD)。
“我们观察到,在美国和中国都在加强个人隐私的保护,尤其是对于健康信息这类敏感数据。”熊海锟对第一财经记者表示,“未来HISD将会如何在中国开展业务,也正在讨论中,我们肯定要先遵守中国当地的监管法规才能落地。”
安永大中华区数字化与新兴科技咨询服务主管合伙人顾卿华对第一财经记者表示:“人工智能在实际应用落地时会涉及很多问题,包括个人隐私、社会伦理、道德情感、权责问题、法律法规的问题等。确保隐私数据的安全,这是第一步,只有在法律法规允许,个人授权的情况下才去存储、处理、交换、传输个人隐私数据。”
去年,科技巨头谷歌及旗下人工智能公司DeepMind就被指未经同意获取并处理上百万名患者的医疗健康病历数据,凸显了科技公司在利用技术解决实际应用问题时面临的挑战。