人工智能芯片王者之争 英伟达谷歌胜算各几何
2017-07-04
为了在人工智能市场抢占更大的份额,英伟达和Alphabet这两家公司结成了意想不到的对手。到目前为止,Alphabet 一直在谷歌云平台使用英伟达的GPU加速其各种 AI 应用,但现在看来,这家巨头很是有意自己单独切入这块有着巨额利润的空间。
就让我们仔细看看英伟达和谷歌在人工智能上的渊源,以及可能产生的影响。
谷歌揭幕 TPU 第二代,在谷歌云平台构建机器学习超级计算机
Alphabet 在去年谷歌 I/O 大会上推出了自己的 AI 芯片——张量处理器 TPU。TPU 被广泛用于各种应用,包括优化搜索和语音识别的结果,在 Alphabet 的数据中心里也有使用。
与此同时,谷歌也在云计算平台使用英伟达的 Tesla GPU,帮助用户训练模型。例如,2016 年 11 月,英伟达就对外公布了,谷歌选择使用英伟达的 Tesla P100 GPU 和 K80 加速器为谷歌计算引擎(Google Compute Engine)和谷歌云机器学习用户提供 AI 服务。
但是,在今年 5 月 I/O 大会上,谷歌推出第二代 TPU,并且通过云服务供用户使用,此举震惊了科技界。在今年 4 月发布的一篇官方博文中,谷歌表示 TPU 比当前的 CPU/GPU 速度快 15~30 倍。
第一代 TPU 只加速推理,但现在第二代 TPU 新增了训练的功能。不仅如此,谷歌的用户还能通过专门的网络,在云端利用 TPU 构建机器学习的超级计算机。
事实上,谷歌宣布自己已经成功将某些 AI 模型的训练时间缩短到几个小时,以前这样的模型用市售 GPU 需要一天时间来训练。
到今年年底,当谷歌 TPU 推出时,这可能意味着谷歌和英伟达在 AI 芯片上关系的终结。
英伟达:用开源来反击
英伟达的回应是,谷歌在比较 TPU 相对于 GPU 的速度时,没有与最新的 Pascal 架构比较,而是选择了较早的 Kepler GPU。
此外,英伟达也没有闲着,宣称即将上市的 Volta GPU 加速深度学习的性能会更好。
实际上,英伟达不仅仅定位于硬件供应商,这家公司正在开发一个名叫英伟达 GPU 云(NVIDIA GPU Cloud,NGC)的服务,将配套提供 GPU(比如英伟达基于 Volta 的 Tesla V100)和英伟达深度学习库。
英伟达采取了与谷歌不同的方式,专注将 AI 计算力作为平台即服务(platform-as-a-service)来提供。
谷歌不会对外出售 TPU,而是用 TPU 驱动自己的Google Compute 平台。因此,英伟达目前还无需担忧失去谷歌这一客户。另一方面,Volta GPU 平台已经开始具有商业吸引力,亚马逊已确定在今年晚些时候 V100 芯片上市后立即购入。
英伟达的另一个优势在于,谷歌还没有决定要开源 AI 框架,因此 TPU 的用户被锁定在谷歌的平台上。而英伟达支持各种不同的云平台,包括亚马逊、微软、谷歌、IBM,给了用户在云服务供应商(CSP)方面更多的选择。
此外,英伟达 CEO 黄仁勋还出了一个狠招,他在公司官方博文中写道,要开源英伟达的深度学习加速器。“不需要再来人投资打造会推理的 TPU,我们这里免费提供——由世界上最好的芯片设计师设计。”
相对于局限在谷歌云服务中的 TPU,英伟达的开源让其产品成了 CSP 巨头,比如亚马逊和微软的选择。同时,谷歌云平台还不如亚马逊和微软的云平台那么成功,而这也将限制谷歌云平台的发展。