自动驾驶汽车眼中的世界是什么样的?
2015-08-28
自从诞生以来,计算机就一直生活在一个充满1和0的世界,不厌其烦地处理着if-then和and-or语句。
一种为自动驾驶汽车研发的技术可能会改变这一切。它将赋予机器人通过视觉理解这个世界的能力,更有可能是机器人自我意识的第一步。
我们称这项技术为“深度学习”,一种基于神经网络算法模仿大脑运行的科技。尽管目前研究者们在许多领域应用了深度学习,如语音识别等等,视觉识别才是和深度学习最相关的一个。自动驾驶汽车更是其中最热门的研究领域。
简单标签
为了让自动驾驶汽车能够在我们的城镇和乡村中穿梭自如,我们需要它们能够辨识周围的物体。除了已经配备的短波雷达和激光雷达之外,研究者们还在自动驾驶汽车上安装了摄像头,让它们能够实时辨识周围的物体。
不幸的是计算机不具有人类这样的视觉进化过程,它们天生是无法看到和分辨周围环境中的物体的。如果没有视觉识别技术,工程师无法教给汽车遇到什么样的情况应该怎么办。
目前只有沃尔沃XC90等少数几款车安装了基于摄像头的识别系统,这种系统能够辨别其它汽车、行人和骑自行车的人。但这种系统还没有在深度学习系统中实 现。它们的实现机理是将摄像头拍摄到的图像和图像数据库进行比对来辨别汽车、行人、自行车、交通标示等常见物体。这种方法会带来一个很明显的问题,那就是 并不是所有出现在摄像头中的物体都曾被保存在数据库中。即便数据库中有,我们的世界如此复杂多样,计算机不可能把每个方面都储存进去。
比如说,如果电脑只知道“蛋糕”是一种双层带有面包和奶昔的圆形糕点,那么它看到单层长方形抹着巧克力的蛋糕时就无法识别出来。通过多年的学习和经验积累,我们人类的思维能力具有灵活性,进而将两种蛋糕都识别出来。
相同点和不同点
深度学习是与图像匹配不同的技术,它最终将赋予汽车更 好的视觉识别能力。接着前面的例子讲,研究者给计算机看数千张照片,并告诉它这些都是蛋糕。深度学习系统就会把图片拆分到图层和纹理级别,提炼出它们的共 同之处,并接受不同点。在使用足够多的图片进行训练之后,电脑的神经网络就可以辨别出它从未见过的蛋糕图片了,即便是超大号的婚礼蛋糕也不在话下。
科学家希望通过同样的道理教会自动驾驶汽车的神经网络辨识行人、汽车、自行车、道路标志。但不只是识别特定的行人外貌,而是不同的图片来训练计算机行人在环境中可能的模样。
这样一来,计算机就能够区别坐在路边的人(安全)和正在翻越护栏的人(危险)。更棒的是,视觉处理芯片能够从身体的一部分识别出整个人来,比如只有脑袋或者胳膊出现在图片中,坐在副驾驶的乘客常常会这样做。
当一辆自动驾驶汽车能够准确识别周围环境中的物体时,它们就可以根据具体情况作出相应反应。当发现行人正在翻越护栏甚至是站在路边的时候,它可以减慢速度,停车甚至是急转弯。视觉识别可能是实现自动驾驶汽车的唯一方法。
充满物体的世界
为了训练自动驾驶汽车,神经网络只需集中精力识别那些会影响驾驶环境的因素即可。而斯坦福大学和普林斯顿大学开发的ImageNet数据库中包含数百万 贴好标签的图片,供神经网络学习面对更大的世界,比如扳手和企鹅之间的差别。除了图片之外,研究者们还可以使用其它媒介训练神经网络,比如声音输入或3D 图像。谷歌从事神经网络研究已经有一段时间了,她们推出了一种基于网络的工具,计算机可以告诉人们它在图片中看到了什么物体。
除了自动驾驶汽车,神经网络和视觉识别还可以做许多事。想象一下,如果有一种警用头戴显示器可以实时分析罪犯并判断他身上是否藏有武器,会不会很有用?它可以帮助警察分辨罪犯手中是致命武器还是球棒等物体,可以避免警察做出错误的判断。
家用机器人也会从这种技术中受益。Roomba扫地机器人只能在二维的房屋地面上来回移动,在它的机械传感器碰到障碍后后退。一个装备了摄像头的扫地机 器人则能够分辨出屋里哪些物体时它可以移开进行打扫再放回原处的(当然不能是活物)。比如一个扔在地板上的篮子,它可以挪开篮子打扫下面的地面,再把它放 回去。
自我意识
随着深度学习和神经系统的不断发展,我们终有一天会遇到机器人拥有自我意识的问题。这个技术奇点标志着强人工智能的出现,程序极度复杂以至于很难和意识相区分。当机器人能够像人类那样感知周围世界,它们是否会有相同的世界观、价值观、道德观?
目前人们对机器人意识会发展到什么程度还没有达成共识,但一些非常聪明的人已经警告过人们可能发生的最坏情况。特别是霍金和谷歌DeepMindCEO都在呼吁对自动武器系统建立国际限制规定。
一架自动识别携带武器的人并向其开火的无人机离现在还很远,但在研究神经网络和视觉识别系统的时候这是必须考虑的一个问题。只要人类安全被纳入考虑范围,自动驾驶汽车就会被严格要求和密切监视。
神经网络继续发展,它们会向机器打开一扇新世界的大门,透过这扇门,机器得以站在从未有过的视角观察我们生活的世界。联网计算机已让我们的世界以完全不同于几十年前的模样运行,10年后,当计算机能够准确分辨摄像头中看到的所有物体时,这个世界又会变成什么样子?