Yann LeCun分享Facebook最新AI研发成果：AI变革的下一站是无监督学习

阅读时间大约10分钟以上（5578字）

2018-04-26 Yann LeCun分享Facebook最新AI研发成果：AI变革的下一站是无监督学习

用模拟器将会提高无监督学习的效率，这是大势所趋。

【猎云网（微信：ai_xingqiu）北京】4月26日报道（文/吕梦）

在今天的GMIC全球人工智能领袖峰会上，Facebook人工智能团队首席科学家Yann LeCun通过远程视频连线的方式，带来了《AI：最新研究成果，现阶段局限性和未来发展趋势》的主题演讲。

在演讲中，LeCun表示，“我们认为AI不仅仅会帮助我们解决问题，同时还会帮助我们解决很多人类自己无法解决的挑战”。同时也指出，不管下次的变革在哪里，都应该是无监督学习，并且在这样的变革中出现一些常识性的学习。他在演讲中提到两点：

1.无监督学习是AI技术的未来；

2.用模拟器将会提高无监督学习的效率，这是大势所趋。

上世纪80年代，LeCun读博期间提出了“人工神经网络”，但后来该理论一度被认为过时，他本人甚至被拒绝参加学术会议，直到2013年，加入Facebook AI研究中心（FAIR），他的理论才慢慢开始变得热门。

FAIR团队专注于一个目标：创造跟人类具有同等智商的计算机。不断提高计算机视、听和独立进行沟通的能力，并逐渐渗透到Facebook的各个产品中。

而在今年一月， LeCun宣布离开FAIR的管理岗位，并将转任Facebook的首席AI科学家（Chief AI Scientist）。声明中，LeCun表示将把重心移到AI科研以及AI战略方向上。

以下为演讲实录（AI星球整理删减）：

我叫Yann LeCun，来自Facebook。人工智能研究团队是来自纽约大学，今天我想讲一下关于深度学习的情况，同时也会讲一下深度学习的未来，以及我们所面临的关于深度学习方面的挑战，如何让机器变得更加智能。

今天的AI都需要去学习，涉及到深度学习，通过深度学习我们可以训练机器，比如说向它展示一个车的图像，它就会知道这是一辆车，下次向机器展示同一个图像的话你就会得到想要的答案。所以，在这种指导下的学习对于计算机来说是非常重要的。

深度学习，比如科学培训，机器进行端到端培训可以让机器完成某一项任务，它会告诉你最后的输出是什么。机器会学习整个过程，端到端的一个学习过程。通过这种方式计算，计算机会更好的了解我们的世界。比如像一个架构，可以看到实际上这个想法是可以回溯到上个世纪八十年代的时候。

它可识别图像，同时也有很多其他的应用，比如说可以用于语言处理和语言识别和其他很多的应用。就是我们每天都在播的一些新的应用，特别是涉及到神经元网络这方面，关于人工神经智能方面，我们知道对于神经网络是非常大的。我只有在非常强大的计算机上才可以运用，需要有CPU加以辅助。

在深度学习变得比较普遍之前，我们需要确保这样的一些系统可以用于这些情况，比如说其中的一个例子，是我们在2009年、2010年在纽约大学合作的一个实验，可以看到它可以识别图像，可以看出马路上的建筑、天空以及路上的车和人等等。但在当时，它并没有称为最好的系统。

在这里大家可以看到在网络当中使用的几个层，比如说有100层或者180层的一些人工神经网络。像在Facebook当中我们就会广泛使用。

因为有了这样的一些应用，可以看到事物错误率是在不断的下降。

这方面的故障率是在不断下降的，有的时候表现的甚至要比人还要好。它的性能非常好，已经成为了一种标杆。另外它实际上比CPU识别图像或者对象要更加复杂一些。它不仅仅能够识别对象，同时能够进行本地化处理。

这个是在Facebook人工智能部门我们所做的研究，叫做Marsk RCNN，可以看到它的结果，它可以标记这样的图像，就像我刚才给大家展示的例子非常像的，展示出非常好的性能。

如果能够展示这种的话，它不仅仅可以识别出每个人，同时它会为每个人加一个Marsk，所以可以很容易区分出是一个人还是一只狗，在这里大家可以看到它可以识别电脑、酒杯、人、桌子，都可以识别出来。而且也可以数出来到底有多少，而且也可以识别出道路、汽车。

所以可以看出这个系统，如果五年之前问系统这些问题的话，我们当时可能认为需要10-20年时间才能达到今天呈现的效果。这也是Facebook所做的一些研究，叫做Techaround。

大家可以下载上面的代码，它可以探测200多种不同的类别，这也是Facebook在AI方面的一些研究，我们不仅仅发布了一些论文，同时连代码也都发布出来了，这样的话世界各地都可以更好的熟知这种技术。

当然还包括其他很多项目，在Facebook我们利用这样的技术，我们可以预测人类的行为，不知道大家是不是能够看得清这个视频，我们现在有一个系统能够实时的运行，在一个单一的GPU上运行。它可以跟踪很多人的行为，生成视频，而非常的准确。而且可以实时地生成一些相应的数据和信息，相应的代码也是可以用的。这些都是一些最新的应用。是我们在AI方面所实现的一些新的技术，也是Facebook最新的研究。

当然利用的这样的技术不仅仅可以进行识别图像，可以进行面部识别，也可以识别人的行动，也可以使用计算机序列，也可以用来翻译，这是Facebook在加州所做的研究。我们可以用我们系统进行翻译的工作。Facebook经常使用，这样的话可以把一些文字从一种语言翻译到另外一种语言。

我觉得对于行业说进行这样的开发研究将是会是一个非常有用的过程，对于我们研究团队来说，不仅仅要开发，对我们公司来说非常有用的技术，同时我们也希望所开发的技术能够引导整个社区，能够解决我们所感兴趣的问题。

我们认为，AI不仅仅会帮助我们解决问题，同时还会帮助我们解决很多人类自己无法解决的挑战，所以我们会与我们的科学团队一起朝这方面努力。这里是在过去的几年里，所发布的一些开源项目，包括像深度学习网络，还有深度学习框架，这是关于深度学习的应用。

我刚才讲到每天都会一些新的应用发布，也可以进行语言的翻译甚至过滤，安全或者诊断，以及面部识别等等。另外在科学方面可以看到深度学习也广泛的应用来进一步推动科学方面的研究。我们会看到在接下来几年里深度学习会发生更大的革命。

接下来为大家举一个例子，这是应用视频，我希望大家能看清这个视频，它表现出来的是一种加速的过程，它可以训练车去进行驾驶，而且可以调整车轮的方向。这样的话可以让车自己去进行驾驶，而不需要有人去进行校正。

接下来我们再来看一下差异化的编程。我们可以从另外一个角度来学习深度学习。实际上它也是一个固定的架构，它涉及到去进行编程，这个编程可以用人工神经网络解释。这个编程一共有三个指数，它实际上和人工神经网络非常的类似，它会根据所展示的数据有所不同。

另外，根据数据系统也会有所变化。所以现在的问题是，我们是否有一种方法可以自动地生成一个自己的程序。同时可以对其进行培训完成某一个具体的任务，这也就是我们所说的这个编程的想法。

现在人们已经开始在做一些深度学习方面的研究，比如说像基于网络，这些可以在Facebook进行这些深度的挖掘。我们通过研究可以实现这样的一种编程，我们可以利用这样的系统或者培训系统，来完成某一个具体的任务。

这是几年前所开展的工作，是由Facebook和纽约大学一起合作做的项目。这个项目是培训，是去培训Memory，能够完成某一项任务，而且能够回答相关的问题。在自然语言处理过程中，也可以看到人工神经网络是动态的在不断变化的，因为它会决定人们将来会采用什么样的工具。

这是另外一个例子，也是关于动态的动抗和计算。如果你要建立一个系统能够回答复杂问题的话，比如说关于图像的复杂问题，就好像最下面的图像，大家看到它是同样的尺寸或者像这儿展示出的是一个图像，但是可能大家要问机器一个问题，是不是我们看到的这个黄色的立体，它要比别的多一些？

而在Facebook上我们有同样的图像，这里的理念就在于我们在这儿输入了一个问题，而且这个问题可能也有一些不同的代码，它之后被解码，而且之后会用于我们编程当中，就可以使的我们的系统进行回答。

对于这样的编程，之后它总会成为图片，所以为了回答是不是有一些更多的立体形状，之后我们就会让系统来进行计算。比如说这里有多少是方形体，或者有多少颜色，最后告诉你具体的答案是什么。通过这么做我们可以建立起一个端到端的解答的途径。而且也允许你提出更多新的问题。这些图像都是动态的，之后你可以加以操作。当然了是根据你输入的数据不同它有所变化。

大家看到这里是我们最近开发所得到的一些深度学习最新的成就，之后我们来看一下关于AI有没有我们触及到的。因为对于新的技术我觉得我们可以进入到更多的领域当中，大家看到这里我们可以进行更多影像的分析，比如关于医学方面，我们还可以进行更多的翻译，或者是有更多的其他的领域。在这个方面我们觉得对于机器，它可能确实是拥有一定的人工智能，但是关于机器人分辨它有些功能，比如我们还需要更多的功能，比如像洗碗机之类这样的功能我们都要探讨。

有的人他们在这儿看到了，比如我们要来看一下关于在某些方面，比如说机器的学习方面，我们怎么做呢？我们在这儿可以看到有一些具体的图像，我们有些新的方法。

在实际的生活当中其实这种方式不太成功，因为关于深度学习方面我们要进行深入的挖掘，因为对于机器本身它会有不同的解决方案，比如在实际生活中是不能够去实施的。有时候让机器学习很长时间才能去玩游戏。

可能要来进行100个小时，来进行这方面的学习才能够做到。所以确实我觉得有些核心的功能方面，我们确实现在还没有触及到。因为这些机器是能够做到的，但是我们还没有挖掘出来。我们也可以对机器本身进行更深入的培训。比如说我们要让系统进行成千上万次的培训，之后它们才能够进行学习。

有些学习它是力学方面的，但是在实际的生活当中不可能实时的来进行这些东西，所以我们只能够进行模拟，但是它也需要我们进行很多的尝试才能够让机器学到。对于婴儿他们怎么去学习呢？如果我们婴儿展示的话，比如说就好像左下角的这幅图像向他们展示的，可能他们不能够得到支持，大概在六个月以下的婴儿，他们可能不太了解比如物理方面的运动，可是他们在满了八个月之后，对于婴儿们我们觉得他们的能力非常的惊奇，因为他们已经知道了自由落体的作用了。

所以像下角的这个小女孩非常的了不起，我的一位朋友，她是在巴黎工作，她给我们展示出了对婴儿他们怎么学会一些概念，而且他们也能够了解到一些物理最基本的原理。所以这是他们在生活当中最初学到的一些概念。

而这个也是人们的一些常识获取的。对于婴儿们他们就能够了解到了背景的知识，他们所学会的是一些常识。另外我们在向动物展示这样的情景，比如说大家看一下这个大猩猩，它们在幼年的时候由培训员给它们进行一些展示，所以大家可以看到这里大猩猩会觉得很有意思，面对这样的魔术会笑出来，所以大家会把它们当做世界最起初的原型来看待。

但是我们希望机器能够建立一些样本，能够使得我们系统进行运行，最终机器会得到学习，它之后来进行一些预测，什么是可行的、会发生的，之后我们就可以使得机器像人一样的有效的来进行运行。我们有这样的监督或者学习，就能够使得机器得到培训，它们能够来进行规划，进行反映，这是我们需要它们建立起的一个系统。

不管下次的变革在哪个点，我觉得它们应该是无监督的学习，我觉得这样的一个变革，它应该是自我监督或者无监督的一种学习。而且也会在这样的变革当中出现一些常识性的学习。

我最后总结一下，这是我们最近做的一些非常有意义的事情，这是对于一些预测性的模型，来由机器进行规划，根据它们的尝试进行预测。

所以这里的理念在于我们有一些人工智能的元素，它会对一个民众社会进行预测，在它们实际参与，之前它们会预测有一些什么样的反映。

所以大家会看到在整个的过程当中，它并不太多涉及到机器学习。我们认为在一个民众社会当中我们希望机器应该基于自己的行动进行预测，之后得到一些模型，来进行设计。

关于具体的细节，有的人他们已经就这方面的培训进行了工作，他们接受教育，比如机器在一些简单情景当中怎么来做。比如说我们对机器来看一下，有哪些物体有可能会跌落下来，有什么样的预测性，它的大概概率有多少，都可以使得机器做出一些预测。在最近的几年当中大家非常的兴奋，因为我们找到了一个的理念，现在我们对于问题要就它的确定性进行预测，我们要根据我们的输入进行概率的培训和预测。

我们通过对机器进行一些深入的学习，可以使得它预测一些结果。而且它可能会根据不同的场景，可能跌落，有可能不跌落等等，能够对一些可能性结果进行预测。这里的结果不仅仅是唯一正确的，可能有多种的结果。

大家看一下这个教授在进行培训，其实我们进行了对抗性的培训，比如说我们可以培训每个分项是看起来不错的，或者在实际的生活当中会发生什么样的结果。而且对于培训者他也会告诉机器，在实际的社会当中又有什么样的结果。这么做我们就能够得到不同机器产生的结果，之后得到了很多的影像和图片。

再回顾几年之前，大家看到这是Facebook，在这幅图上大家可能也相信，通过机器学习确实是奏效的。但是这里有一些是虚假的图像，之后大家由机器所得出来的这样的图像，它们看起来是真实的，但是其实只是一些虚像，一些幻景，所以我们现在也以我们的系统进行了培训之后，产生出了一系列的人脸。

大家看到这是一些名人他们的面孔，大家看到它逐一的排列出来，而且我们在下周会议上会向大家展示最新的结果，得到的成果非常的好。总之，我们希望把这个工具之后能够融入到我们机器学习当中。

下面我给大家举几个例子，如何来帮助我们进行预测。这样的预测是由我们机器深入学习展示的，有几帧的视频给大家展示一下，因为针对不同的情境我们给大家展示出如何来进行预测。

比如说这里是一个人行道，我们看到人们在穿过这样的人行道，而且关于其中的预测是由人工智能所展示的，我们可以进行监督的学习，看一下这个机器在今后几年是不是能够得到很好的进展。

最后我想做一下总结，我觉得在我们当中接下来最新的趋势应该是关于监督学习方面，我觉得它可能是不能够被替代的。不管是无监督的学习还是其他的学习方式都不能够替代。所以这点已经引起了很多人的兴趣，就是接下来几年还会持续的发展。我相信这也会使得我们进行不断的更多的实施。我们也要根据更多的尝试。

还有一点我也不断的重复给大家，这就是说我们要使得机器能够推理，来看一下深入学习能给我们什么样的推理能力，也要来回顾一下在AI的时代机器它的推理能力有多高，它的逻辑性有多强。

接下来我相信我们会不断的进行演变，而且我们也要来朝着可差异化的智能学习的方向持续的发展，这就需要我们来进行对抗性训练更多的研究。

当然了，还会出现更多的有关深度学习的变革，比如说包括了有一些多渠道的发展或者是复杂的架构，而且会出现更多的理论，在这个领域会不断的出现。

关于技术的趋势是这样的，很显然接下来的监督会不断的弱化，甚至监督会消失，这就使得我们出现一些新的理论的产生，比如新的语言，或者是出现了一些并行的文本，我相信之后应该有多维度的可能性。

我们会发现出现一些新的框架，也包括了一些动态的影像或者是更多的幻象。而且我们诠释的能力会不断的提升，我们和微软，和亚马逊会进行更多的合作；我们也会不断的来开源。当然了，现在我们的工作量很大，但是关于我们的移动工具和其他工具变得越来越流行了，Facebook的用户他们已经是每天能够推出大概20亿个不同的影像，所以我觉得之后可能大家出于不同的目的他们去参与，我们希望能够充分发挥这方面的力量，它可能是一种很强的驱动的能力。

另外，这也使得我们要不断的强化硬件，以便使得用户的需求能够得到专业化的处理。这里我感谢各位的倾听，谢谢！