人人书

杂志

保存到桌面 | 繁体人人书 | 手机版
传记回忆文学理论侦探推理惊悚悬疑诗歌戏曲杂文随笔小故事书评杂志
人人书 > 杂志 > 深度学习的能与不能

深度学习的能与不能

时间:2024-10-28 01:55:46

在2018(第九届)清洁发展国际融资论坛上,北京交通大学人工智能研究院常务副院长、教授于剑先生从专业角度回顾了人工智能的发展历程,并介绍了深度学习的适用范围和所面临的问题。他指出,深度学习是机器学习领域最引人注目的研究方向,但没有任何一种算法可以解决机器学习所有的应用。他说

深度学习算法的分类

深度学习在早期被称为神经网络。神经网络是一种特殊的学习方式,在神经网络领域,人们将学习定义为“基于经验数据的函数估计问题”。需要指出,这样的学习定义虽然非常片面,但对于神经网络而言已经够用了。如此一来,如何构造函数,并应用经验数据将其估计出来,就成了神经网络面临的首要问题。

学习算法的分类有很多种。一种分类方式是将学习算法分为傻瓜型学习算法与专家型学习算法。所谓傻瓜型学习算法,就是任何人使用得到的结果都差别不大的学习算法。所谓专家型学习算法,就是专家与普通人使用得到的结果差别巨大的学习算法,每个人得出的结果很难一致。当然,中间还有一些处于两者之间的学习算法,既不是纯傻瓜型的也是不纯专家型的。

另一种学习算法分类,是黑箱算法和白箱算法。所谓黑箱算法,是指使用者难以明白学习算法学到的知识,特别是其学习到的知识难以解释。所谓白箱算法,是指使用者容易明白学习算法学到的知识,特别是其学习到的知识可以解释清楚。

有了以上四个概念之后,我们就可以回顾早期的神经网络是如何发展成今天的深度学习的了。

早期神经网络无法解决非线性问题

神经网络第一个成熟算法是线性感知器算法,该算法是白箱、傻瓜型算法,特点是节点为恒同映射,不同层次节点间的关系是线性组合关系,优点是解释性好,如线性可分的时候,可以证明迭代有限步就收敛。这个算法在当时得到了很大的支持,拿到了大批基金。

但很遗憾,在1969年,Minsky与Papert提出的一个著名的反例——异或问题,给了线性感知器算法致命一击。世界的问题大多是非线性问题,而线性感知器算法连非线性问题中最简单的“异或问题”都解决不了,由此可以推断其实际用处不大。从此以后的10多年时间里,在国际上,无论是东方还是西方,无论是前苏联还是日本、美国,看到神经网络都视之为骗子,不再给予支持,这也直接导致了神经网络第一个冬天的到来。

多层前馈神经网络的崛起与失败

早期的神经网络不成功是因为是线性的,如果改成非线性是不是好一点呢?到1982年以后,Hopfield发了好几篇文章,证明了非线性网络的有用性。这时候的神经网络已经是典型的黑箱、专家型算法了。

多层前馈神经网络非常成功的应用在了邮政编码的识别中。20世纪80年代是美国邮政最发达的年代,当时通讯几乎全都是纸质的,有大量的信件需要发送,工作量特别大。人们希望用机器代替,就用了邮政编码的自动分捡系统,可以做到三分之二正确识别,剩下三分之一拒识的由人分捡,这样大大减轻了工作量。

这时候神经网络有很大的改变,取得了很大的进展,节点使用非线性函数,训练时间长,一般为三层:输入层、隐层、输出层。主要是证明了神经网络的万有逼近定理:“如果一个隐层包含足够的多神经元,多层前馈神经网络能以任意精度逼近任意预定的连续函数”。在神经网络采用的学习定义下,该定理证明了神经网络的万能性。由此,当时人们甚至认为神经网络可以无所不能。据说,1988年IJCNN(国际神经网络联合会议)曾经贴出一个疯狂的标语,称:“人工智能已死,神经网络万岁”。

但是,当人疯狂的时候就要挨揍了。如果有其他算法比神经网络性能好一点,解释性强一些,就一定能将神经网络打入冷宫。这样的事情真的发生了,1995年支持向量机(SVM)横空出世,该算法比神经网络算法解释性好,其几何解释干净漂亮,性能比当时的三层神经好一些。这时候神经网络进入了第二个冬天,好在这个冬天并没有第一个那么冷,基金支持并没有彻底断绝,能不能拿到基金,主要看人品和运气。

突破三层的神经网络,深度学习迎来春天

但是SVM也有缺陷,它主要是处理小数据的,是小样本学习的典范算法。而到了2008年以后,我们迎来了大数据时代,各行各业都有大量的数据,而且电脑的计算能力也大幅度地提高了,因此SVM在很多领域将难以适用。以往的神经网络基本上都是三层的,原因是四层以上的神经网络会遇到数据量、计算力不足和梯度消失等问题。如果以上三个问题能够解决,就能为深度学习奠定很好的基础。

到2010年左右,人们通过采用新的激励函数,逐渐克服了梯度消失或者发散问题,加之数据量和计算力的不断提高,深度学习迎来了蓬勃发展。这使得化名为深度学习的神经网络研究进入了另一个春天。

我们现在所说的深度学习,可以理解为层数高于三层的神经网络。神经网络和深度学习最重要的区别是:神经网络的主流算法考虑时空数据的局部相关性较少,大多时候假设特征之间的独立性;而深度学习的主流算法基本考虑了时空数据的局部相关性,如CNN,RNN,LSTM等。深度学习可以使学习能力提高,而训练样本并不需要增加太多。

到2016年,神经网络深度就已经达到1207层。随着深度的提高,算法的错误率可以快速减少。深度学习避开了单纯的特征提取过程,给出了一种将学习和表示合二为一的范式。这种方式导致深度学习在有人监督学习中非常成功,同时在自监督学习中也取得了很大的成功,但在一般意义上的无监督学习中还没有取得成功。

深度学习并非万能,仍有局限

深度学习不仅是目前热度最高的人工智能研究方向,也是工业应用最广泛的学习范式,但深度学习也有其局限性。没有免费午餐的定理指出,没有任何一种算法可以解决机器学习所有的应用。深度学习也有很多“不能”的地方。比如,深度学习和人类学习相比,人用不了多么大的样本就可以学习,但是深度学习用的样本比较多。

此外,由于深度学习属于黑箱型算法,人类将无法知晓算法做出决策的原因与依据。它适用于各种低风险甚至无风险性任务,包括搜素引擎和AlphaGo等棋牌游戏,这类任务即使发生错误,后果也不严重,并不要求算法去解释这些错误为什么会发生。

但对于高风险任务,包括无人驾驶、医疗手术等,一旦发生错误,由于成本巨大,必须能够分析出发生错误的原因,以避免类似错误再次发生,此时,深度学习在解释性方面将存在弊端。

总而言之,深度学习的表示能力超强,因此,在不要求解释的学习任务中,深度学习的性能在可见的将来将一直占优。但是,在要求解释的学习任务里,深度学习将不是一个值得期待的工具。(国际融资记者李留宇根据于剑演讲整理,杜秋摄影)


   

热门书籍

热门文章