AI 3.0
上QQ阅读APP看书,第一时间看更新

01
从起源到遭遇寒冬,心智是人工智能一直无法攻克的堡垒

达特茅斯的两个月和十个人

创造一台和人类一样聪明,甚至比人类更聪明的智能机器的梦想,已有几个世纪的历史,而随着数字计算机的崛起,这一梦想已成为现代科学的一部分。第一台可编程计算机的构建想法,实际上来自数学家将人类思想,特别是逻辑,当作“符号操纵”的机械过程的尝试。数字计算机本质上是符号操纵器,操纵符号“0”和“1”的各种组合。艾伦·图灵和约翰·冯·诺伊曼等计算机领域的先驱认为,人脑与计算机之间存在着极强的相似性,因而可以将人脑类比为计算机,并且在他们看来,人类智能显然能够被复制到计算机程序中。

人工智能领域的大多数从业者认为,该领域的正式确立可以追溯到1956年由一位名叫约翰·麦卡锡的年轻数学家在达特茅斯学院举办的一场小型研讨会。

1955年,28岁的麦卡锡进入了达特茅斯学院的数学系。在读本科时,他就学过一点儿心理学和“自动机理论”(后来演变为计算机科学)这一新兴领域的知识,并对创造一台能够思考的机器产生了兴趣。在普林斯顿大学数学系的研究生学院,他遇到了和自己一样对智能计算机的潜力十分着迷的学长马文·明斯基(Marvin Minsky)(12)。毕业后,麦卡锡在贝尔实验室和IBM曾经短暂任职,其间,他分别与信息论的发明者克劳德·香农(Claude Shannon)以及电气工程先驱内森尼尔·罗切斯特(Nathaniel Rochester)合作过。在达特茅斯时,麦卡锡曾说服明斯基、香农和罗切斯特帮助他组织一个人工智能研究项目,这个项目计划在1956年夏天开展,为期两个月,共10个人参与1。“人工智能”一词就是麦卡锡发明的,他希望将这一领域与一项名为“控制论”2的研究区分开来。麦卡锡后来承认:“当时没有人真正喜欢这个名字——毕竟,我们的目标是‘真正的’智能,而非‘人工的’智能,但是我必须得给它起个名字,所以我称它为‘人工智能’。”3

他们4位组织者向洛克菲勒基金会递交了一份提案,请求其为这一夏季研讨会提供资助。他们写道,这一提案是基于“学习的每个方面,或者说智能的任何特征,从原则上来说都可以被精确地描述,因此,可以制造一台机器来进行模拟”4。该提案列出了一系列需要讨论的主题,如自然语言处理(natural-language processing, NLP)、神经网络、机器学习、抽象概念和推理、创造力等,这些主题至今仍定义着人工智能这一领域。

在1956年,即便是最先进的计算机,其速度也达不到现代智能手机的百万分之一,但麦卡锡和他的同事依旧非常乐观地认为人工智能是触手可及的:“我们认为,只要精心挑选一组科学家共同针对这其中的一个或多个课题研究一整个夏天,就能够取得重大的进展。”5

然而很快就出现了问题,一个对今天任何一位科学研讨会的组织者来说都很熟悉的问题——洛克菲勒基金会只批准了他们所需资助金的一半,而且事实证明,说服参与者来参加会议并留下来做研究,要比麦卡锡想象的困难得多,更别提在任何问题上达成共识了。会上出现了很多有趣的讨论,但并没有达成什么一致意见,这类会议常常就是这样:每个人都有不同的想法和强烈的自我意识,并对自己的计划充满热情6。尽管如此,达特茅斯的这次夏季人工智能研讨会还是获得了一些非常重要的成果:该领域得到了命名;其总体目标也基本明确了;即将成为该领域“四大开拓者”的麦卡锡、明斯基、艾伦·纽厄尔(Allen Newell)和西蒙得以会面,并对未来做出了一些规划,而且不知出于什么原因,这4个人开完会后都对该领域持极大的乐观态度。20世纪60年代初,麦卡锡创立了斯坦福人工智能项目(Stanford Artificial Intelligence Project),其目标是:“在10年内打造一台完全智能的机器。”7大概在同一时间,后来的诺贝尔奖得主西蒙预测:“用不了20年,机器就能够完成人类所能做的任何工作。”8不久之后,麻省理工学院人工智能实验室(MIT AI Lab)的创始人明斯基就预言:“在一代人之内,关于创造‘人工智能’的问题将得到实质性的解决。”9

定义,然后必须继续下去

这些预期事件至今一件都没有发生。那么,我们距离构建一台“完全智能的机器”的目标还有多远?构建这样的机器会需要我们对人脑的所有复杂性进行逆向工程吗?或者,是否存在一条捷径、一套智能但未知的算法,可以产生我们所认为的完全智能?完全智能究竟意味着什么?

“定义你的术语……否则我们将永远无法相互理解。”10这一来自18世纪的哲学家伏尔泰的忠告,对于任何谈论人工智能的人来说都是一个挑战,因为人工智能的核心概念——“智能”(intelligence)仍然没有明晰的定义。针对类似“智能”及其引申词,如“思想”(thinking)、“认知”(cognition)、“意识”(consciousness)、“情感”(emotion)这样的词语,明斯基创造了“手提箱式词汇”(suitcase word)11这一术语,其意思是:每个词语就像是打包封装了不同含义的手提箱。人工智能就经过了“打包”,在不同的上下文中承担不同的含义。

大多数人会认同人类是智能的,而尘埃颗粒不是。同样的道理,我们普遍认为人类比虫子更加智能。对于人类智能,智商(IQ)是在单一尺度上衡量的,但我们也会探讨智能的不同维度,如情感、语言、空间、逻辑、艺术、社交等。因此,智能的定义可能是二元的(一个物体是或不是智能的)、在一个连续统(13)上的(一个物体比另一个物体更智能),或者是多维的(一个人可以具有高语言智能和低情感智能)。确实,“智能”这个词语是一个满载的手提箱,而拉链就在随时可能撑破的边缘上。

然而,人工智能领域在很大程度上忽略了这些各式各样的区别,它聚焦于两方面的工作:一方面是科学性工作;另一方面是实践性工作。在科学性工作中,人工智能研究者通过将“自然的”即生物学上的智能机制嵌入计算机的方式来研究它;而在实践性工作中,人工智能研究者单纯地希望创造出像人类一样,甚至可以比人类更好地执行任务的计算机程序,并不担心这些程序是否真的在以人类的思维方式进行思考。当被问及他们的研究动机来自哪一方面时,人工智能领域的很多从业者会开玩笑地说,这取决于他们目前的资助是来自哪一方。

2016年,一份关于人工智能领域现状的报告称,由著名研究人员组成的某委员会将该领域定义为“一个通过合成智能来研究智能属性的计算机科学分支”12。是的,这有点儿拗口,但该委员会也承认很难对该领域进行定义,而这可能是一件好事:“缺乏一个精确的、得到普遍接受的人工智能的定义,可能有助于该领域更快地成长、繁荣和进步。”13此外,该委员会还指出:“由于以上各种不确定,人工智能领域的实践者、研究者以及开发者都在一个大致的方向感和势在必行的信念的引导下继续前进。”

任何方法都有可能让我们取得进展

1956年,在达特茅斯的研讨会上,不同领域的参会者对采用何种方法来研究人工智能产生了分歧。数学家提倡将数学逻辑和演绎推理作为理性思维的语言;另一些人则支持归纳法,这是一种运用程序从数据中提取统计特征,并使用概率来处理不确定性的方法;其他人则坚信应该从生物学和心理学中汲取灵感来创造类似大脑的程序。令人惊讶的是,这些不同研究方法的支持者之间的争论一直持续到了今天,每一种方法都形成了自己的一套原则和相关技术,它们又通过在各自领域的专业会议和期刊上传播得以巩固,但这些有待深入研究的领域之间却几乎没有交流。2014年,有一篇人工智能调研文章对此总结道:“因为我们并未深入了解智能,也不知道如何创造通用人工智能,因此,想要真正取得进展,我们应当拥抱人工智能‘方法论的无政府状态’,而不应切断任何一种探索途径。”14

2010年以后,有一类人工智能研究方法已经超越这种“无政府状态”成了主流的人工智能研究范式,那就是深度学习,其工具就是深度神经网络(deep neural network,DNN)。事实上,在大众媒体上,“人工智能”这一术语基本上已经等同于深度学习了,然而,这是一种令人感到遗憾的、不准确的描述,我需要澄清这两者之间的区别。人工智能是一个包括广泛研究方法的领域,其目标是创造具有智能的机器,而深度学习只是实现这一目标的一种方法。深度学习本身是机器学习领域众多研究方法中的一种,后者又是人工智能的一个子领域,着重关注机器从数据或自身的“经验”中进行学习。为更好地理解这些不同领域的区别,了解早期人工智能研究领域出现的一个哲学分歧是很重要的,那就是所谓的符号人工智能和亚符号人工智能之间的分歧。

符号人工智能,力图用数学逻辑解决通用问题

我们先来看一下符号人工智能。一个符号人工智能程序里的知识包括对人类来说通常可以理解的单词或短语(即“符号”),以及可供程序对这些符号进行组合和处理以执行指定任务的规则。

举个例子,一个早期的人工智能程序被创建者自信地命名为“通用问题求解器”15,其英文简称为“GPS”。这个首字母缩写的确让人感到困惑,但通用问题求解器的出现早于全球定位系统(global positioning system, GPS)。通用问题求解器可以解答诸如“传教士和食人者”之类的智力游戏题,但这些题目你可能在孩童时期就已经知道如何解决了。在这个众所周知的难题中,3个传教士和3个食人者都需要过河,但一艘小船上只能载2人。如果河岸一边饥饿的食人者的数量超过了“美味的”传教士的话……好吧,你知道会发生什么。那么,他们如何成功地渡过这条河?

通用问题求解器的创建者,认知科学家西蒙和纽厄尔,记录了几个学生在解决这个问题以及其他逻辑难题时“自言自语”的过程。西蒙和纽厄尔随后设计了他们认为能够模仿学生的思考过程的程序。

这里我就不详细介绍通用问题求解器的工作原理了,但是从其程序指令的编码方式中可以看出它的符号性质。为了解决这个问题,人类会为通用问题求解器编写类似以下内容的代码:

         CURRENT STATE:
         LEFT-BANK = [3 MISSIONARIES, 3 CANNIBALS, 1 BOAT]
         RIGHT-BANK = [EMPTY]
         DESIRED STATE:
         LEFT-BANK = [EMPTY]
         RIGHT-BANK = [3 MISSIONARIES, 3 CANNIBALS, 1 BOAT]

上面这组代码描述了这样一个事实:最初,河的左岸(LEFT-BANK)包含了3名传教士(3 MISSIONARIES)、3名食人者(3 CANNIBALS)和1艘船(1 BOAT),而右岸不包含以上这些元素。理想状态表示程序的目标:让他们全部都到河的右岸。

通用问题求解器每运行一步,都会试图改变当前状态,以使其更接近理想状态。通用问题求解器的代码中,有能够把当前状态转变到一个新状态的“运算符”(operators,以子程序的形式存在),还有能够编码任务约束的规则。例如,有一个运算符是把一定数量的传教士和食人者从河岸的一边移动到另一边:

     MOVE(# MISSIONARIES, # CANNIBALS, FROM-SIDE, TO-SIDE)

括号内的单词称为参数,当程序运行时,它用数字或其他单词替换这些单词。也就是说,程序用要移动的传教士的数量来替换“MISSIONARIES”,用要移动的食人者的数量来替换“CANNIBALS”,用“LEFT-BANK”和“RIGHT-BANK”替换“FROM-SIDE”和“TO-SIDE”,这取决于传教士和食人者将被转移到河岸的哪一边,而船随着传教士和食人者一起移动这一信息,是被编码在程序之中的。

在调用运算符和使用特定值替换这些参数之前,程序必须检查其编码规则。例如,一次最多可以移动2人,并且如果该运算符会导致在同一河岸的食人者数量超过传教士的数量,则它不能被调用。

这个案例中的符号表示的都是人类可理解的概念,如传教士、食人者、船只、河岸等,但运行该程序的计算机并不知道这些符号的含义。你可以用“Z372B”或任何其他无意义的字符串替换所有的“MISSIONARIES”,程序也会以完全相同的方式工作,这就是通用问题求解器中“通用”一词的部分含义。对于计算机,符号的意义来自它们之间组合、相互关联和相互作用的方式。

符号人工智能的支持者认为,想要在计算机上获得智能,并不需要构建模仿大脑运行的程序。相反,其观点是,通用智能完全可以通过正确的符号处理程序来获得。我同意这种看法,构建这样一个程序要比构建传教士和食人者这个例子中所使用的程序复杂得多,但它仍然会由符号、符号组合、符号规则和运算组成。

由通用问题求解器所阐释的这类符号人工智能,在人工智能领域发展的最初30年里占据了主导地位,其中以专家系统最为著名。在专家系统中,人类专家为计算机程序设计用于医疗诊断和法律决策等任务的规则。人工智能领域有几个活跃的分支到现在仍在采用符号人工智能,我将在后面的章节中讲述其中的一些例子,特别是在探讨推理和“拥有常识”的人工智能方法的相关章节。

感知机,依托DNN的亚符号人工智能

符号人工智能最初是受到数学逻辑以及人们描述自身意识思考过程的方式的启发。相比之下,亚符号人工智能方法则从神经科学中汲取灵感,并试图捕捉隐藏在所谓的“快速感知”背后的一些无意识的思考过程,如识别人脸或识别语音等。亚符号人工智能程序不包含我们在前文的传教士和食人者的例子中看到的那种人类可理解的语言。与之相反,一个亚符号人工智能程序本质上是一堆等式——通常是一大堆难以理解的数字运算。我稍后将做简要解释:此类系统被设计为从数据中学习如何执行任务。

亚符号、受大脑启发的人工智能程序的一个早期例子是感知机,它由心理学家弗兰克·罗森布拉特于20世纪50年代末提出16。“感知机”这个词对于我们现代人来说,听起来可能有点儿像20世纪50年代科幻小说中的词(正如我们所看到的,随后很快就出现了“认知机”和“神经认知机”)。感知机是人工智能的一个重要里程碑,同时也催生了现代人工智能最成功的工具——DNN。

罗森布拉特发明感知机是受到人脑中神经元处理信息的方式的启发。一个神经元就是大脑中的一个细胞,它能够接收与之相连的其他神经元的电或化学输入信号。简单地说,一个神经元把它从其他神经元接收到的所有输入信号加起来,如果达到某个特定的阈值水平,它就会被激活。重要的是,一个给定的神经元与其他神经元的不同连接(突触)有不同的强度,当计算信号输入总和的时候,给定的神经元会给弱连接分配较少的权重,而将更多的权重分配给强连接的输入。神经科学家认为,弄明白神经元之间的连接强度是如何调整的,是了解大脑如何学习的关键。

对于计算机科学家或者心理学家来说,信息在神经元中的处理过程可以通过一个有多个输入和一个输出的计算机程序(感知机)进行模拟。神经元和感知机之间的类比如图1-1所示。图1-1(A)展示了一个神经元及其树突(为细胞带来输入信号的结构)、胞体和轴突(即输出通道);图1-1(B)展示了一个简单的感知机结构。与神经元类似,感知机将其接收到的输入信号相加,如果得到的和等于或大于感知机的阈值,则感知机输出1(被激活),否则感知机输出0(未被激活)。为了模拟神经元的不同连接强度,罗森布拉特建议给感知机的每个输入分配一个权重,在求和时,每个输入在加进总和之前都要先乘以其权重。感知机的阈值是由程序员设置的一个数字,它也可以由感知机通过自身学习得到,这一点我们接下来会讲到。

图1-1 大脑中的神经元(A)和一个简单的感知机(B)

简而言之,感知机是一个根据加权输入的总和是否满足阈值来做出是或否(输出1或0)的决策的简易程序。在生活中,你可能会以下面这样的方式做出一些决定。例如,你会从一些朋友那里了解到他们有多喜欢某一部电影,但你相信其中几个朋友对于电影的品位比其他人更高,因此,你会给他们更高的权重。如果朋友喜爱程度的总量足够大的话(即大于某个无意识的阈值),你就会决定去看这部电影。如果感知机有朋友的话,那么它就会以这种方式来决定是否看一部电影。

受大脑神经元网络的启发,罗森布拉特提出可以应用感知机网络来执行视觉任务,例如人脸和物体识别。为了了解感知机网络是如何开展工作的,我们接下来将探索一个感知机如何执行特定的视觉任务,比如,识别图1-2所示的手写数字。

图1-2 一些手写数字

我们将感知机设计为“8”探测器,也就是说,如果其输入是一幅数字8的图像,则输出1;如果输入图像的内容是其他数字,则输出0。设计这样一个探测器需要我们先弄清楚如何将图像转换为一组数值输入,再确定感知机的权重分配和阈值,以使感知机能够产生正确的输出(8为1,其他数字为0)。由于后续章节关于神经网络及其在计算机视觉中的应用的讨论中会出现许多与之相同的想法,因此我将在这里进行一些详细的介绍。

感知学习算法,无法重现人脑的涌现机制

图1-3(A)展示了一个放大的手写数字8。图中每个网格方块(像素)都有一个可以用数字表示的强度值——像素强度(pixel intensity)(14)。在黑白图像中,纯白色方块的像素强度为255;纯黑色方块的像素强度为0;而灰色方块的像素强度介于其间。另外,假设我们给感知机输入的图像已经被调整为与这个18×18像素的图像一样大小。

图1-3(B)展示了一个用于识别“8”的感知机。该感知机具有324(18×18)个输入,每个输入对应于网格中的一个像素。给定如图1-3(A)所示的一个图像,则感知机的每个输入都被设置为对应像素的像素强度,同时,每个输入都有自己的权重。

图1-3 一个用于识别手写“8”的感知机的示意图

注:18×18像素图像中的每个像素对应感知机的一个输入,该感知机共有324(18×18)个输入。

学习感知机的权重和阈值

与我之前描述的符号化的通用问题求解器不同的是:感知机中没有任何对其需要执行的任务进行描述的明确规则,感知机中的所有“知识”都被编码在由数字组成的权重和阈值中。罗森布拉特在他的多篇论文中,都展示了在给定正确的权重和阈值的情况下,图1-3(B)中的感知机可以很好地完成感知任务,例如,识别简单的手写数字。但是,我们如何为一个给定的任务准确地设定正确的权重和阈值呢?罗森布拉特再次给出了一个受大脑启发的答案:感知机应该通过自己的学习获得这些数值。

那么,它应该如何学习获得正确的数值呢?与当时流行的行为心理学理论一样,罗森布拉特的观点是:感知机应该通过条件计算(conditioning)来学习。这是受到了行为主义心理学家伯勒斯·斯金纳(Burrhus F. Skinner)的启发,斯金纳通过给老鼠和鸽子以正向和负向的强化来训练它们执行任务,罗森布拉特认为感知机也应该在样本上进行类似的训练:在触发正确的行为时奖励,而在犯错时惩罚。如今,这种形式的条件计算在人工智能领域被称为监督学习(supervised learning)。在训练时,给定学习系统一个样本,它就产生一个输出,然后在这时给它一个“监督信号”,提示它此输出与正确的输出有多大偏离,然后,系统会根据这个信号来调整它的权重和阈值。

监督学习的概念是现代人工智能的一个关键部分,因此值得更详细的讨论。监督学习通常需要大量的正样本(例如,由不同的人书写的数字8的集合)和负样本(例如,其他手写的、不包括8的数字集合)。每个样本都由人来标记其类别——此处为“8”和“非8”两个类别,这些标记将被用作监督信号。用于训练系统的正负样本,被称为“训练集”(training set),剩余的样本集合,也就是“测试集”(test set),用于评估系统在接受训练后的表现性能,以观察系统在一般情况下,而不仅仅是在训练样本上回答的正确率。

也许,计算机科学中最重要的一个术语就是算法了,它指的是计算机为解决特定问题而采取的步骤的“配方”。罗森布拉特对人工智能的首要贡献是他对一个特定算法的设计,即感知机学习算法(perceptron-learning algorithm),感知机可以通过这一算法从样本中得到训练,来确定能够产生正确答案的权重和阈值。下面,我们来介绍它的工作原理。最初,感知机的权重和阈值被设置为介于-1和1之间的随机数。在我们的案例中,第一个输入的权重可被设置为0.2,第二个输入的权重被设置为-0.6,而阈值则被设置为0.7。一个名为随机数生成器(random-number generator)的计算机程序可以轻松生成这些初始值。

接下来就可以开始训练了。首先,将第一个训练样本输入感知机,此时,感知机还不知道正确的分类标记。感知机将每个输入乘以它的权重,并对所有结果求和,再将求得的和与阈值进行比较,然后输出1或0,其中,输出1代表它的输入为8,输出0代表它的输入不是8。接下来,将感知机的输出和人类标记的正确答案(“8”或者“非8”)做比较。如果感知机给出的答案是正确的,则权重和阈值不会发生变化,但是如果感知机是错误的,其权重和阈值就会发生变化,以使感知机在这个训练样本上给出的答案更接近于正确答案。此外,每个权重的变化量取决于与其相关的输入值,也就是说,对错误的“罪责”的分配取决于哪个输入的影响更大或更小。例如,在图1-3(A)的“8”中,强度较低的像素(这里为黑色)影响较大,而强度为255的像素(这里为纯白色)则不会有任何影响(对此感兴趣的读者,可以查阅我在注释中介绍的一些数学细节17)。

下一个训练将重复上述整个过程。感知机会将这个训练过程在所有的训练样本上运行很多遍,每一次出错时,感知机都会对权重和阈值稍做修改。正如斯金纳在训练鸽子时发现的:通过大量试验循序渐进地学习,其效果更好,如果在一次试验中,权重和阈值的改动过大,系统就可能以学到错误的东西告终。例如,过度关注于8的上半部分和下半部分的大小总是完全相等的。在每个训练样本上进行多次重复训练之后,(我们希望)系统最终将获得一组能够在所有训练样本上都能得出正确答案的权重和阈值。此时,我们可以用测试样本对感知机进行评估,以观察它在未曾训练过的图像上的表现。

如果你只关心数字8,那么这个“8”探测器就很有用,但若要识别其他数字呢?其实很简单,我们只需将感知机扩展到10个输出,每个输出对应一个数字就可以了。给定一个手写数字样本,与该数字对应的输出应该是1,而其他所有输出都应该是0。这个扩展的感知机可以使用感知机学习算法来获得其所有的权重和阈值,只需为它提供足够多的训练样本即可。

罗森布拉特等人证明了感知机网络能够通过学习执行相对简单的感知任务,而且罗森布拉特在数学上证明了:对于一个特定(即便非常有限)的任务类别,原则上只要感知机经过充分的训练,就能学会准确无误地执行这些任务。至于感知机在更一般的人工智能相关任务中会如何表现,我们尚不清楚。然而,这种不确定性似乎并没有阻止罗森布拉特和他在海军研究实验室的资助者对他们的算法做出荒唐的乐观预测。《纽约时报》对罗森布拉特于1958年7月组织的一次新闻发布会的报道,做出了如下说明:

今天,美国海军公布了一款预计能走路、说话、看东西、写字、自我复制,并能够意识到自我存在的电子计算机的雏形。据估计,感知机不久后就将能够识人,并叫出他们的名字,还能将一种语言的语音即时翻译成另外一种语言的语音和文字18

是的,即便是刚出现的时候,人工智能就已在面临炒作的问题。稍后我将多讨论一些由这种炒作造成的不好的结果。现在,我想用感知机来强调人工智能的符号方法和亚符号方法之间的主要区别。

感知机的“知识”由它所学到的权重和阈值这对数值组成,这一事实,意味着我们很难发现感知机在执行识别任务时使用的规则。感知机的规则不是符号化的,不像通用问题求解器的符号,如“LEFT-BANK”“MISSIONARIES”“MOVE”等。感知机的权重和阈值不代表特定的概念,这些数字也很难被转换成人类可以理解的规则。这一情况在当下具有上百万个权重的神经网络中变得更加复杂。

有人可能会将感知机和人脑做一个粗略的类比。如果我能打开你的大脑,并对其中上千亿个神经元中的一部分进行观察,我可能并不能清楚你的想法或者你做某个特定决定时所用的规则。然而,人类的大脑已经产生了语言,它允许你使用符号(单词和短语)来向我传达你的想法,或者你做某件事的目的。从这个意义上说,我们的神经刺激可以被认为是亚符号化的,而以它们为基础的我们的大脑不知何故却创造了符号。类比于大脑中的亚符号化的神经网络,感知机以及更复杂的模拟神经元网络,也被称作“亚符号”派。这一派的支持者认为:若要实现人工智能,类似语言的符号和控制符号处理的规则,不能像在通用问题求解器中那样直接进行编程,而必须以类似于智能符号处理从大脑中涌现的方式,从类似于神经元的结构中涌现出来。

感知机是一条死胡同

在1956年的达特茅斯会议之后,符号人工智能阵营占据了人工智能的主导地位。20世纪60年代初,当罗森布拉特正积极投身于感知机的研究工作时,人工智能的四大创始人,也是符号人工智能阵营的伟大信徒,都各自创建了颇具影响力且资金充足的人工智能实验室:明斯基在麻省理工学院;麦卡锡在斯坦福大学;西蒙与纽厄尔在卡内基梅隆大学。值得注意的是,这三所大学至今仍然位于研究人工智能最负盛名的机构之列。明斯基认为,罗森布拉特以大脑为灵感的亚符号人工智能研究方法就是一条死胡同,而且正从更有价值的符号人工智能的研究中“窃取”研究资金19。1969年,明斯基和他在麻省理工学院的同事西摩·佩珀特(Seymour Papert)出版了一本名叫《感知机》(Perceptrons20的书,书中给出了一个数学证明,表明感知机能够完美解决的问题类型非常有限,因为感知机学习算法随着任务规模的扩大需要大量的权重和阈值,所以表现不佳。

明斯基和佩珀特指出,如果一个感知机通过添加一个额外的模拟神经元“层”来增强能力,那么原则上,感知机能够解决的问题类型就广泛得多21,带有这样一个附加层的感知机叫作多层神经网络。多层神经网络构成了许多现代人工智能技术的基础,下一章我将对其展开详细论述。在这里我要指出的是:在明斯基和佩珀特的书出版后,多层神经网络并没有得到广泛的研究,很大程度上是由于缺乏类似于感知机学习算法那样的对权重和阈值进行学习的通用算法。

明斯基和佩珀特对简单感知机的局限性的证明已广为该领域的人们所熟知22。罗森布拉特本人对多层感知机做了大量的研究工作,并意识到了训练多层感知机的困难23。研究者放弃对感知机的进一步研究,其主要原因并不是明斯基和佩珀特的数学证明,而是他们对多层神经网络的推测。

感知机有很多引人关注的特性:它的线性特征、有趣的学习定理,以及它作为一种并行计算而具有的明显的范式简洁性,但没有理由认为其中任何一个优点可以延展到多层神经网络。无论如何,我们的直觉判断是:这些延展是“不育的”24,而如何阐明或驳斥我们的这一判断是一个重要的研究课题。

用现在的行话来说,最后一句可被称为“被动攻击”。这样消极的推测至少是造成20世纪60年代末神经网络研究经费枯竭的部分原因,而与此同时,符号人工智能则在挥霍着政府的资助。1971年,年仅43岁的罗森布拉特丧生于一次划船事故。没有了最杰出的倡导者,并且没有太多政府资金来支持,研究者对感知机和其他亚符号人工智能研究方法的相关探索基本上停止了,只有少数几个孤立的学术团体还在苦苦挣扎。

泡沫破碎,进入人工智能的寒冬

与此同时,符号人工智能的倡导者正在撰写拨款提案,并承诺将在语音和语言理解、常识推理、机器人导航,以及自动驾驶汽车等领域取得突破。到了20世纪70年代中期,虽然有几个聚焦面狭窄的专家系统得到了成功部署,但之前承诺过的更通用的人工智能突破并未实现。

资助机构也注意到了这一点。两份分别由英国科学研究理事会和美国国防部征集的报告,对人工智能研究的进展和前景的评价均非常消极。英国的报告特别指出:“面向高度专业化的问题领域的专家系统,只有当其编程非常充分地借鉴了人类经验和人类智能在相关领域的知识时,才有前景,但得出的结论是,迄今为止的结果,对通用问题求解器试图在更广泛的领域内模仿人类(大脑)活动来解决问题而言,彻底令人沮丧。这样一个通用目标程序,似乎仍然和以往一样,离人工智能领域梦寐以求的长期目标相当遥远。”25这份报告导致了英国政府对人工智能研究的资助骤减,同样,美国国防部也大幅削减了对美国基础人工智能研究的资助。

这是人工智能领域的泡沫不断产生又破灭这种循环的一个早期例子。这一循环是这样运转的:

· 第一阶段,新想法在研究领域得到了大量的支持。相关研究人员承诺人工智能即将取得突破性的成果,并被新闻媒体各种炒作。政府资助部门和风险投资者向学术研究界和商业初创公司注入大量资金。

· 第二阶段,曾经承诺的人工智能突破没有如期实现,或者远没有当初承诺的那么令人满意。政府资助和风险资本枯竭,初创公司倒闭,人工智能研究放缓。

研究人工智能的群体已经熟悉了这一模式:先是“人工智能的春天”,紧接着是过度的承诺和媒体炒作,接下来便是“人工智能的寒冬”。从某种程度上来说,这一现象以5~10年为周期在不断上演。当我在1990年研究生毕业时,这一领域正处在一个寒冬,并且形成了一个非常恶劣的氛围,以至于有人甚至建议我在求职申请中避免使用“人工智能”这个词。

看似容易的事情其实很难

人工智能的寒冬给该领域的从业者带来了许多重要的经验和教训。达特茅斯学院研讨会举办50年后,麦卡锡总结出了最简单的一个教训:“人工智能比我们认为的要难。”26明斯基指出,事实上,对人工智能的研究揭示了一个悖论:“看似容易的事情其实都很难。”人工智能计算机的最初目标是:计算机能够以自然语言与我们进行交谈,描述它们通过摄像头“眼睛”看到的事物,在看到几个例子之后就可以学会新的概念。这些小孩子做起来都很容易的事情,对人工智能来说却是比诊断复杂疾病、在国际象棋和围棋中击败人类冠军,以及解决复杂代数问题等更加难以实现的事情。正如明斯基所言:“总的来说,我们完全不清楚我们的心智最擅长什么。”27创造人工智能的尝试,最起码帮助阐明了我们人类的心智是多么复杂和微妙。

本章要点

01 智能是个手提箱

对于任何谈论人工智能的人来说,定义“人工智能”都是一个挑战,因为人工智能的核心概念——智能,仍然没有明晰的定义。针对类似“智能”及其引申词,如“思想”“认知”“意识”“情感”这样的词语,明斯基创造了“手提箱式词汇”这一术语,其意思是:每个词语就像是打包封装了不同含义的手提箱。人工智能就经过了“打包”,在不同的上下文中承担不同的含义。

大多数人会认同人类是智能的,而尘埃颗粒不是。同样的道理,我们普遍认为人类比虫子更加智能。对于人类智能,智商是在单一尺度上衡量的,但我们也会探讨智能的不同维度,如情感、语言、空间、逻辑、艺术、社交等。因此,智能的定义可能是二元的(一个物体是或不是智能的)、在一个连续统上的(一个物体比另一个物体更智能),或者是多维的(一个人可以具有高语言智能和低情感智能)。确实,“智能”这个词语是一个满载的手提箱,而拉链就在随时可能撑破的边缘上。