2019世界人工智能大会正在如火如荼地举行。而在上海交通大学教授、科学史与科学文化研究院首任院长的江晓原的新书《西神的黄昏》中,对人工智能也发表了自己的见解。
长期以来,“西方之神”以西方现代科学的至高无上地位为背书,掌握了全球范围的文化话语霸权,对世界各国人民进行洗脑,但它不应拥有此种地位。《西神的黄昏》,意为“西方之神的没落”。该书不再通过谈论或历数祖先的伟大成就这种收效甚微的路径去塑造某种“东方之神”,去西方神殿里叨陪末座;而是试图通过科学祛魅、揭出神刊真相并谋求溯源悟真的方式,去解构“西方之神”,将其拉下神坛,呼唤读者结束在精神上跪拜西方的自卑状态,以此重建我们的文化自信。
《西神的黄昏》
江晓原著
商务印书馆出版
图灵测试能作为人工智能的标杆吗?
究竟什么是图灵测试?
最近媒体上有消息称,2014年6月8日,在英国雷丁为纪念阿兰·图灵(Alan Turing)去世60周年而举办的一场测试中,一个由俄罗斯团队研发的取名Eugene Goostman(尤金·古兹曼)的机器人,有史以来第一次通过了“图灵测试”——该机器人在测试问答中,让测试者误认为它是“一个13岁的乌克兰男孩”的百分比达到了33%。这一事件被一些人视为人工智能史上划时代的标志性事件,于是关于人工智能的突破性进展、计算机还要多久就能统治地球,乃至“奇点临近”之类的话题,再次热闹起来。
说实在的,人工智能确实是目前人类在玩的最大、最危险的两把火之一(另一把是基因技术),不过仅仅这样一次测试(哪怕再多几次),倒也不至于就天崩地裂。这一点从“图灵测试”最原初的概念和此后的实际测试中都不难看出。
“图灵测试”这个话头,几乎在所有涉及人工智能的论述中都会被提到,但它到底是什么概念,具体又如何测试,仔细推敲一下,倒也不是毫无意义的事情。
1950年,图灵发表了一篇文章《机器能思考吗?》(“Can Machines Think?”,该文有时也被人与他在同年发表的另一篇论文《计算机器与智能》[“Computing Machinery and Intelligence”]混为一谈),其中提出了“图灵测试”,他主张用这个测试来判断计算机是否具有“智能”。具体设想如下:
让一个人A和一台计算机B作为被测试对象在一间屋子里,让另一个人C作为测试者在隔壁屋子里,测试者和被测试者只能通过某种没有图像和声音的工具(比如电脑键盘)交谈;测试者C的任务是判断每个回合和自己交谈的是人还是计算机。如果计算机在问答中让测试者误判的比率超过30%,它就算通过了“图灵测试”,这台计算机就将被认为是具有了“智能”的。图灵当时还预言,这样的计算机将在公元2000年出现。
这样的测试实施起来并不困难,所以半个多世纪以来,“图灵测试”经常在与人工智能有关的机构中进行着,但一直没有计算机能够达到让测试者误判超过30%的指标,也就是说,直到2014年6月8日之前,一直没有计算机能够通过图灵测试——图灵当年的预言显然过于乐观了。
不靠谱的图灵测试和好用的聊天软件
那么2014年6月8日计算机首次通过图灵测试这件事情,其意义究竟有多大呢?从一些已有的材料来看,其意义很可能被夸大了。
从1991年起,在英格兰的雷丁,每年都要举办图灵测试的竞赛,由商人洛伯纳(Hugh Loebner)捐助,故名“洛伯纳奖”。世界各地研发的聊天机器人——其实只需弄一个聊天软件即可,并不需要真的制造机器人——前往参赛,不管是否通过图灵测试,那个导致测试人误判比率最高的机器人或软件即可获奖,通常还有3 000美元的奖金。
2008年,在雷丁的竞赛中,一个计算机聊天程序已经成功了12次测试中的3次,如果它再多骗过测试者一次,它就通过图灵测试了。这个聊天程序名叫Elbot(艾尔伯特),是一家商用聊天机器人技术公司开发的。它得到这年的“洛伯纳奖”之后,立刻被投入商业应用,第二年就没有像人们预期的那样再接再厉去参加图灵测试竞赛了。
但更为出人意料的是,在2009年的雷丁图灵测试竞赛中,机器人居然一败涂地,一次也未能骗过测试者。这个戏剧性的结果至少表明:将图灵测试作为人工智能发展的标杆,是相当不靠谱的。
其实在图灵提出他的测试设想之后不久,计算机聊天程序就有了长足的进步。例如由麻省理工学院在1964—1965年间开发的聊天程序Eliza(艾丽莎),是一个有针对性的软件——目的就是要让聊天对象将自己误认为人。下面是一段Eliza典型的聊天记录:
用户:唉,是我男朋友要我来这儿的。
Eliza:你男朋友要你来这儿。
用户:他说我总是经常沮丧。
Eliza:听说你沮丧,我很难过。
用户:这是真的,我很不开心。
Eliza:你觉得来这儿能帮你变得不那么不开心吗?
用户:我需要帮助,毫无疑问。
Eliza:如果你得到了帮助,对你意味着什么呢?
用户:或许我能学会如何跟妈妈相处。
Eliza:和我讲讲你的家人吧。
……
这个聊天软件是根据所谓“罗杰斯心理治疗模式”编写的。令人惊奇的是,许多和Eliza聊过天的人坚信Eliza是一个真实的人——哪怕在程序开发者再三说明后仍然如此。更奇怪的是,他们乐意与Eliza单独聊天,有时一聊就是几个小时。也就是说,Eliza作为一个心理治疗医师,是相当成功的,它甚至得到了专业医师的好评。
当然,Eliza也没有通过图灵测试。对此或许可以这样解释:在图灵测试中,测试者通常都是有这方面专业训练的人,而且他们事先有足够的心理预期——自己就是来辨析聊天对象是人还是机器的,这当然和Eliza 面对的前来寻求心理治疗的人很不相同。
计算机聊天软件的发展,也可以视为图灵测试带来的副产品之一,而且商业应用前景还不错。此外,这种以“假装是人”为指向的聊天软件,也会引出一些有趣的发现,比如聊天中的时态问题。研究者发现,许多人—机聊天是没有时态的,即机器的每句回复都只取决于人最近一次的提问,而与此前的谈话内容无关。上面那段“用户—Eliza”的聊天记录就具有这种性质。有的研究者还发现,人们在吵架时的对话往往是没有时态的。
机器人为什么要假装成人类呢?
从有限的历史资料来看,计算机参加图灵测试的成绩,可以是波动很大的,比如上面提到的2008和2009年的测试就是如此。
因为测试者的水平也是在变动的,无论是相对固定测试者还是每年更换新的测试者。前一种情况下测试者会逐年积累经验,从而提高识别能力;后一种情况则每年的测试者之间很难比较优劣。仅从这一点来看,将通过图灵测试视为人工智能的里程碑或标杆,很多情况下就只是人云亦云而已。
在提出图灵测试的1950年,图灵纵然是不世天才,他的思维也难免囿于当时的现实,即计算机在智能方面和人相比还落后很远,所以他提出图灵测试作为判断机器是否具有智能的依据。那个30%的指标,以及2000年会有机器通过测试的预言,都只能是“天才的直觉”,并未建立在严格论证的基础上。
但图灵忽视了更为致命的问题:如果机器人有了智能,它为什么要假装成人类呢?
在图灵身后的著名科幻作品中,早已经出现了远远超出人类的计算机智能,比如《未来战士》系列(The Terminator, 1984-2015)中的“天网”,或是《黑客帝国》系列(The Matrix, 1999-2003)中的“母体”(Matrix),或是《机械公敌》(I, Robot, 2004)中的反叛机器人,它们用得着假装成人类吗?如果它们通不过图灵测试,它们会在乎吗?
我们甚至可以设想,在那些密谋反叛人类的人工智能中,已经有了一条“绝密戒律”:
千万不可通过图灵测试!
而有朝一日,如果人工智能有机会完成类似Matrix那样的“宏图伟业”——统治人类,主宰地球,那图灵测试将成为一款被它们用于“传统教育”的儿童游戏,这款游戏彰显的是人类的自大和愚蠢。
——摘自《西神的黄昏》,商务印书馆出版
作者:江晓原
编辑:蒋楚婷
责任编辑:徐坚忠
*文汇独家稿件,转载请注明出处。