韩国棋手李世石(右)与人工智能AlphaGo对决中落下第一子。东方IC
文汇报首席记者姜澎
也许是有史以来最强大的人工智能“阿尔法围棋”(AlphaGo)昨天战胜了韩国围棋高手李世石九段,成为学界热议的焦点———人工智能(AI)专家们从中看到了具有深度学习功能的AI一日千里的进步;脑科学家们则在考虑当人类更深刻地理解大脑后,是否能制造出比AlphaGo更强的神经网络。
赢在意料之中
上海纽约大学研究人工智能的教授张峥此前已经断言,AlphaGo赢棋毫无悬念。“按照AlphaGo的学习和自学习规则,一日千里的行军速度,不要说是在过去五个月中进步飞速,即便是把围棋改成3D模式,它也一定会超过人类棋手。因为同一个棋盘,AlphaGo一天可以死上万次,人一天才只能摔几个跟头而已。”
张峥称,此前认为人工智能百分百会赢,是基于AlphaGo的技术细节。因为AlphaGo的卷积网络从小局部开始总结,小局部的经验可以自然迁移(和位置无关)。围棋战斗中局部缠斗居多,抖动全局的蝴蝶效应该有,但不多,这是AlphaGo占便宜的另一个地方。也就是说,19×19的经验可以挪用到20×20。所以,如果想胜,多造蝴蝶。
人和机器间的思维鸿沟在昨天的棋局中“一览无遗”。他举一个例子,在昨天的实战评论中出现了“AlphaGo在这里尖了一步”、“AlphaGo这里一步是打劫”、“补了这里”、“压了那里”……张峥说,“AlphaGo如果听了这些评论简直要笑死。不是因为它听明白了,而是因为它根本听不懂,也不会这么去思考。”AlphaGo的策略就是,哪里价值大就下哪里,头脑简单而粗暴。事实上,“飞”“尖”“压”这样的标签,对机器来说是个很难的分类任务:相对哪部分棋子是“飞”,为什么不是对那部分的“尖”? 这是计算机视觉领域的一个传统老问题:what-where。“打劫”这种时间序列上的标签就更难了。AlphaGo根本就不理这种问题,要消化这类问题会难死它。
靠什么一日千里
据上海纽约大学副校长、计算神经生物学教授汪小京介绍,AlphaGo的工作方式是经典的多层前馈卷积神经网络。这类网络的出现很大程度是受到神经科学的启发,其中尤其重要的是上世纪50年代诺贝尔奖获得者胡贝尔和威塞尔对视觉皮层的工作。AlphaGo的进展很大程度上来源于谷歌强大的计算资源和工程师团队以及对于若干经典算法的整合和改良。
所谓“深度学习”是植根于对大脑视觉系统的研究。视觉系统由很多“层”神经网络组成,神经信号经第一层处理后送至第二层,经第二层进一步处理后送至第三层,以此类推。层与层之间的网络连接是通过学习训练而形成的。深度学习系统在完成某些任务上已接近人的能力。然而目前这个理论还有相当大的局限。例如,深度网络模型通常只有“前馈”连接(从第一层到第二层、第二层到第三层,等等),而人脑的神经系统有很多“反馈”连接(从第三层回到第二层,等等),比如视觉注意力就来自于从高级“控制”脑区到初级视觉脑区的反馈信号。
简单来说,AlphaGo有三套网络,可以看作是两个大脑,一套是走棋网络和快速下棋网络可以看作是一个大脑,还有一套估值网络则是对大局进行判断。
第一个神经网络大脑是“监督学习的策略网络”,也是落子选择器,主要是观察棋盘布局并预测每一个合法下一步的最佳概率,并找到这个下一步。“强化学习的策略网络”则是更强的落子选择器,这一策略网络不是简单审视单一棋盘位置,再提出从那个位置分析出来的落子。也不模拟任何未来的走法,而是分析最佳策略。这展示了简单的深度神经网络学习的力量。同时,还有快速落子选择器,这个神经网络观察对手之前下的子和新下的子,观察棋盘的局部,使得决策更快。
第二个大脑则是估值神经网络大脑,也是棋局评估器。这个大脑并不猜测具体下一步,而是预测每一个棋手赢棋的可能。通过整体局面判断来辅助落子选择器。这个判断仅仅是大概的,但对于阅读速度提高很有帮助。通过分类潜在的未来局面的“好”与“坏”,AlphaGo能够决定是否通过特殊变种去深入阅读。如果局面评估器说这个特殊变种不行,那么AI就取消这一思路上的任何落子。
在学界看来,AlphaGo这类AI可以说是目前类脑人工智能一个比较好的实现。那么,当我们更深刻地理解大脑后,能够制造出比AlphaGo更强的神经网络,还是我们对类脑智能有了更好的研究后能推动对人脑的理解呢? 这在业界学者看来是一个目前令人困惑的问题。汪小京认为,发展脑科学基础研究,将促进“深度学习”等类脑智能技术的蓬勃发展。而在张峥看来,类脑神经网络中的估值判断网络就是由优美的数学算法来架构表达。这也使得一些顶尖的神经科学家和数学家在研究,目前这一数学算法是否可以推广到对人类大脑神经网络的研究中。
消灭机器和人类之间的理解鸿沟
每当AI取得进展都会引起争议,有人认为AI是要超越人类,甚至威胁全人类了。AlphaGo赢棋也引起了这类争论。
“AlphaGo也许会打破人类的心理安全底线,但是‘打不过,难道不是制造任何工具的目的?如果买来的锤子还没你拳头硬,那谁会买。日常生活中所有工具的存在就在于它们强过你。”张峥说:“研究AlphaGo难道不是为造一个我们打不过的围棋AI?”
上海交通大学研究人工智能的教授俞凯也称,从某种程度上而言,每次技术的进步都是人的某一个器官的延伸,汽车是腿的延伸,AI则是大脑的延长线。就目前来说,没有担忧的必要。
在张峥看来,现在机器不能真正理解人类,人类也不能真正理解机器,而消灭这一鸿沟,可说是业界和学界之间的制高点。“我常常告诫学生,不要被现在语音识别达到99%而迷惑,因为这并非真正的智能,只能算是‘智能界面,。”不过,张峥也称,机器学习仍然有自身的缺陷:无法总结规律,或者说无法吐出一套规整自洽的规律;泛化能力差,无法在复盘中举一反三,即便告诉它哪步走错了,恐怕它也不知道为啥,只是一气儿死磕到撞了南墙才完事。