美国时间6月18日,IBM Research推出了人工智能系统Project Debater,一个具有幽默感、小巧机智和偶尔有强有力的论点的实验性会话AI系统。当日,Project Debater首次与人类进行现场公开辩论,此次辩论比赛在旧金山的IBM沃森西部厂区( Watson West Site)举行。
Project Debater是IBM Research(即超级电脑沃森背后的团队)最新研制的AI系统,也是第一个可以对复杂话题进行辩论的AI系统,旨在通过公正的辩论来拓展人们的思维。Project Debater拥有数以亿计的论文、报告和新闻文章的庞大数据库。通过消化这些数据,Project Debater可以就特定主题做出逻辑结构良好的演讲,提出清晰明确的论点,并对对手观点进行反驳。尽管在一些叙述上不是很自然,并不能完全和人类相提并论,但Project Debater的思考和答辩仍然令人印象深刻。
Project Debater大约有1米8高,一人宽,长着蓝色的动画嘴巴,看起来就像一块造型特异的广告屏幕。它发出流利的女声,声音中充满自信。虽然说话有些磕磕绊绊,但它所讲的内容却不无道理,仿佛是一位学识丰富但口舌结巴的教授。
IBM Research首席调查员兼Project Debater的创造者Noam Slonim称,该AI系统的训练始于六年前,直到两年前才有能力参与与人们的辩论。
IBM研究人员正在通过教授计算机来探索人工智能的界限,以创造引人入胜且信息更加丰富的观点。他们的目标是建立一个智能系统,帮助人们在答案模糊时作出基于证据的决定。自2012年起,Project Debater是IBM对AI的下一个重要里程碑,是继深蓝(Deep Blue)和沃森(Watson)后的又一突破。根据IBM的计划,Project Debater未来将能够通过提供引人注目的、以证据为基础的论点并限制情感、偏见或模棱两可的影响来帮助人们做出理智的判断。
首战告捷,战胜顶尖人类辩手
Project Debater和2016年的以色列国家辩论冠军Noa Ovadia、以色列国际辩论协会主席Dan Zafrir分别进行了辩论比赛。
▲图左为Noa Ovadia,图右为Dan Zafrir
在比赛中,Project Debater参与了两个辩论主题,即“政府是否应该资助太空探索”和“远程医疗是否应该在医疗保健中发挥更大作用”。Project Debater在辩论前并不知道论题。
就“政府是否应资助太空探索”的论题,Project Debater持正方,Noa Ovadia持反方。双方随后发布了四分钟开幕词、四分钟反驳和两分钟论证总结。在每个部分之间,Project Debater听取了人类对手的四分钟开场白,解析了这些数据,并创建了一个突出显示并试图驳斥人类对手所提出的信息的论据。这令人难以置信,因为它不仅要理解单词,还要理解这些单词的背景。鹦鹉学舌般复述维基百科条目很容易做到,但获取数据并创建一个不仅基于原始数据而且还考虑到刚才听到的叙述的内容,却十分困难。
Project Debater提出一个开放性观点,即空间探索有益于人类,因为空间探索不仅有助于推动科学发现,还能激励年轻人突破思考的壁垒。
Noa Ovadia则认为诸如地球科学研究之类的项目有更值得获得政府补贴。在听取了Noa的论点后,Project Debater发表了反驳言论,认为太空探索带来的潜在技术和经济利益超过其他政府支出。
在双方总结陈词后,一项快速调查显示,大多数观众认为Project Debater比人类的论述更能丰富他们的知识。
在这次辩论过程中,AI系统确实也出了些差错,并做出了一些疯狂的断言,比如它认为太空探索“比更好的道路、更好的学校或更好的医疗保健更重要”,或者在辩论过程中随机地说出“Scott Pelley画外音”,这似乎是参考了哥伦比亚广播公司(CBS)新闻和60分钟(60 Minutes)记者的言论,但听起来,并不像一个正经的辩手。
Chris Reed是论证技术中心(Center for Argument Technology)的主任,负责的是一个探索会话式人工智能的学术团队,并没有参与Project Debater项目。应IBM的邀请,Reed在周一的第一次演出中观看了Project Debater的表现,并表示就像在看“如此多的难题聚集在一起”,包括坚持自己论点的能力、语法错误的欠缺以及在做出决定之前能够预测和反驳其反对者的论点等问题。
“争论和辩论,本质上是驱动科学进程的引擎,描述了大多数政治论坛发生的事情,甚至描绘了现代宗教的大多数概念。”Reed说,“论证是人类的一个决定性特征,如果我们的机器能够传达其中的一部分,那么我认为这意味着一件非常重要的事情正在发生改变。”从文化上来看,辩论的起源不在于冲突和竞争,而在于民主和讨论。辩论丰富了决策制定过程,帮助人们权衡新思想和新理念的利弊。它处于文明社会的核心。我们辩论的不仅是为了让别人相信我们自己的观点,而且也是为了理解和学习彼此的观点。
试想一下,一个与专业人类辩论家交流的AI系统听取了他的观点,并以令人信服的方式提出了自己的无脚本推论,说服听众思考其在有争议的话题上的立场,这说明AI系统可以像人类一样去理解意见并有针对性地给予自己的观点。未来,相信机器能够通过帮助人类做出许多重要决定。
之后,Project Debater与另一名以色列辩论专家Dan Zafrir之间进行了第二次辩论,对“应该增加对远程医疗的使用”的论题持反对意见。
虽然Project Debater的目标是一个没有偏见的机器,但在辩论期间,它还是出现疑似带有偏见的表现。在反驳人类辩手Dan Zafrir关于远程医疗扩张的论题时,该系统声称,Zafrir在开幕声明中并没有说出有关远程医疗使用增加的事实。换句话说,它认为Zafrir是个骗子。
当被问及Project Debater这一表现时,IBM研究人员Noam Slonim表示,在反驳期间,该系统有一个置信度阈值。如果感觉非常自信,它会创建一个更复杂的陈述;如果感觉不那么自信,那么陈述就不那么令人印象深刻。因此,Project Debater对反驳意见不是很有信心,所以它基本上把Zafrir当成一个骗子。有趣的是,这大概是这个系统整个晚上做的最人性化的事情。
此次辩论有四十名成员参与投票,Project Debater比Dan Zafrir多得9票,成功赢得比赛。
在辩论中,Project Debater能够引用阿拉伯联合酋长国的一系列资料以及德国经济事务部长的报告,获得太空探索所能提供的就业数量等有效数据。但是,为了避免犯引用和语言逻辑方面的错误,Project Debater没有直接引用其对手的论述。
尽管赢得了辩论赛,但Project Debater的语言表达能力的确是个硬伤。
比如,在第一场辩论“我们是否应当资助太空探索”中,Project Debater提出了重要的论点:探索太空有利于经济发展。但是,在表达过程中,它却啰啰嗦嗦,用不同的语句把这个观点重复了许多次,仿佛一个AI版的唐僧。
另外,Project Debater说出的许多话其实都是有语病的,经常会出现一句话的前后两部分不搭调的情况。除此之外,在抖机灵和引用资料的时候,Project Debater也过于刻意了。
虽然“舌头”不灵活,不过好在Project Debater在辩论中表达的信息量大呀,这对查资料困难症来说的确是福音了。这有赖于IBM让Project Debater具备了数据驱动的写作能力、语音表达能力、以及听取语音并提炼要点、确定反驳论点的能力。
Project Debater具有非常强大的数据处理能力,能够处理几十个主题相关的数百万篇新闻,然后将文章中的要点片段提取出来,重新组合润色成为流畅的文章。处理海量数据可能不是最难的,但对于计算机来说,这种水平的资料查询整理及写作能力已经是难能可贵的了。
“无偏见”的辩论机器
根据IBM研究人员Noam Slonim和Ranit Aharonov的说法,尽管人类辩论机器是对该技术的有趣展示,但Project Debater的真正力量将是其展现无偏见论述的能力。
▲图左为Ranit Aharonov,图右为Noam Slonim
我们生活在一个被情绪和偏见染上色彩的世界中,难免看问题的角度不够真实与客观。IBM表示,世界充满了错误的信息和肤浅的想法,片面的、被篡改的叙事的兴起正在挑战社会和互联网平台。AI在语言和推理的新发展可以帮助提供多样的、消息灵通的观点,而Project Debater推动AI的前沿发展,促进智慧辩论,帮助人们建立充分知情的论点并做出更好的决策。
Project Debater可以帮助公司和政府透过我们生活经历中的喧嚣提取出一些本质的东西,并产生大多数公正的结论。当然,它所提供的数据集是基于人类的写作作品,而这些数据仍然会存在作者的情感与偏见。比如决策团队成员在开会讨论时,由于受到利益、情绪、立场和思维方式的影响,经常会出现一些互相矛盾的观点,这就很容易争个没完没了,甚至吵得不可开交。
Project Debater就不一样了,它可以不受感情因素和情绪的困扰,“理性”的听取所有成员的对话,将所有证据和论据都考虑进去来进行判断。并且,如果人类的分析逻辑出现问题,Project Debater会diss你。
构建新AI系统困难重重
在此之前,人工智能可以对关键词搜索回复简单的问题或要求,比如“一升多少盎司?”或者“致电妈妈”,这为人们日常生活提供极大便利。Project Debater则开始探索新的领域:吸收了大量不同的信息和观点,帮助人们建立有说服力的论点并做出明智的决定。
构建系统是一项非常困难和复杂的挑战。Slonim说,为了使Project Debater成为可能,研究人员开发了数十篇研究论文中记载的许多创新技术。虽然准备辩论和反驳或理解对手的论点可能需要大量的技术,但辩论者的大部分对话仍然可以直接从文章中提取出来。
▲图为研究人员Noam Slonim和Project Debater机器的合影
过去六年来,IBM以色列海法实验室领导的全球IBM研究团队赋予了Project Debater三种功能,每种功能都在AI方面开辟了新的天地:首先是数据驱动的语音编写和交付功能;其次,听力理解能够识别隐藏在人类连续冗长的自然语音中的关键主张,并构建有意义的反驳;第三,系统的模拟人类困境,基于一个独特的知识图谱,提炼出原则性的论点。
辩论的形式为这些核心能力提供了理想的测试基础。辩论规则源于人类的讨论文化,论证的内核往往是内在的主观的。Project Debater必须适应人的理性和思考逻辑,并提出人们可以理解和接受的论点。在辩论中,人工智能必须学会在凌乱的非结构化人类世界中进行导航和检索,而不是像在棋盘游戏中那样使用预先定义的规则。
与Big Blue在国际象棋中打败国际象棋大师Gary Kasparov、DeepMind的AlphaGo击败世界顶级围棋选手不同,辩论比其他比赛更加细致,与会者通过投票来决定本场比赛的最佳辩手,而人工智能通常拥有胜过人类丰富观众知识的能力,Ranit Aharanov如是说。
Project Debater有助于人类做出明智的决定
Project Debater让我们更接近人工智能的一个巨大界限:掌握语言。它是IBM一系列主要AI创新产品中的最新产品,其它产品还包括1997年获得国际象棋世界冠军Garry Kasparov的IBM深海“Deep Blue”,以及2011年在Jeopardy上击败人类冠军的超级智能系统沃森(Watson)。
尽管Project Debater的工作还远远没有完成,它有时会像人一样犯错。但在不远的将来,它很有可能帮助解决数千个复杂的人类决策。例如,帮助收集和整理某个金融事实的相关材料,或提出与公共政策有关的赞成和反对的论点。由于不经常受到人类主观意识和偏见的影响,Project Debater提出的观点可能会贴近事实。
Project Debater将扩展沃森的功能,目前数十家公司正在使用沃森的功能挖掘大量内部数据集以获得新的业务洞察力。该系统已经使用了Watson Speech to Text API,并将有助于增强沃森的高级语言和对话功能。未来,它的基础技术也将在IBM云平台和IBM沃森中商业化。
这对AI来说是一个非常积极的发展。我们可以使这种变革性技术更加透明和可解释,这样我们就越能信任它;而我们越能信任它,它就越能帮助我们在日益复杂的世界中做出最好、最明智的决定。
Slonim在接受采访时告诉VentureBeat,在此次辩论赛之后,Project Debrater将在今年晚些时候参加一场旷日持久的辩论,随后可能会举行一次研讨会,学者可以提出他们对Project Debater的意见和评论。
作者:综合自智东西、量子位等网络资源
编辑:郝梦夷
责任编辑:姜澎