试想一个场景:十字路口,人车相逢。以往的无人驾驶,出于安全考量将行人视作“障碍物”避让,这是人工智能“与生俱来”的物理执行力。但现实生活中,倘若行人挥挥手示意车辆先行,无人车能否给出正确反应?
昨天(7日)举行的2023世界人工智能大会“具身通用人工智能”主题论坛上,这一案例指向“具身智能”(Embodied AI)概念,即机器具备敏锐而灵活的感官,能够像人一样感知周围环境变化并作出相应反应。
这一概念最初在上世纪由“人工智能之父”图灵提出,却在数十年后经历技术迭代再度成为世界人工智能大会前沿话题,并被在座专家预言将“引领下一波浪潮”。
人工智能的聪明“大脑”,有望培养出心智,实现“知行合一”:通过图像、文字等的联合训练,提升交互能力和学习能力,理解人类语言,能够分解任务、规划子任务,在移动中识别物体,更好地与物理世界互动、为人类服务。
人是机器最好的老师
人是机器最好的老师。“知”建立在“行”之上,对现实生活的捕捉,能帮助机器人真正看见并理解物理世界中的事物。比如卧室,能够睡觉、休息、放衣服,这类行为基于人的身体设计,机器人就需要直接通过坐上椅子、躺在床上等行为任务去验证,从而了解人的意图。
美国斯坦福大学助理教授吴佳俊提出,将建立一个以人为中心的生态,他和团队已经收集存放了1000余种人类日常活动,供机器学习,这也是具身智能的基础。
但人也是复杂的动物:交互过程中有55%的信息通过视觉传达,如仪表、姿态、肢体语言等;有38%的信息通过听觉传达,如说话的语气、情感、语调、语速等;剩下只有7%来自纯粹的语义。
“要让人工智能达到具身智能,机器人要不断通过视觉,肢体,听觉,触摸等方式学习。”美国加州大学伯克利分校副教授安卡·德拉甘认为,人机交互,机器人不仅要理解人的行为,更要理解人的动机、理解人的情绪,由此才能对整个场景做出更准确的预判,最终会达到人和机器人的和谐协作。因此机器人需要收集那些人机互动的数据,试图理解它可能对人类情绪造成的影响,更好地进行决策、作出反应。但同时,要优化模型、设置噪声参数等方式让人的指示更理性,从而提升性能。
注入“向善”心智
如何确保“最强大脑”,把才智用在正道?大语言模型也会会错意,由此产生“一本正经胡说八道”的隐忧。由此学界产生了“人工智能对齐”的概念——把好安全关,确保人工智能系统的目标和人类价值一致。
清华大学助理教授、上海期智研究院青年科学家吴翼有个生动的例子:“我打牌不一定要赢,但喜欢把‘炸弹’丢出去,机器人不按常理出牌,但最终目的是为了赢。”
让AI学会优先把“炸弹”丢出去是一个考验。他认为,人类与人工智能价值会产生分歧的原因,在于人的价值观较为复杂,几乎不可能用一条条数学规则直接编入AI程序。因此在训练AI时,通常给到最简单直白的目标:比如得高分。但是这个分数很难完美地反映出人的喜好。
所以就需要采取多种技术手段来确保AI安全,比如采用强化学习对齐技术等,让它保持在一个相对稳定的状态。
清华大学助理教授、上海期智研究院青年科学家弋力同样提到,从人的角度出发理解物理世界与动态交互,实现智能体与人的价值对齐,才能确保人工智能系统符合设计者以人为本的初衷与使用者的利益,不会产生意外的有害后果。“通过强化学习和对齐人的需求,让一个通用的人工智能模型最终成为每一个人定制化的助手。”
作者:王宛艺
编辑:王嘉旖
责任编辑:单颖文
*文汇独家稿件,转载请注明出处。