人工智能(AI)诞生至今掀起过三次浪潮,其中第三次浪潮始于2006年,主要由算力和深度神经网络模型驱动。这波浪潮推动了人脸、指纹、医学图片等视觉识别技术的发展,还促进了智能汽车、安全监控、机器人、无人机、智能制造等产业的广泛发展。
随着时间的推移,深度学习的弊端逐步显现,最突出的就是“黑箱” ——人们无法理解和了解算法背后的数据逻辑、代码逻辑以及对个人造成的影响。在今天举行的2022世界人工智能大会科学前沿全体会议上,全球顶尖人工智能专家带来了“破局”方法,他们认为新思路能引领人工智能冲击“第四浪”。
“视觉知识”让机器“看懂”竹竿和水泥杆
“大数据、大模型固然重要,大知识同样重要,数据和知识双轮驱动的人工智能,是未来发展的主流方向。”中国工程院院士潘云鹤说。
他在大会报告中提出了“视觉知识”的概念,它不同于深度神经网络的视觉识别,是一种带有理解意味的识别,与人类进行视觉识别的方法类似。潘云鹤以浙江大学控制科学与工程学院fast实验室“丛林自主集群飞行机器人”的研究为例进行了解释——当轻量化、小型化的无人机集群在繁密的竹林中穿行,如何区分竹竿和水泥杆?“毛竹会随风而动,而水泥杆是不会动的。当知识被运用到机器学习中,AI就能从简单的视觉识别发展为理解和判断,从而作出正确的决策。”
发展视觉知识,关键之一在于突破视觉理解,要在实现视觉识别分类的基础上进行分析与模拟。在潘云鹤看来,当今,人工智能、计算机图形学和计算机视觉三个领域的研究者特别需要联手研究视觉理解和视觉知识的自动学习,“视觉理解将成为开路先锋,它与知识图谱结合,双轮驱动人工智能新浪潮”。
“具身智能”让“图灵的猫”有了新进展
机器人想要像人一样思考,必须有人一样的身体?这一由计算机科学之父、人工智能之父图灵在50多年前提出的概念,如今有了新进展。上海交通大学教授卢策吾在会上介绍了当今人工智能研究领域方兴未艾的“具身智能”理念。依据这一理念,未来的机器人无需编程,只需人类在其面前演示几遍动作,它就能模仿并理解其概念。
卢策吾表示,其团队的研究思路是让机器模仿人的行为,根据机器的特点,将人的任意行为分解成有限元操作函数。打个比方,比如一个抓取动作,分解成若干操作步骤让机器学习。与深度学习的“喂数据”不同,不管是抓气球还是抓水管,他们将成千上万个不同的抓取动作汇聚成一个“元操作”。从具体的抓到“元操作”的抓,其实机器经历了从具象到抽象的理解过程。在实际应用中,卢策吾团队已经汇聚了100TB的研究数据,让机器抓取了成千上万个从未见过的物体。
现在的机器依靠编程从事各项工作,这也意味着只有工程师能给机器“派活”。什么时候任何人都能教机器做事呢?具身智能有可能是让机器智能的一条路径。卢策吾表示,这条路一旦走通,任何人都可以是机器人的老师。
“人无我有”抢占人工智能制高点
不管是“视觉知识”还是“图灵的猫”,在图灵奖得主、中科院院士、上海期智研究院院长姚期智看来,中国想要抢占全球人工智能制高点,还需重视基础研究,营造适合基础研究的生态。为此,他结合近年来的思考给出五点建议,分别是人无我有、人有我有、及早起步、量子智能和人工智能+X。
所谓“人无我有”,就是要回答全球人工智能领域学者关心的问题,谁能给出这些问题的解决方案,谁就能在该领域取得话语权,这对抢占制高点至关重要。姚期智认为,要大力开拓新兴技术方向的理论与技术研究,在刚刚起步的领域争取先机。比如,在自动驾驶上,可采用以视觉为中心的自动驾驶方案,结合多模感知做出智能运算。
人工智能离不开算力,姚期智认为人工智能应该与量子计算结合,还应该和更多“X”交叉。比如,将人工智能用在建筑学上,已经产生了许多新材料,这是一种刚刚开始且非常有意义的工作,他认为这能成为非常重要的原创工作的来源。
据清华大学姚班班主任赵行透露,为适应人工智能的强交叉趋势,清华大学交叉信息研究院院最近把姚班、智班和量子信息班“三合一”为姚班,为本科生提供通用培养平台,让他们可以选择自己想要研究的计算机技术和理论,而不是按照课程培养方式选择出路。赵行表示,希望十年后,“三合一”的姚班学生都能成为各自领域的大师级人物。
作者:沈湫莎
摄影:沈湫莎
责任编辑:任荃
*文汇独家稿件,转载请注明出处。