依托人工智能,更多视觉识别技术将用于合成视频、预判未来
所见未必属实,真相如何洞悉
未来,你在网上看到一段美女载歌载舞的视频,请先别陶醉——这段视频很可能是由计算机处理合成的,而“主角”可能只是一位安静地站立着的大叔。
伴随着人工智能技术在视觉识别领域的广泛应用,未来,在茫茫人海中一秒锁定目标将只是入门级别的“小儿科”,更多视觉识别技术将用于合成视频、预判未来……
当“所见都未必属实”的时代到来,我们将如何把控视觉智能的实践与应用,又如何洞悉真相?
昨天举行的2018世界人工智能大会“视觉智能,瞳鉴未来”智能图像主题论坛现场,来自国内外智能识别领域的专家及资深研究人员,从多个维度深入探讨视觉智能技术在未来的实践与应用。
美国哥伦比亚大学工程学院高级执行副院长张世富在发言中率先抛出关于智能视频识别的诸多挑战。
首要的是如何根据视频中主角过去、现在的状态,来预判将来的动作、行进轨迹。根据目前人工智能技术在视频识别领域的应用来看,多数做到了关键要素的认知。比如,对视频中人、时间、场景、事件的认知,实现了在识别这些关键元素后能迅速链接相关信息。
当下众多人工智能视觉识别领域的研究机构在奋力突破的壁垒是:对细微动作的分类、定义及预判。“预判,这对于视频识别来说应用意义很广。”张世富举例说,这个功能可以运用到养老、交通、安防等各领域。比如,根据视频监控家中老人的细微动作,预判其是否会摔倒;无人驾驶方面,可以依据周边其他车辆运行状况来预判、躲避碰撞;城市安防领域,可以在人群监控视频中迅速锁定个别人的不稳定状态,依据其肢体细微动作来预判其可能采取的行动,从而在第一时间干预制止。
此外,依托人工智能技术,未来视频可以被创造、合成。张世富“剧透”说,用最新的人工智能技术,可以充分抓取人物说话时的神态表情,然后在仅有一段语音的基础上,完美合成出一段连唇语、表情都能全方位匹配的人物演讲视频。
未来,你所看到的视频,可能真是“虚构”出来的。
当“所见都未必属实”,一方面,这挑战的是人类赋予人工智能技术的道德伦理;另一方面,从本质上说,更需要加强视觉智能识别技术的精准完善。
复旦大学计算机科学技术学院副院长薛向阳针对“基于深度学习的视觉内容识别”作了分享。目前,该学院与相关人工智能企业构建了“深度学习联合实验室”,围绕多语种图像字符的精准识别,以及大规模互联网视频内容的分类识别这两大应用场景,开发一个数据标准工具,以此来解决半自动、低成本的海量视频图像标注问题。比如,依托深度神经网络模型,解决大场景中“被遮挡”的人脸、车辆等的特定目标精准监测和识别问题;针对自然场景中任意朝向的图像和字符,依托深度网络检测方法可提高识别精准度;依据多尺度视觉特征,以及人脸的细节属性,来精准识别人员身份及脸部特质。
美国加州大学伯克利分校人工智能系统中心创始人兼计算机科学专业教授斯图尔特·罗素说,人类在某种程度上是通过高级别的抽象思考来做决策,包括安排行程、制定计划、做决定等。而这些计划决策又囊括了数亿个即将要进行的基本行动。人类借由这样高级别的抽象思考来达到目标、洞悉真相,而这也是目前人类与人工智能最大的差距所在,以视觉智能应用为例,目前的技术多数解决的是“即刻决策”问题,未来需要被更多赋予“执行较长时间尺度中决策的能力”。
“发展人工智能,我们不应该抱着求大求快的心态,而更应该关注打造更好、更安全的人工智能。”他说,只有这样才能在根本上确保“洞悉真相”。
作者:本报首席记者 顾一琼
编辑:叶松亭
*文汇独家稿件,转载请注明出处。