当我们谈论“人工智能”的时候,必定绕不开语音交互的话题,因为它是人与设备间的一座沟通桥梁。虽然,对着手机用语音进行文字输入已成为现实,但这只是特定条件下的“语音识别”。而人类的交互是自由而“任性”的,不管时间地点、语言丰富多元、语义复杂多变,因此单纯“一根筋”式的语音识别尚不能满足自由的人机口语沟通的需求。
作为参加世界顶尖科学家论坛的中国青年科学家代表,上海交通大学计算机系教授、上海交大-思必驰智能语音技术联合实验室负责人俞凯带来了一项近期研发的认知型人机对话系统技术。它可以将机械式的语音识别推广到智能人机对话,使得人们在车载、家居等各种真实的复杂场景中,顺畅自由地使用语音,与能够理解自然语言的智能交互机器人进行对话交流。
人性化语音交互,告别单一、多错的语音识别时代
不少车主大概遇到过这样的尴尬,当你在车里说“导航到车管所”时,可能会不幸被识别成“导航到厕所”。但有了新型人性化智能语音交互技术后,根据情境和谈话历史信息,这个语音识别的错误就可以自动纠正回“车管所”。这一切得益于“深度理解”以及“自动纠错”技术。
俞凯解释,这项对话系统技术突破了传统语音技术不能很好支持复杂语音交互功能的难题,在有歧义和错误的情况下,机器仍然可以通过多轮人机对话,让机器识别和理解人的自然语言中的关键意图和属性,进而进行处理。
而对于“纠正错误”的问题,不止是深度理解可以进行单句的语义适配式纠错,机器还可以像人一样通过简单对话纠错。
比方说前段时间火爆的网络视频“纠正哥”,视频中说着山东方言的男士对着“安吉星”说出一长串电话号码,不巧有一、两位识别错误,车主不停纠正却是“对牛弹琴”。
俞凯说,“纠正哥”无法交互的核心难点并不是方言识别,而是对话过程中的“打断”和“纠正”。
“在汽车噪声较大的时候,偶尔有一两个数字的识别错误是很正常的事情,这种错误很难通过情境直接消除。但是通过逻辑关联和智能对话,则可能帮助‘纠正哥’把电话很快拨出去。”
实现应用成果转化,“智能老师”才能大显身手
如何练好口语,则是一个困扰许多中国英语学习者的问题。由于语言环境缺乏或学习方法不当,很多人在学了十几年英语后,口语能力依然没有明显提升。其实,语音技术在课堂教学、口语考试及家庭学习中也能“大显身手”。
俞凯提到,语音评测技术作为口语学习领域的一种新兴技术,建立在计算机技术、模式识别技术以及智能信号处理技术等基础上,可以实现人机交互式教学,“一对一”口语辅导,以及针对口语发音及外语交流能力的自动化评估。
目前,上海交大与苏州驰声公司合作,首次在多个省市的英语中考中进行了自动口语评估的实践,经过统计测试,机器自动评测的准确程度超过了普通老师。
“这一技术开辟了机器自动评测技术在中等教育正式英语口语考试中应用的先河,为未来的英语学习、评测开辟了新的方式。”而它也引出了另一个话题:如何打通科技转化成果的“最后一公里”?
俞凯一阵见血地说,这需要配套的“人”和“措施”。
他坦言,在英国等国家,技术转化过程中有一个重要的角色——科技转化经纪人。
“和影视明星一样,他不能自己去谈合作,其实科技人员也一样,只是这个经纪人不是简单地谈价格,更重要的是他要理解技术、理解应用,既有技术又有实际转化经验,这是我们目前比较欠缺的。”
另外,从产生一个想法到真正实现做出产品,这个漫长的过程中需要有一支帮助技术工程落地的团队。
“这样的人更可能在高校中,而不是公司里。”俞凯说,这时就需要政府“推一把”,给予一定资助,打通工程化的“最后一公里”。
作者:朱颖婕
编辑:郝梦夷
责任编辑:唐闻佳
*文汇独家稿件,转载请注明出处。