当记者拨通高丽电话时,已经是晚上九点。四月底的上海,在已和新冠肺炎疫情抗争了一个半月。但高丽和她的上海多语种团队没有一天停止手头的研究,整个团队如期完成了泰语、巴西葡萄牙语等多语种项目在车载、外呼等场景的项目交付工作,“今天有双周会,结束后又接着讨论到8点。”
这是一位90后江苏姑娘,在科大讯飞上海人工智能研究院领导一支平均年龄二十六七岁的团队,攻坚多语种智能语音技术领域“卡脖子”难题。
在五四青年节来临之际,高丽说,我们要始终坚持“用正确的方法做有用的研究”,要有信心、有勇气代表国家的最高科技实力,参与国际竞争。
找寻多语种智能语音技术的密钥
“语音合成”就是让机器“会说”。不过在过去相当长一段时间里,多语种智能语音技术的密钥一直掌握在谷歌、微软、Nuance等一众科技巨头手中。2015年,高丽加入了这支成立五年之久的团队,专攻语音合成领域。
2019年,一场突变改变了科大讯飞上海多语种合成团队。因为一些原因,中国企业无法使用多语种智能语音技术,从而严重阻碍了国产品牌的发展。在这样背景下,科大讯飞担起了这个重任,2019年底,开始全面布局多语种方向。“上海多语种合成团队的职能就是让机器不但会说中文,还可以说国外语种,说少数民族语言甚至方言。”团队负责人高丽介绍道。
两年内完成世界上主要官方语种的覆盖,并且效果上达到商用水平,解决多语种的人机交互、语言互通等问题。接到这样的目标,整个团队都有些没底。
要知道,多语种合成难度相比中英文合成大得多。比如中文,它有一套成熟且推广度极高的汉语拼音体系,可以直接用在中文合成里,解决合成中由字到音的问题,但是世界上很多其他语种并没有一套比较完善的语言学理论作为基础。多模态文本分析,特别是字音转换,就成了最令团队挠头的事。
“说实话,当时接到这个任务的时候,很有压力。”作为团队负责人,高丽说道,“在这些语种的研发过程中,我们团队很多时候是在探索和研究语言学和工程学的高效融合,我们期望通过构建一套最简洁的语言学表征,来表示尽可能多的语义相关的内隐概念和语法系统,可以让模型进行高效的学习。”
另一方面的压力则来源于小语种缺少语言专家的支持。在语音合成这件事上有个前提条件,就是需要找到专业且有声音特色的母语者,用专业的录音设备录制10小时以上的高品质音库。
“但是我们当时没有任何可以提供高品质多语种发音人的录音渠道,团队规模也只有10人左右;新冠疫情的爆发,特别是国外疫情的持续,给我们数据的跨国采集以及寻找专家资源的支持,都带来了非常大的难度。”高丽介绍说。
于是,高丽的团队分成两步开展工作,一方面通过各种渠道进行发音人的拓展,截至目前,已经累积了全球100多个发音人渠道,另一方面成立紧急研究攻关小组,研发了一套通用性强、鲁棒性高的新一代多语种语音合成系统。
困难一个接着一个,但高丽的定力和底气来源于团队十年如一日的积累。这支多语言合成团队早在2010年就已成立,十多年来一直在多语种合成领域默默耕耘,“经过10年的积累,我们在这方面已经有了一套通用的方法论,所以在端到端时代,我们可以快速构建一套全语种通用的基于Global phone的字音转换系统和多模态文本分析系统,使得端到端模型在工业界可以快速地实现产业应用。”
经过两年努力,目前,整个团队的语音识别和语音合成能力已经达到了实际的商用水平;其中语音识别覆盖了60+语种,14种重点语言识别率率先达到90%的实用水平;语音合成覆盖了30+语种,MOS分均达到4.0+的实用水平,满足商用级别要求,有效解决了国内多语种智能语音技术被国外公司“卡脖子”的难题。现阶段,团队依然在不断推陈出新,一方面追求新的技术高地,另一方面探索技术和产品的高度融合,设计更多有温度的产品,实现多语言的人机交互和人类语言互通。
去年11月10日,在国际低资源多语种语音识别竞赛OpenASR中,科大讯飞-中科大语音及语言信息处理国家工程实验室(USTC-NELSLIP)联合团队参加了所有15个语种受限赛道和7个语种非受限赛道,并全部取得第一名的成绩。
为“中国制造”出海产品提供自主可控解决方案
技术顶天,应用立地,未来还有很长的路要走,还有更高的山峰等着攀登。打破国外对多语种智能语音技术的垄断还只是起点,高丽团队坚持源头技术创新和攻关,使这项技术在实际中得到运用,其中一个方向就是为“中国制造”出海产品提供自主可控解决方案。
在手机、家电方面,为国内众多手机厂商提供包括中英在内的多语种语音识别、语音合成能力解决方案,并联合海尔研发多语种识别系统,助力其拓展东南亚市场;在车载交互方面,与上汽、长安、奇瑞等国内主要出海汽车提供商,以及俄罗斯汽车工程研究院(NAMI)等海外车厂开展多语种项目合作,覆盖英语、俄语、日语、泰语、西班牙语、意大利语等数十个语种。
“我们要始终保持一个开放、自省的心态,不断地吸收新鲜血液,给团队带来更多可能,同时我们要始终坚持‘用正确的方法做有用的研究’,这样你的需求在不断拓展,方法也在不断创新。”高丽介绍说,未来,她的团队期望构建更为完备的多模态文本分析系统,在更多语种上进行推广应用,同时也期望他们的多模态文本分析系统可以服务于机器翻译、语义理解等方向,给大家带来更多更懂你的AI技术和产品。
而在精密严谨之外,高丽已经发现了AI技术温情的一面。他们研发的人工智能语音合成技术对方言保护、拯救濒危语言等具有重要意义。
联合国教科文组织数据表明,世界范围内,平均每两周就有一种语言消失。在我国,随着普通话的普及,一些少数民族语言、方言等弱势语言已经濒临灭绝。以满语为例,每一亿个中国人中,只有一人能够熟练掌握这种语言。
“语言的意义除了作为交流工具而存在,更是民族文化和历史的载体。每当一种语言走向消亡,同时远离我们的还有绵延留长、用语言来传承的人类文化遗产。人工智能的出现,让濒危的弱势语言又有了复活的可能。”高丽期望团队研发出的AI语音合成技术,开展濒危语言的复刻,比如锡伯语、彝语等少数民族语言,上海话、苏州话、客家话等方言,传承人类文化瑰宝和保护濒危语言。
“保护语言多样性就是保护文化多样性,而保护文化多样性也是保护人类命运共同体的多样性。”
作者:徐晶卉
编辑:周渊
责任编辑:唐玮婕
*文汇独家稿件,转载请注明出处。