深耕智能语音前沿技术
走进深圳市北科瑞声科技股份有限公司(以下简称“北科瑞声”)的人工智能展厅,一件件智能语音产品引人注目。
“智能语音音频技术应用十分广泛,可以赋能许多场景。”北科瑞声董事长刘轶说,公司通过与高速交通、智慧医疗、数字政务等行业深度融合,创新研发了一系列智能产品,并与多个国产主流平台完成兼容性互认证,实现智能语音系统全链自主可控运行,持续推动智能语音技术应用研发及产业化。2022年,北科瑞声营业收入突破亿元,同比增速超过56%。
专注技术研发
2003年,刘轶从香港科技大学博士毕业留校任教,从事嵌入式智能语音识别技术研究。“自己研发的东西能够实现应用,产生经济效益、服务社会,这是每一个工科人的梦想。”带着这样的梦想,2008年,他与两位合伙人来到深圳,创立北科瑞声。
实现梦想的路上,需要不断探索和创新。嵌入式智能语音识别技术通过将声音转换成文本和命令,能够实现语音输入、语音控制,可应用于多种应用系统、移动设备,大大改善人机交互方式。但是,要把这个技术落地实现产品化,并不是件容易的事。
“那时,人们对语音识别还没什么概念,相关技术也不够成熟,鲜有成功的商业化案例。风口没到的时候,我们需要沉下心来,做好基础性工作,锤炼好自己的本领。”刘轶说。
瞄准语音音频交互核心技术,北科瑞声组织研发团队开展持续攻关,不断突破技术瓶颈。“在人工智能和机器学习技术领域,有一大一小两个难题。大难题是指超大规模预训练模型,小难题是指芯片级神经网络模型。”北科瑞声总经理王昕介绍,针对两个难题,公司研发了音频信息感知、语音识别、人机交互系统等全链多模态人工智能技术,并将这些技术封装在自研芯片上,打造存算一体芯片级小型神经网络模型语音芯片,推出“云+端+芯”全链条、自主可控智能语音产品,实现从人工智能语音技术创新到产业应用的生态闭环。
“云+端+芯”即云、设备终端和芯片,三者链条打通之后,能够实现对数据的存储、处理、整理、分析和传输。“攻克这个技术并非易事,我们面临许多挑战。”王昕说,语音交互具有时变性。在沟通过程中,设备每一分钟都要通过提取语音特征、参数,与后台的模型进行大量比对计算,快速反馈语音内容。这不仅需要一个速度非常快的计算单元,还需要中央处理器的算力足够快、存储器容量足够大。与此同时,还要实现低功耗,降低应用成本。
为了破解这一系列难题,北科瑞声不断提升数据、算法和算力能力,积累了超10万小时语音音频数据、TB级语言数据及语音音频行业标杆级数据资源;研发出行业领先的中文复杂场景语音音频交互技术,普通话语音识别准确度达99%,限定领域的意图识别准确度达到95%。
语音交互技术好不好,不仅要看测试的识别准确率,还要看其在实际场景下的语义理解能力。“即便如今普通话普及程度越来越高,但由于每个人的经历或生活环境不同,产生了很多‘不标准’的普通话发音。这个‘不标准’千变万化,识别起来十分困难。而基于中文复杂场景的语音音频交互技术,可以做到在无需事先指定口音类型的情况下,处理国内50多个地方的带口音普通话。”刘轶说。
面对互联网时代层出不穷且逐渐融入人们生活的网络新词,中文复杂场景语音音频交互技术还能通过自进化能力,在30秒内对这些新词进行全面学习、掌握,以快速跟上互联网信息迭代速度。而原先的传统技术若想识别新词,一般需要数天甚至数周的技术训练。
经过持续研发创新,北科瑞声攻克了多项人工智能核心技术,实现了端云架构以及端到端一体化产品应用。目前,北科瑞声拥有知识产权200多件,其中发明专利100多件,参与了智能语音识别和交互国家标准制定,获得我国智能科学技术最高奖“吴文俊人工智能科学技术奖”、中国专利优秀奖以及多项广东省科学技术奖等奖项,发展成为人工智能音频领军企业。
拓展应用场景
创新不能闭门造车,还需要根据市场需求将科研成果落地转化。“通用产品仅仅将语音转化为文字,无法满足医疗、交通、政务等细分领域的需求。比如一些专业术语,如果我们的智能语音系统没有与行业进行深度融合或者定制化处理,就达不到好的效果。”刘轶告诉记者,人工智能要想真正为市场所用,一定要与具体的行业应用结合起来,做深、做精,为行业发展赋能。
在探寻技术落地及差异化竞争路径的过程中,北科瑞声将目光首先聚焦于车载应用领域。
“支持语音交互是车载导航智能发展的必然趋势,出于对安全驾驶的考虑,人们不能一边开车一边操作导航。我们尝试将智能语音识别技术嵌入汽车车机,通过车机总线进行总控,可执行高达几万条的语音命令。”北科瑞声总裁办公室副总监王诗雨说,“车主只需说出路线需求,车机就能规划合适的路线,实现无手化操作。”
车载应用成功落地让北科瑞声在智能语音应用领域摸索出一些经验,随后开始在数字政务、智慧医疗和高速交通等领域发力。
在数字政务智能语音解决方案中,北科瑞声基于其智能语音核心能力开发出一套主要用于政企会议场景的智能语音会议系统。“会议记录是政企日常工作中的重要部分,但传统记录方式效率较低。”刘轶说,智能语音会议系统提供基于私有云的语音转文字、实时转写上屏显示、离线语音转写、纪要成稿、会议记录留存查询等功能,避免了传统人工整理记录会议内容存在的时间长、易遗漏、准确率低等问题,从而提升会议交互体验与办公效率。目前,北科瑞声智能语音会议系统已在深圳许多政企单位实现应用。
“数据不只是一种资源,更是一种能力,是企业的核心竞争力。”刘轶说,在高速交通领域,北科瑞声通过运用云计算、大数据分析能力,提升人工智能认知能力,实现大交通领域用户数据安全可靠。
ETC卡刚刚推行时,由于需求量不高,高速客服中心的线上客服配置并不多。随着ETC热潮的到来,2019年,粤通卡车主大幅上涨,给客服工作带来了巨大压力。基于数据、算法、算力三大要素技术积累,北科瑞声结合高速交通业务场景及高速视频云系统,打造出覆盖互联网渠道、电话通道及高速场景线下服务窗口的人工智能高速交通综合信息服务平台——全终端高速交通平台。
这一平台以智能外呼机器人替代人工客服,通过与粤高速客服中心电话线路集成,实现从流程设置、外呼呼叫到数据处理与汇总的全流程自动化处理。智能外呼机器人集成语音识别、自然语言理解、信息检索、语音合成等智能技术,听得懂、能理解、会说话,人机交互流畅自然,机器人单条电话线单日可完成外呼电话上千次,外呼数据同步转写生成保存。
“与传统人工外呼相比,智能外呼机器人具备自动拨打、多轮对话、自动生产外呼数据等优势,还可不间断工作,有效提升了工作智能化、数字化水平。”王昕说,深圳具有良好的创新土壤,为企业积累场景应用经验、促进技术迭代提供了舞台。立足这个资源优势,北科瑞声在不断拓展应用场景的同时,将继续破解技术瓶颈,持续迭代产品,用人工智能技术赋能更多行业发展。