司机小杨没有想到,这段时间伴他一路同行的“志玲姐姐”语音导航服务中,“女神”甜美的娃娃音竟然大部分是合成的!同小杨一样,很多人不知道,高德导航应用中除“向左转弯”“前方摄像头”等固定语句采用原声外,地名、距离、速度等提示也是依据林志玲咬字和发音方式,运用语音合成技术制作而成。这一技术提供商正是有“中国语音产业国家队”美誉的科大讯飞。
从被外界讥笑的“草台班子”到亚太地区最大的语音上市公司,从中国语音产业的拓荒者到世界语音产业的领军者,16年来,科大讯飞以源源不断的自主创新经受住市场的淬炼,诠释了什么是产业报国,何为凤凰涅槃。
放开被掐住的喉咙
或许你曾看过这样一段视频:一名山东大汉开车时试图用语音控制功能的车载设备拨打电话,但他一口浓郁的山东方言让设备屡屡识别错误。几次纠正无果后,大汉准备再试一次,没想到此时设备竟然说出了“谢谢,再见。”大汉哭笑不得。
用语音拨打电话不靠谱,还是方言不易被识别?在另一段视频中,一位山东女士用同样的方言,拨打同样的号码,结果迥然不同,她用的APP是讯飞推出的灵犀智能语音助手。
“现在灵犀已率先支持粤语、四川话、河南话、东北话、天津话、湖南话、山东话等14种方言。”科大讯飞媒介经理陈卫民告诉记者。
不仅如此,双手忙不过来时,跟它说一声,立即代你打电话、发短信;出国旅行不会讲英语?一秒之内实现中英轻松互译,帮你读出;随意哼个小曲,即刻显示歌曲名字,陪唱陪练;一声令下,打开窗帘、关闭台灯、电视换台,一切如你所愿。在科大讯飞的产品体验厅里,实现这些你只需耍耍嘴皮子。
看着今天的科大讯飞在语音市场上的纵横驰骋,可能有人叹息生不逢时,没有像它一样幸运。但鲜为人知的是,彼时科大讯飞选择中国语音产业化之旅,在别人看来简直是异想天开。
质疑并非毫无来由。1999年科大讯飞成立伊始,中国语音市场几乎百分之百由IBM、微软等国外IT巨头垄断;而在国内,虽有科研机构从事相关研究,却都是单打独斗,迟迟未见成果面市,更令人不安的是,语音技术人才毕业后进入跨国公司几乎成了一种惯例。
这样的背景下,胡郁、胡国平、陈涛,还有科大讯飞发起者——彼时26岁的中科大博士研究生刘庆峰,一群尚未完全摆脱稚气的毛头小伙子偏偏要试一试。语音是文化的基础和民族的象征,不能被外国人掐住喉咙!中国的语音产业要由中国人来掌握。这个只有18个人的团队开始了跌跌撞撞的语音产业化苦旅。
2003年,科大讯飞荣获“国家科技进步奖”,牵头制定具有自主知识产权的中文语音标准;2006年至2014年,连续9年在英文语音合成国际大赛中夺冠;2008年摘得国际说话人识别评测大赛桂冠,并在语音识别技术领域一举超越全球最大的语音技术公司Nuance;2009年获得国际语种识别评测大赛高难度混淆方言测试指标冠军;2013年,通过麦克风阵列技术将语音识别的距离拓展到5米以外,在高抗噪语音识别技术领域取得突破,100km/h车速下仍保持90%以上的识别率,显著领先;2014年,继续获得通用全球中文语音识别测评综合指标第一名。
而在与语音技术平行的另一条历史轴线上,科大讯飞的语音产业化之旅也愈走愈顺:2008年成为中国语音产业唯一的上市公司,将Nuance“挤出”中国;如今为全行业2000多家企业提供语音核心技术,占据中国语音主流市场70%以上的份额,并成为亚太地区最大的语音公司;面向移动互联网时代率先推出语音云平台,用户数已突破6.8亿,开发应用申请超过6万个,逐步形成以科大讯飞为核心的语音产业链,成为业界公认的“语音产业国家队”;目前,讯飞语音学习软件已在国外孔子学院得到普遍应用,并成为新加坡等国中英文语音学习门户的主流技术。
很多业内人士都对科大讯飞竖起大拇指:“如果没有科大讯飞,中国语音产业现在还会控制在国外公司手中,也不可能有今天的蓬勃发展。”
弯曲的直线
一系列耀眼的成绩背后,用刘庆峰的话说是一段“走弯曲的直线”的创业历程,所谓直线即目标明确,弯曲则指实现梦想的过程曲折。
刘庆峰深有体会地告诉记者,“任何创新都是一个痛苦的过程,是不断试对与试错的相互交织。”成立之初,市场很快就给了科大讯飞一个“下马威”。他们自主研发的一款名叫“畅言2000”的电脑软件遇冷。
这是一款刘庆峰曾十分看好的产品,它能将语音自动转换成文字,并让用户通过语音控制电脑,主要面向老年人。但不久他们就发现这款产品叫好不叫座。“我们忽略了一些因素,一方面当时盗版软件猖狂,另一方面我们的主要消费者为老年人,其电脑操作经验太少,有的电脑还没开就说软件出了问题呼叫售后服务,这样折腾两三次后,利润就没了。”刘庆峰说。
“吃一堑长一智”。这次的教训让科大讯飞明白:直接进军大众消费市场时机还不成熟,必须转攻企业级用户。
于是,当中国电信计划将168电话信息平台铺向全国之际,科大讯飞毛遂自荐为其提供语音合成技术。但就在他们对实验结果满怀信心时,消息传来:对方拒绝合作,理由很简单,科大讯飞也就是个创业团队,这么大的单子不敢交付。
又是当头一棒。更糟糕的是,还祸不单行。
期间,资金链的断裂让股东及团队内部炸开了锅,质疑声不绝于耳。“语音技术到底前景有多大?”“是不是应该做别的应用软件?”“是不是给银行做服务器更赚钱?”面对动摇的军心,刘庆峰将大家拉到巢湖边上开会,并放出一句狠话,“谁不看好语音,就请谁走人!”
那天起,讯飞人达成了一个共识:语音产业需要长期的技术积累,快餐式的急功近利无法长久。
随后,刘庆峰多次赴深圳找中国电信168合作方华为恳谈,或许被他的诚意感动,华为同意在其平台上试用讯飞的语音技术。可是,反馈结果却让他有些无地自容:系统兼容性不强、语音合成不自然、连续性差……对于这份充满硬伤的测试报告,华为表态,“一周内解决所有问题,否则合作失效。”
当然,这次他们成功了——自此,科大讯飞成为华为在语音方面唯一的合作伙伴。10多年后在科大讯飞15周年庆典时,轮值总裁吴晓如回顾了这场攸关生死的大考验。“这个星期,没有一个人离开过办公室,大家几乎不眠不休,最后全部问题迎刃而解。我清晰地记得走出办公室时大概是下午4:30左右,回到家倒头就睡,一直睡到第二天的中午。”
艰难困苦,玉汝于成。接下来科大讯飞拓展了包括华为、中兴和联想在内的50多个合作伙伴,并如愿获得第二轮融资。
联想投资成立后的第一笔投资就给了科大讯飞。不过,有一年联想投资财务经理参加其半年度经营会议后却拉长了脸,“没想到讯飞的财务状况这么差。”科大讯飞这一只见投入不见产出的态势一直延续了5年。
正是这种耐得住寂寞的坚守,2004年科大讯飞迎来转机——扭亏为盈,并从2005年至2007年保持净利润130%的复合增长。2008年科大讯飞上市。
时至今日,科大讯飞已成为当之无愧的语音界霸主,其在国际市场上仅次于Nuance,而面向行业用户提供“软件+服务”的整体解决方案正成为他们进行市场探索的一个重要方向。
让机器会说会思考
大浪淘沙,十几年来国内外的语音公司生生灭灭,失败者居多。在这场后来居上的战役中,科大讯飞何以华丽逆袭?
个中原因,刘庆峰心里十分清楚,“语音是典型的高技术交叉学科,涉及数字信号处理、声学研究和实验语音学等诸多领域,若想取得实质性突破,必须有效整合核心技术资源。”
科大讯飞创立初期,国内几大语音研究机构各有建树,但各自为政、相互封闭,如何整合?2000年首轮风险投资后,刘庆峰做的第一件事就是逐个拜访“语音大牛们”,用这笔资金与中科院声学、中国社科院语言、中科大成立语音技术联合实验室。他承诺,“各自专注于其擅长的研究,科大讯飞提供专项科研经费并负责产业化整合,给他们股权,实现成果共享。”
如此一来,早期在品牌、市场等方面都不占优势的科大讯飞就有了一支强大的技术后盾——对声音合成和声音听辨方面有独特研究的孙金诚研究员;1980年就从事人机语音通信的王仁华教授;社科院语言所对声音、语气、语调等研究了40多年的吴宗济老专家。事实证明,这笔“技术投资”为科大讯飞日后攀上语音技术的峭壁奠定了坚实的基础。
在有效整合外部资源的同时,科大讯飞也没忘苦练内功。“我们要比科学界更知道技术的发展趋势,比消费者更知道他需要什么。”于是,科大讯飞高级副总裁、研究院院长胡郁和团队建立了三个梯次的布局:联合实验室倾向于技术的基础研究,讯飞研究院负责面向产品的应用研究,讯飞各事业部的产品部门负责把方案进行代码级的优化,变成完善的产品。与此同时,保证研发投入,“今年我们的研发支出预算要占到销售收入的30%。”刘庆峰透露。
战略就像望远镜,能看清很远的方向,但不能缩短脚下的路程。凭借一流的技术和脚踏实地的努力,科大讯飞近年来逐步赢得市场和用户的认可。
但对科大讯飞来说,他们的梦想“让机器能听会说、能理解会思考”才刚刚起步。眼下,第一个目标已经实现。胡郁说,在继续改进语音技术的同时,科大讯飞已于近期启动了“讯飞超脑”计划。“我们希望未来机器可以像人一样,不仅能听会说,还能理解会思考,有逻辑思维和推理能力。”胡郁表示。他透露,“讯飞超脑”目前已聚集了语音及语言信息处理国家工程实验室、加拿大约克大学等10多位人工智能领域顶级专家。
他们还努力将语音应用范围尽可能地拓展。刘庆峰告诉记者,科大讯飞正在研究如何将声纹技术和人脸识别技术结合,“人的声音和DNA、指纹一样,具有唯一性,是可识别的,如果再与人脸识别叠加在一起,作为身份的验证码,那么未来身份证或将不再需要,办理一些事只需张张嘴、扫扫脸即可。”
这些设想还需多久能够实现?刘庆峰不十分肯定,但他们的目标是成为谷歌那样的创新型公司,用技术改变世界。