前不久,央视一档歌唱类节目《渴望现场》请来了一位客观公正的音乐评审——机器人“小渴”。这台由中科院自动化研究所研制的机器人首次从音准、音域、调性、节奏、语感、乐感6个维度对演唱进行客观评分,兼顾了音乐欣赏的维度和量化的难度,真正实现了用科技评价艺术
近年来,音乐选秀类节目层出不穷,无论是歌手蒙面还是导师转身,其目的都在于寻找一种能够排除其他因素、回归音乐本身的评价方法。前不久,央视的一档歌唱类节目《渴望现场》就请来了这样一位客观公正的音乐评审——机器人“小渴”。
这台由中科院自动化研究所研制的机器人会对每位走进“歌咏亭”选手的演唱评分,只有分数超过80分才算得到了“小渴”老师的青睐,有机会走出“歌咏亭”与观众见面。
给歌唱者打分这听起来早已不是什么新鲜事,KTV里的评分系统甚至能够列举出与演唱者音色相近的歌星,那么“小渴”又有什么独门秘诀呢?“传统的音乐评分软件一般只是简单地把演唱者的音准和标准音做相似性对比,说白了就是看你有没有跑调,这种单一的评价标准并不能全面衡量音乐的好坏,更难以理解歌唱者所要传达的情感信息。”中科院自动化研究所研究员王金桥解释说,相比之下“小渴”复杂多了,它首次从音准、音域、调性、节奏、语感、乐感6个维度对演唱进行客观评判,兼顾了音乐欣赏的维度和量化的难度,是用科技在评价艺术。
“机器人评价艺术其实是一件非常困难的事情,最大的难点在于如何让机器人去自动发现音乐中美的元素。”王金桥告诉经济日报记者,他们邀请了大批音乐专家从多个维度对演唱进行评分,在此基础上,通过卷积神经网络的层级式结构对音乐频谱进行层级式抽象和凝练,自动发现音乐中每一句里蕴含乐符的共性之美,从而分别学习音乐中音准、音高、颤音振幅和颤音频率等规律,完成整段音乐的美学量化。
同时,神经网络的逐层信息抽象特性能够帮助机器人从音阶传递到演唱技巧再到情感表达,进行逐层量化和分析,进而让机器人能够相对客观地学习专家对音乐的评判,最终实现对音符“美”的“理解”。
由于各位歌手在演唱方式、曲风等方面有所不同,歌声间会呈现出较大差异,但当海量音乐专家评分数据汇总在一起时,基本能够代表当前主流音乐评审专家对音乐的评价。因此,基于人工智能技术的音乐评判系统就是根据这些数据,让“小渴”对音乐进行较为客观和科学的评判。
此外,“小渴”的顺风耳——卷积神经网络所抽取到的多维语音特征具有精确量化的特性,在对音准信息量化区分时,精度能够达到1‰。在此基础上,再配合专家对歌声音准表现的经验打分作为监督信息,神经网络模型就能够对音准信息建立准确的数学表达模型,从而进行量化的音准打分。
而听起来最缥缈的“乐感”,也具有特定的数学模型支撑。音乐作为一种艺术,需要传达某种情感,乐感就是人们了解这种感觉的感官能力。在具体演唱中,表现力是歌手的综合表现,目前的评判标准更多是依赖于音乐专家的权威判别。“专家用1到10个分数给表现力打分,我们通过卷积网络、双向长短期记忆模型提取音乐表现力的特征,该特征能对音乐在时间维度上的表现力进行充分分析,从而模拟专家对音乐表现力的评判。”王金桥说。
从已经播出的多期节目来看,“小渴”对多种音乐唱法都能给出公正的评价,如秦腔、说唱、英文歌曲等。在现场,“小渴”是与歌手的麦克风直接相连的,任何一点小小的瑕疵都能被它捕捉到。“在具体打分过程中,机器人是听一句给一句的分数,专家可能偶尔走神没听见,但机器人不存在这种情况,并且不会受到现场气氛和环境的影响。”王金桥说,“小渴”对歌手的一视同仁、对打分的公正合理也同样得到了观众的认可,大家都亲切地称它为“史上最冷静的评审”。
“‘小渴’目前还是初级版本,我们会引入更多的算法和更多元的维度来评价音乐,也会尝试让它学着创造音乐,使一个个动人的音符完成美妙的组合。”谈及“小渴”的未来,王金桥希望把它推广到各种音乐评分系统中,比如唱吧、KTV等。唱歌爱好者们可以结合“小渴”的评价,不断改进自己的唱法。有朝一日,说不定“小渴”也会从“音乐评审”升级为“梦想导师”。