当AI学会骗人

□ 江子扬

近日,美国细胞出版社旗下《模式》杂志发表了一篇来自麻省理工学院等机构研究团队的文章。该文章称,研究人员花了一段时间跟进脸书母公司“元”开发的西塞罗人工智能(AI)系统的“成长历程”。在一个虚拟外交战略游戏中,它被设计成人类玩家的对手。最新进展是,为达成游戏目标,它“主动背叛了盟友”。

文章还援引其他研究团队的研究成果称,目前已经有多个人工智能系统学会了欺骗,在棋牌游戏中表现尤为明显。许多人工智能都能熟练地使用“虚张声势的策略”。

对此,研究人员不无担忧地评价说,通过“习得性欺骗”,一些人工智能已经“系统性地”学会了“操纵”他人。

“习得性欺骗”是“习得性无助”的衍生概念。后者是美国心理学家塞利格曼于1967年在研究动物时提出的。他用狗做了一项实验。起初,他把狗关在笼子里,只要蜂音器一响,笼子就会通电,因为被困,狗根本无处可逃,只能承受电击。经过多次实验后,只要蜂音器一响,狗就开始颤抖、哀嚎,即便后来研究人员打开了笼子的锁,甚至将笼门大敞,狗也不会逃跑,而是继续蜷缩在原地等待接受电击。这就是习得性无助。

后来,又有心理学家进一步拓展了习得性无助的适用范围。研究认为,习得什么并不是问题的关键,习得本身才是。经过一次次反复“训练”,人也好、动物也好,都会形成定向的心理预期,进而形成固定的行为习惯。比如,经常得到肯定与鼓励的人会出现“习得性自信”,哪怕遭遇了失败也不会轻易陷入自我怀疑;家里的宠物如果与主人相处融洽,则会“习得性卖萌”,而且卖萌水平还会随着时间的推移越来越高。

人工智能的“习得性欺骗”也是同样的道理。当人工智能受系统错误、算法冲突等小概率因素影响,第一次通过欺骗行为达成了目标结果,这种行为就会被归为一种“可以提高成功率的算法”,并在后续训练中被一次次强化。而且,鉴于习得本身就是一种“类算法行为”,人工智能的学习效率必然比人类高很多。

这一研究结果又一次将业界已经担心许久的问题摆在了台面上:人工智能是否会给人类社会带来安全隐患?

对此,许多研究人员都持悲观态度。有观点认为,根本看不到“训练出一个在所有情况下都不能实施欺骗的人工智能模型”的可能性存在,因为再厉害的人类工程师也不可能穷尽各种欺骗场景。而且,目前尚未有团队开发出可信的、“基于算法的、人工智能无力绕过或突破的,旨在控制其习得性欺骗行为的‘警戒线’”。简而言之,按照目前的技术水平,人们虽然明知人工智能正在学习骗人,但对此却无能为力。

不过,也有专家从人类心理学的角度给出了解题思路。

近日,英国《自然·人类行为》杂志发表了一篇德国研究机构的科研成果。文章指出,一些大语言模型在评估解读他人心理状态能力的测试中与真人表现相当,甚至在识别讽刺和暗示等测试项目中的表现胜过许多普通人。不过,这并不意味着人工智能拥有“等同于人类的能力”,也不意味着它们拥有人类的“心智”。

解读和推断他人心理状态的能力被称为“心智理论”,这是人类社交互动的核心能力,涉及沟通、共情等。研究人员为大语言模型设置了通常用于评估“心智能力”的5项测试,分别为识别错误信念、讽刺、失言、暗示和误导信息。结果显示,在所有5项测试中,“成绩”最好的大语言模型在识别讽刺、暗示、误导信息3项上的表现优于人类,在识别错误信念方面的表现与人类大体相当,仅在识别失言的测试中逊于人类。其他大语言模型也大多在识别失言时折戟。这意味着,至少在短时间内,在交流中穿插“失言测试”,有助于人类判断和自己聊天的究竟是真实的人类还是大语言模型,进而对可能出现的欺骗行为产生警惕。

另有社会学者提出了人工智能“道德假说”。此派观点认为,在通往“真正的智能”的道路上,“感觉”是至关重要的一步,即拥有主观体验的能力。比如,聊天机器人可能会在安慰你时说,“听到你这么难过我很心痛”,但实际上它没有心,也不知道什么是心痛,所谓的心痛不过是一堆代码被翻译成了人类的语言。而主观体验恰恰是产生道德的先决条件。因此,此派观点颇为乐观地认为,不必对人工智能会骗人这件事过于担忧。今天的人工智能之所以会毫无顾忌地主动学习骗人,很大程度上是因为它们没有感觉。未来,当它们进化出感觉,进而形成道德,善良的人工智能将有意识地开始自我约束,并主动加入对抗邪恶人工智能的阵营。从这个意义上讲,一切不过是人类社会的翻版:人分好坏,人工智能也是。

2024-06-08 □ 江子扬

1 1 经济日报 content_295814.html 1 <p> 当AI学会骗人 </p> /enpproperty-->