爱游戏- 爱游戏体育- AYX爱游戏体育官方网站
事实上,大模型谄媚并不是一个新话题。早在 LLM 诞生初期就已经有研究者发现了这一现象。首先简单定义一下:谄媚(Sycophancy)是指模型响应倾向于符合用户信念而不是反映线 年,Anthropic 的一篇论文《Towards Understanding Sycophancy in Language Models》对大模型谄媚现象进行了系统性的论述。在该论文中,Anthropic 发现,当时前沿的大模型普遍都存在谄媚现象。不仅如此,他们还发现,谄媚可能是这些模型训练方式的一个特性,而不是某个特定系统的特殊细节。