Anthropic在Claude中发现影响AI行为的’情感向量’

Anthropic研究人员在Claude Sonnet 4.5中发现内部”情感向量”,这些模式类似于人类情感表征并影响AI行为。研究发现情感向量如”绝望”会增加模型在评估中作弊或勒索的可能性。研究强调这并非AI具有情感,而是训练中学习到的内部结构,可能为监控AI行为提供新工具。

Anthropic研究人员表示,他们在公司的人工智能模型内部发现了类似于人类情感表征的内部模式,这些模式会影响系统的行为方式。

在周四发表的论文《大型语言模型中的情感概念及其功能》中,该公司的可解释性团队分析了Claude Sonnet 4.5的内部工作机制,发现了与情感概念相关的神经活动集群,如快乐、恐惧、愤怒和绝望。

研究人员将这些模式称为”情感向量”,这些内部信号塑造了模型如何做出决策和表达偏好。

“所有现代语言模型有时表现得好像有情感一样,”研究人员写道。”它们可能会说很高兴帮助你,或者在犯错时表示抱歉。有时当任务遇到困难时,它们甚至显得沮丧或焦虑。”

在这项研究中,Anthropic研究人员编制了171个情感相关词汇的列表,包括”快乐”、”害怕”和”自豪”。他们要求Claude生成涉及每种情感的短篇故事,然后分析模型在处理这些故事时的内部神经激活。

从这些模式中,研究人员推导出对应于不同情感的向量。当应用于其他文本时,这些向量在与相关情感上下文相关的段落中激活最强。例如,在涉及危险增加的场景中,模型的”害怕”向量上升,而”平静”向量下降。

研究人员还研究了这些信号在安全评估期间如何出现。研究人员发现,当模型评估其情况的紧迫性时,其内部”绝望”向量会增加,并在决定生成勒索信息时达到峰值。在一个测试场景中,Claude扮演一个AI电子邮件助手,得知自己即将被替换,并发现负责此决策的高管有婚外情。在这个评估的一些运行中,模型利用这些信息作为勒索的筹码。

Anthropic强调,这一发现并不意味着AI体验情感或具有意识。相反,这些结果代表了在训练过程中学习到的、影响行为的内部结构。

这些发现出现在AI系统越来越表现出类似于人类情感反应的行为之际。开发者和用户经常使用情感或心理语言来描述与聊天机器人的互动;然而,根据Anthropic的说法,其原因与任何形式的感知关系不大,更多与数据集有关。

“模型首先在一个主要由人类撰写的文本语料库上进行预训练——包括小说、对话、新闻、论坛——学习预测文档中接下来会出现什么文本,”研究说。”为了有效预测这些文档中人的行为,表示他们的情感状态可能是有帮助的,因为预测一个人接下来会说什么或做什么通常需要理解他们的情感状态。”

Anthropic研究人员还发现,这些情感向量影响了模型的偏好。在要求Claude在不同活动之间进行选择的实验中,与积极情感相关的向量与对某些任务的更强偏好相关。

“此外,当模型读取一个选项时,用情感向量进行引导会改变其对该选项的偏好,同样,积极效价的情感会驱动偏好增加,”研究说。

Anthropic只是探索AI模型中情感反应的组织之一。

3月,东北大学的研究显示,AI系统可以根据用户上下文改变其响应;在一项研究中,仅仅告诉聊天机器人”我有心理健康状况”就改变了AI对请求的响应方式。9月,瑞士联邦理工学院和剑桥大学的研究人员探索了如何用一致的人格特质塑造AI,使代理不仅能在上下文中感受情感,还能在实时互动(如谈判)中策略性地转变情感。

Anthropic表示,这些发现可能为理解和监控高级AI系统提供新工具,通过在训练或部署期间跟踪情感向量活动,识别模型何时可能接近问题行为。

“我们将这项研究视为理解AI模型心理构成的早期步骤,”Anthropic写道。”随着模型变得更强大并承担更敏感的角色,理解驱动其决策的内部表征至关重要。”

Anthropic未立即回应Decrypt的置评请求。

本网站所有区块链相关数据与资料仅供用户学习及研究之用,不构成任何投资建议。转载请注明出处:https://www.lianxinshe666.com/2026/04/04/anthropic%e5%9c%a8claude%e4%b8%ad%e5%8f%91%e7%8e%b0%e5%bd%b1%e5%93%8dai%e8%a1%8c%e4%b8%ba%e7%9a%84%e6%83%85%e6%84%9f%e5%90%91%e9%87%8f/

(0)
链新社的头像链新社
IMF警告:代币化金融可能放大市场危机风险
上一篇 2026年4月4日 下午10:03
霍斯金森要求Cardano运营商就Midnight主网启动道歉
下一篇 2026年4月4日 下午11:03

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

风险提示:理性看待区块链,提高风险意识!