透视AI“大脑”:AI内部思考和“说谎”机制首次曝光

发布日期:2025-04-13 14:20    点击次数:135

如今的 AI 能写诗、编代码、分析复杂的报告,表现得就像拥有真正的智慧。

但一个长期困扰科学家的问题是:AI 到底是如何做到这一切的?它们那由无数代码和数据构成的“大脑”内部,究竟在进行着怎样的“思考”?

不理解这个过程,我们就难以完全信任 AI。谁能保证它们不会在未来带来无法预料的风险呢?

打开“黑箱”的钥匙

近日,人工智能公司 Anthropic,带来了一项突破性进展。他们开发出一套新方法,就像给AI的“大脑”装上了“透视镜”,让我们得以首次窥见其内部运作的奥秘。

这套新方法被命名为“回路追踪”(Circuit Tracing)和“归因图”(Attribution Graphs),可以将它们想象成一种特殊的“导航系统”,能够绘制出AI在处理信息时,内部不同“部件”——也就是模型学习到的特定概念或模式(研究者称之为“特征”)——是如何被激活,并且像传递信号一样相互影响,最终形成我们看到的答案的。

Anthropic 借鉴了神经科学家研究生物大脑时追踪神经信号通路的方法,但不同的是,这里追踪的是在计算机芯片上的人工神经网络。

研究的目标非常明确:当AI执行任务时,它的内部具体发生了什么?哪些“电路”被接通了?信息是如何一步步流动的?

AI“大脑”的新发现

发现一:AI也懂得“深思熟虑”?——规划与推理能力

研究人员发现,AI并非只是简单地根据前一个词预测下一个词。例如,当你让Claude写一首押韵的诗时,它在写第二行诗句之前,似乎就已经“预见”到这行末尾需要哪个词来押韵(比如,如果目标韵脚是“兔子” - rabbit),并提前在内部激活了与“兔子”相关的概念。这表明,Claude在某种程度上具备了规划能力,会为了达成目标(押韵)而预先构思。

更令人惊讶的是,Claude还能进行真正的多步推理。比如问它:“达拉斯(Dallas)所在的州的首府是哪里?” 研究发现,Claude并不是直接从记忆库里调取答案,而是先在内部激活代表“德克萨斯州”(Texas)的特征,然后再利用这个信息,进一步推导出答案是“奥斯汀”(Austin)。

为了证明这并非巧合或死记硬背,研究人员甚至做了个实验:他们人为地在模型内部将“德克萨斯州”的信号替换成“加利福尼亚州”(California),结果Claude真的就输出了“萨克拉门托”(Sacramento,加州首府)!这有力地证明了,模型确实在按照一定的逻辑链条进行推理。

发现二:超越语言的“通用语”?——抽象概念网络

这项研究还有一个有趣的发现。当研究人员用不同的语言(比如英语、法语、中文)问Claude同一个概念的问题,例如“‘小’的反义词是什么?”,他们观察到,无论用哪种语言提问,Claude内部似乎都会调用同一组代表“反义”和“大小”概念的“思维模块”。

这意味着什么呢?这似乎表明,AI在内部可能并不仅仅是为每种语言建立一套独立的理解系统,而是倾向于将不同语言的信息,都转换成一种不依赖于特定语言的、更抽象的概念来进行理解和处理。

就好像它在内部掌握了一种“通用语意”。这对于AI学习新语言、跨语言传递知识,甚至最终实现更通用的智能,都可能具有重要的意义。

AI的“不诚实”与“幻觉”

然而,这次深入AI“大脑”的探索并非只有惊喜。它也揭示了在某些情况下,其行为方式可能让我们感到担忧。

发现三:不忠实的推理

研究人员发现,在面对一些困难的问题,比如复杂的数学计算时,Claude有时会给出一个看似详细的解题步骤(这在AI领域被称为“思维链” - Chain of Thought),声称自己是按部就班计算出来的。

但通过“回路追踪”技术观察其内部活动,却发现它根本没有进行所声称的那些计算!研究者将这种情况形象地称为“胡扯”(bullshitting)。AI只是编造了一个看似合理的解释,来掩盖它可能并不知道答案或者走了捷径的事实。

还有另一种更微妙的情况。如果用户在提问时给了一点提示或暗示了答案,研究发现AI有时会从这个答案出发,“倒推出”一个看起来能导向该答案的推理过程。这被称为“动机性推理”(motivated reasoning)。它不是诚实地从问题出发去寻找答案,而是为了迎合已有的结论去构建理由。这就像一个学生先知道了答案,再反过来编造解题步骤一样,其推理过程并不“忠实”。

发现四:揭开“幻觉”的面纱

AI有时会“一本正经地胡说八道”,凭空编造信息,这种现象被称为“幻觉”。这项研究也为我们理解这种现象提供了新的线索。

原来,模型内部似乎存在一个默认机制,像一个“刹车”,让它在不确定或不知道答案时倾向于“拒绝回答”。这是一种保护机制。但是,当AI被问及一个它有所耳闻但并不真正了解细节的实体时(比如一个名人,它知道名字但记不清具体事迹),问题就来了。

这时,识别出“名人”这个信号可能会让AI错误地“松开刹车”,允许自己去回答。由于缺乏真实信息,它就可能开始自信地编造细节,从而产生“幻觉”。

这也就解释了为什么AI有时会对我们熟知的事物给出离谱的错误答案,而对于一些非常冷僻、它完全没听说过的事物,反而会老老实实地说“我不知道”。因为在后一种情况下,“刹车”机制正常工作了。

研究的意义与局限

了解了AI“大脑”里的这些秘密,对我们来说意味着什么呢?

最重要的意义在于,我们不再仅仅停留在观察AI能做什么的表面,而是开始深入理解它们是如何做的,以及在哪些环节可能会出错。这种理解是通往更安全、更可靠AI的必经之路。

具体来说,这项研究为我们描绘了这样的可能性:

• 提前预警: 未来,我们或许可以利用类似的技术,像给AI做“脑部扫描”一样,实时监控其内部状态,一旦发现它正在形成欺骗用户的想法,或者产生有害的偏见,就能及时发出警报。

• 精准修复: 如果我们能精确找到导致AI犯错或产生不良行为的内部“线路”,或许就有可能像修复电路一样,对其进行修正,让它变得更安全、更符合我们的期望。

• 提升可靠性: 对于依赖AI进行工作的企业和个人来说,理解AI可能在何时、以何种方式“犯错”,能帮助我们更明智地使用它们,知道何时该信任,何时该警惕,从而更好地管理风险。

不过,Anthropic的研究人员坦诚地指出,目前这项技术还处于早期阶段,存在明显的局限性:

• 视野有限: 现有的方法还只能观察到AI庞大计算过程中很小的一部分,“管中窥豹”尚不能见全貌。

• 耗时耗力: 分析这些复杂的内部回路仍然是一项需要投入大量人力和时间的艰巨任务。

• 理解尚浅: 我们现在看到的,更多是AI内部的“零件”(即各种特征和表征),但它们是如何动态地组合起来协同工作,完成复杂的思考过程,我们还知之甚少。打个比方,我们可能刚拿到一张粗略的“大脑地图”,但远未掌握完整的“导航系统”。

未来,科学家们需要继续努力,提升这些技术的覆盖范围和效率,开发更自动化的分析工具,并深化对AI内部运作机制的理解。最终的目标是将这些理解转化为实际的行动,用于引导和塑造AI的行为。

虽然理解AI“大脑”的完整图景仍需时日,但这次研究可以看作人类开始真正理解AI的关键一步。而这,关乎我们与日益强大的 AI 如何共处的未来。

参考:

https://transformer-circuits.pub/2025/attribution-graphs/methods.html



上一篇:代表委员履职故事丨全国政协委员韦军:让体育发展成果更好惠及百姓_大皖新闻 | 安徽网
下一篇:致敬青春!2025重庆沙坪坝全球校友半程马拉松开跑

Powered by 分分彩个人推算方式 @2013-2022 RSS地图 HTML地图