智能AI morning

LLM可以反省吗?现实检验

2026-05-27 1 阅读 Shashwat Singh, Tal Linzen, Shauli Ravfogel
arXiv:2605.26242v1 公告类型:新 摘要:大型语言模型能否检测并报告其自身的内部状态?许多研究认为这个问题的答案是肯定的。我们认为,根据人类元认知研究的经验教训,这个结论可能还为时过早:为了确信这个结论,我们需要区分真正的内省和基于表面线索的模式匹配。此外,我们认为仅行为证据本身不足以建立强有力的内省主张。鉴于这种考虑,我们重新审视了最近引入的两种评估范式。在第一个范式中,模型需要检测其内部状态是否被篡改。我们发现模型无法可靠地区分对其内部状态的此类干预与对输入的操纵,这表明它们在原始研究中的成功反映了它们更普遍地检测异常的能力,而不是特别针对其内部状态的干预。在我们研究的第二个范式中,模型的任务是预测从其自身隐藏状态派生的标签。在这里,我们发现仅有权访问输入的分类器实现了与模型自身的上下文预测相同的性能,这表明原始结果并不能最终证明模型有权访问其内部表示。我们进一步引入了重新标记的控制设置,其中模型不能依赖于任务的语义来解决它,而必须依赖于内部表示;模型在这个更好控制的任务版本上表现更接近机会。总而言之,这些结果表明,目前的证据不足以证明法学硕士具有元认知监控能力。