为什么法学硕士在因果发现方面失败以及干预代理如何逃脱

摘要

27567v1 Announce Type: new Abstract: Causal discovery is a cornerstone of scientific reasoning, yet whether large language models can perform it reliably remains an open question。

the fine and model CBO

2026-05-28 1 阅读约1分钟阅读 Amartya Roy, Sonali Parbhoo

arXiv:2605.27567v1 公告类型：新摘要：因果发现是科学推理的基石，但大型语言模型是否能够可靠地执行它仍然是一个悬而未决的问题。最近的基准测试表明，即使经过微调的模型也会在简单的因果图上达到稳定状态，并随着复杂性的增加而退化，但它们失败的原因尚未确定。我们证明失败是根本性的：监督微调、直接偏好优化和上下文学习都会产生无法区分生成相似观察数据的因果图的预测器，并且任何这样做的尝试都需要模型的内部表示无限增长，这违反了这些方法的工作条件。我们将其形式化为内核阻碍定理，确定该限制是学习范式所固有的，\emph{不是任何特定的模型或数据集}。我们提出代理因果贝叶斯优化（A-CBO），其中冻结语言模型充当干预预言机，回答有关干预效果的有针对性的查询，而外部贝叶斯循环将信念集中在对数多轮的候选图上。由于决策在障碍物适用的空间之外进行，因此 A-CBO 可以证明收敛，而基础模型保持不变。在 Corr2Cause 上，A-CBO 无需任何训练即可匹配微调的基线。在扩展 Corr2Cause（一种新的基准测试，可扩展到 24 个变量，具有 18K 测试样本）上，A-CBO 显着优于微调和偏好优化，并且优势不断扩大

订阅66必读