前沿法学硕士对现实世界事实核查的分歧

2026-05-28 1 阅读 kostaj
1 前沿专家组不同意的频率 对于 67% 的索赔(672 / 1,000;95% CI:64–70%),前沿专家组不同意——至少有一个模型不同意多数裁决,或者根本没有严格多数形式。细分:对于每项主张,我们查看了五个前沿判决并询问:是否至少有三个选择了相同的答案(绝对多数)?如果是,剩下的模型中有多少人持不同意见?如果根本没有出现明确的多数派——判决分为三个或四个不同的部分——则该主张属于模型分裂,没有多数派。这些说法中的大多数不太可能出现在任何带有黄金标签的训练语料库中——没有模式匹配的规范答案键,也没有可以锚定的基准排行榜。我们在下面提到“多数”和“多数的异议”。大多数前沿模型都不是真实情况。多数人的判决有时是错误的;个人不同意见的模型有时是正确的。我们使用多数作为衡量分歧的结构参考点,而不是作为正确性的替代品。前沿判决模式 声明 语料库份额 所有 5 项一致(一致) 328 33% 30–36% 5 项反对中的 1 项 224 22% 20–25% 5 项反对中的 2 项 316 32% 29–35% 模型分裂,无多数(例如 2-2-1 或 2-1-1-1) 132 13% 11–15% ≥1 个模型异议(包括分裂) 672 67% 64–70% ≥2 个模型异议(包括分裂) 448 45% 42–48% 专家组一致意见:Krippendorff’s α(序数)= 0.639(n=1000 个索赔,5 个评估者)。这表明了重要但有限的共识:模型的判决是结构化的而不是随机的,但不够一致,无法将专家组视为单个可互换的法官。序数 α 是有序分类量表的标准 Krippendorff 变体(正确/大部分正确/误导/错误)。有关指标的选择,请参阅第 7.5 节统计分析。模型误差的下限。对于每项主张,四个判决桶中的一个恰好是正确答案。如果我们假设专家组最受欢迎的桶是正确的——最仁慈的假设——选择错误判决的模型的最小数量是: ≥1 个模型在 67% 的主张上错误(任何非一致的专家组) ≥2 个模型在 45% 的主张上错误(3-2、3-1-1 或非多数分裂) ≥3 个模型在 13% 的主张上错误(没有一个桶达到多数,因此最多 2 个可以是正确的)放松“最受欢迎的是正确的”假设只能增加这些计数,而永远不会降低它们。实际错误率可能更高:即使 33% 的情况所有五个人都同意,也可能而且很可能确实包含共享盲点。 2 实质性与细微差别的分歧 在 34% 的声明中(343 / 1,000;95% CI:31-37%),至少有两个前沿模型选择的判决与我们的 4 桶评分标准中的 2 桶或更多桶相距 — 这种分歧超出了校准范围。并非所有分歧都是平等的。 “真实”与“大部分真实”的分裂是信心校准的转变。 “真”与“假”之分是对答案的实质性分歧。我们将其测量为每个声明的 5 个判决中的最大成对桶距离,其中判决的顺序为 True (0) → Mostly True (1) → Misleading (2) → False (3) 。距离解释声明份额 0 完全一致(所有 5 人都选择了同一个桶) 328 33% 30–36% 1 仅存在细微差别(例如正确 ↔ 大部分正确) 329 33% 30–36% 2 实质性(正确 ↔ 误导性,或大部分正确 ↔ 错误) 132 13% 11–15% 3 极性(正确↔ 错误) 211 21% 19–24% ≥2 个桶相距(实质性或极性) 343 34% 31–37% 警告。桶距离将 True / Mostly True / Misleading / False 视为序数尺度;等距解释是一种简化。两桶差距仍然可以反映出标题的模糊性、时间框架的差异或对“误导”的不同解释。我们将其报告为粗略的“实质性与细微差别”指标,而不是误差幅度的指标。 3 模型与模型的一致性 最高的同行一致性:Gemini 3 Pro × Gemini 3 Pro + Search (75%) — 这并不奇怪,因为它们共享一个基本模型。最低:Claude Opus 4.7 × Gemini 3 Pro、Claude Opus 4.7 × Gemini 3 Pro + Search 和 Gemini 3 Pro × Sonar Pro (53%) — 三对并列。每对前沿模型在语料库中的所有声明中选择相同判决标签的频率。 GPT-5.4 克劳德 Opus 4.7 Gemini 3 Pro Gemini 3 Pro + 搜索声纳 Pro GPT-5.4 — 65% 62–68% 65% 62–68% 60% 57–63% 60% 57–63% 克劳德 Opus 4.7 65% 62–68% — 53% 50–56% 53% 50–56% 58% 55–61% Gemini 3 专业版 65% 62–68% 53% 50–56% — 75% 72–77% 53% 50–56% Gemini 3 专业版 + 搜索 60% 57–63% 53% 50–56% 75% 72–77% — 58% 55–61% Sonar Pro 60% 57–63% 58% 55–61% 53% 50–56% 58% 55–61% — 4 每个模型的行为 相同五个模型的两个角度:每个模型如何分配其判决 (4.1),以及每个模型的判决与其他四个模型中严格多数匹配的频率 (4.2)。 4.1 判决分布 一些模型将判决集中在真/假两极;其他人则更广泛地分布在中间两个桶中。这反映了模型级决策先验与特定声明的相互作用——没有基本事实,我们就可以'