约束税：衡量小语言模型结构化输出的有效性与正确性权衡

arXiv:2605.26128v1 公告类型：新摘要：生产 LLM 系统越来越需要机器可读的输出：JSON 对象、类型化跟踪、正则表达式约束字段和工具调用模式。本文针对设备上和低成本的小语言模型 (SLM) 部署，其中 sub-3B 模型对于隐私、延迟和商用硬件很有吸引力，但在解决任务时满足模式的能力有限。通常的工程假设是硬输出约束可以在不改变基本答案的情况下提高可靠性。我们证明这种假设对于小模型来说是不安全的。我们引入了 \emph{constrainttax}，这是一种测量协议，用于隔离固定模型、固定任务分配和固定问题实例上的结构化输出约束引起的答案和可执行精度损失。在 Qwen2.5-0.5B、Qwen2.5-1.5B 和 SmolLM2-1.7B 的 15,000 代商品 GPU 中，仅硬答案模式解码将模式有效性从 61.5\% 提高到 100.0\%，但将答案准确性从 19.7\% 降低到 11.0\%，并将错误有效模式输出从 49.5\% 提高到88.9%。最强大的行业类似物是确定性日历工具调用任务：Qwen2.5-1.5B 在仅提示 JSON 的情况下实现了 91.5\% 的可执行精度，但在相同的硬工具调用模式下仅为 48.0\%，而两种模式都是 100.0\% 模式有效。该错误是语义错误，而不是结构错误。我们还表明，3B 边界仍然需要支付直接模式税，并且延迟打包支持建设性的设计模式：无理由，约束延迟。实际结论是直接的：生产系统应该分别报告模式有效性、答案准确性、可执行准确性和错误有效模式率。