智能AI morning

评论街机:论法学硕士评论的人性化和可玩性

2026-05-29 1 阅读 Hans Ole Hatzel, Sebastian Steindl, Jan Strich
arXiv:2605.28897v1 公告类型:新 摘要:LLM 生成的科学论文评审正获得相当大的关注,甚至被主要会议正式试点。我们必须假设不仅审稿人使用法学硕士协助,而且作者在提交之前也使用法学硕士修改论文。在这项工作中,我们对 2025 年 ACL 滚动评审 (ARR) 的论文进行了实证实验,从作者和审稿人的角度评估 LLM 评审。首先,我们发现法学硕士评审与人类评审的一致性有限。在最好的情况下,对齐是合理的。然而,我们还发现法学硕士与人类的一致性在不同的提示和模型中存在很大差异。最后,我们研究了作者根据法学硕士审查使用迭代草稿修改工作流程来改进提交的场景。我们发现,这种 LLM 评审的“游戏”在特定场景中可能有效,导致高达 35% 的论文总体分数在统计上显着增加。我们发布代码:https://github.com/uhh-hcds/reviewarcade。