Anthropic 被曝雇1000名人类工程师“培训”Claude Code,时薪280美元:AI 编程越进化越离不开真人兜底

2026-06-09 1 阅读 褚杏娟
据 Business Insider 报道,Anthropic 正在通过一个由约 1000 名人类软件工程师参与的项目,提升旗下 AI 编程工具 Claude Code 的表现。 该项目在数据标注公司 Snorkel AI 内部代号为 “Marlin”,核心目标并不是简单让模型“会写代码”,而是让 Claude Code 的回答更接近专业开发者的真实工作方式:代码更干净、更可靠,也更容易维护。 这次曝光的 Marlin 项目,揭开了 Claude Code 能力迭代背后的另一层基础设施:不是单纯依赖模型自我进化,而是引入大量具备软件工程背景的人类承包商,对模型输出进行高质量反馈。 根据报道,两名参与 Anthropic 项目的承包商表示,他们每完成一项创建提示词和审查代码的任务,可获得 280 美元报酬。每项任务通常耗时约一小时,但部分提交内容还需要与 Snorkel 的审核层进行多轮沟通。 根据 Business Insider 查阅到的 Snorkel 项目指南,参与 Marlin 项目的自由职业者需要对两个不同模型生成的代码进行 A/B 测试。他们会比较两组输出,选择自己更偏好的结果,并判断模型是否真正达到了提示词要求的细节程度。一名承包商称,该项目本质上是在训练 Claude Code 写出更简化、更易维护的代码。 从任务设计看,Marlin 更像是在模拟真实开发场景,而不是传统意义上的低门槛数据标注。承包商会从包含数千个代码仓库的列表中选择 GitHub 仓库,创建一个类似真实开发流程中的 PR,例如新增功能、修复漏洞或重构代码。随后,他们还需要编写提示词,说明希望模型完成什么任务。 在一项任务中,承包商要求模型重新组织系统存储和处理“执行元数据”(execution metadata)的方式。该任务的重点不是改变产品功能,而是在不影响实际运行逻辑的前提下,让代码结构更清晰、更方便开发者后续维护。 在另一项任务中,模型被要求完成一项安全修复,涉及开源机器学习平台 MLflow 在加载部分模型时下载 Python 软件包的方式。任务说明要求承包商从正确性、安全性、可靠性和可维护性角度评估代码,并确保修复方案既能阻止命令注入攻击,又不会误伤合法的白名单 pip 选项。 这意味着,Claude Code 的提升并不只是靠“写得更多”,而是靠专业工程师不断告诉模型:什么样的代码才算能进生产环境,什么样的修改只是表面可用,什么样的实现会在长期维护、安全边界和工程协作中留下隐患。 据悉,目前 Marlin 项目仍在进行中,参与评估的承包商也并不知道自己正在测试的是哪个版本的模型。 值得注意的是,这也反映出了数据标注行业的结构性变化。过去,AI 数据工作往往被视为低门槛、重复性劳动;但随着模型能力提升,训练数据本身正在变得更加专业化。Snorkel 由斯坦福研究人员创办,公司会与拥有高等学位或同等经验的人合作,包括博士、医学博士和法学博士等,顶级专家每周收入可超过 3000 美元,其客户包括 Google、Mistral 和 Anthropic 等。除 Snorkel 外,Scale AI、Mercor 等平台也在为软件工程师提供最高每小时 110 美元的报酬。 越复杂、Claude Code错越多,靠人救? Claude Code 正在被 Anthropic 推向更复杂的工程场景,但用户反馈也显示,这类 AI 编程工具距离稳定承担复杂工程任务仍有距离。 作为一个完全用AI写出来的编程工具,Claude Code 官方仓库里的用户反馈几乎每天都在刷新。近期就有用户称,自2 月更新后,Claude Code 在复杂工程任务中的表现明显退化,已经“无法被信任用于复杂工程工作”。该 issue 已被关闭,但内容提供了一份非常详细的用户侧实测报告。 提交者称,Claude Code 会忽视指令、声称采用“最简单修复”,但结果错误、执行与要求相反的操作,并在没有真正完成任务的情况下宣称完成。 提交者表示,他们拥有一个高度稳定、复杂度较高的工程环境,并分析了从 1 月到 3 月的大量 Claude Code 会话日志。报告称,对 6852 个 Claude Code 会话文件、17871 个 thinking blocks 以及 234760 次工具调用的定量分析显示,所谓“thinking content redaction”的推出,与复杂、长会话工程工作流中的质量退化高度相关。 其认为,当模型的思考深度下降时,它的工作模式会从“先研究、再修改”转向“先编辑、少研究”,进而导致多步骤研究、项目约定遵循、谨慎代码修改等能力下降。 数据显示,Claude Code 在修改代码前的阅读行为明显减少。在表现较好的阶段,模型每次编辑前平均有 6.6 次文件读取;而在退化阶段,这一数据降至 2.0,相当于修改前研究量减少约 70%。这让模型更容易做出“没读就改”的操作。该用户认为,这会导致模型破坏周边代码、违反文件级约定、把新代码插入注释块中间,或者重复实现文件中已经存在的逻辑。 除了代码修改方式变粗糙,用户还记录了更多行为层面的异常。例如,模型出现更多推理循环,输出中频繁出现“等等”“实际上”“让我重新考虑”等自我修正;“simplest”一类表达出现频率上升,被用户解读为模型开始倾向于选择最低成本方案,而不是正确方案;模型也更容易提前停止、请求许可,或者把问题归因于“已有问题”“已知限制”。 这种质量下降的反馈并不是偶然。4 月,一位自称过去四个月几乎每天大量使用 Claude Code的用户表示,近期体验明显变差。过去,处理网站、落地页等任务时,Claude Code 可以产出不错结果;现在则经常需要反复解释需求,甚至在模型开始执行明显错误的方向时,不得不立刻中止。 该用户提到,Claude Code 频繁出现“做错后道歉”的情况,而自己的提示词、工作类型和使用方式并没有变化。后来问题严重到,他在用 Claude Code 构建内容后,还需要转向 Codex 对其结果进行事实核查。 此外,Claude Code 还出现了忘记一些基础工作流程、执行任务时突然停止等问题。 这反映了Claude Code 乃至整个 AI 编程工具的关键矛盾:越深入复杂工程场景,就越不能只追求“快”和“会改代码”,而必须具备长期上下文理解、工程约定遵循、多文件推理等。要知道,开发者对工作流级别的可靠性下降是很敏感的。 因此,Anthropic 引入约 1000 名人类软件工程师,实际上是在用专业工程实践为 Claude Code 补课,用资深开发者的判断标准来弥补当前能力的不足。 颇具讽刺意味的一点是,从“vibe coding”走向“工程化 coding”过程中,我们越想让 AI 像高级软件工程师一样工作,似乎就越需要大量真正的软件工程师参与训练。 AI 带来“代码过剩”:有人拒绝,有人审慎治理 去年3月,Anthropic CEO Dario Amodei 曾预测,未来 3—6 个月,AI 可能写出 90% 的代码;12 个月后,AI 甚至可能几乎写出全部代码。这也是 Anthropic 发力编程的很大现实动力。 有段时间,“