开发者生态
morning
让克劳德成为一名化学家
2026-06-14
1 阅读
gmays
科学让 Claude 成为化学家 2026 年 6 月 5 日我们正在与世界一流的合成、计算和分析化学家合作,让 Claude 更好地擅长化学。在这篇文章中,我们分享了我们的第一项工作,作为这项工作的一部分,其中人类化学家 David Kamber 检查了 Claude 在化学家最常见的分析输入(核磁共振谱)上的表现。在研究分子时,化学家在白板上手绘结构、仪器读数、数据库查询字符串以及专利和出版物的技术符号之间移动。这些表示中的每一种都编码相同的基础化学,但每一种都需要不同的流畅性。例如,化学家可以通过咖啡因的草图发现它与腺苷(人体的睡意信号)的相似之处,并预测它可以通过阻断受体来让我们保持警觉。然而,同一张草图无法帮助化学家将其与其他外观几乎相同的分子区分开来。了解化学家正在研究的分子至关重要。从我们摄入的食品和药物到我们的乳液、油漆和塑料,化学是一切事物的基础。改变相同原子之间的一些键,葡萄糖就变成果糖,这些分子共享一个分子式,但通过完全不同的代谢途径进行加工。将分子翻转成镜像,镇静剂就会变成致畸剂,就像沙利度胺灾难中发生的那样。 1 化学家的日常工作取决于在适合给定任务的任何表示形式中正确读取这些信号。这些表示形式之间的转换(从图中找出结构、根据提议的产品协调仪器读数、以正确的表示法查询数据库)非常耗时,而且不可能在规模上跟上 - CAS 作为最大的化学登记处,对超过 2.9 亿种已披露的物质进行了编目,并且每天都会增加大约 15,000 种新物质。人工智能完全有能力承担这一研究负担,但在化学领域,它仍然在很大程度上仍然是人们的愿望。多年来,机器学习工具一直被定位为逆合成的变革性工具,逆合成是从目标分子逆向工作到更简单的前体,以计划如何构建它的过程——反应预测和性质估计,但这些工具所需的数据很难获得——零结果稀疏,格式不一致,并且被锁定在订阅期刊的付费专区(以及非结构化支持信息)中。逆合成就是一个很好的例子——功能强大的人工智能工具已经存在多年,但采用率并不均衡,普通学术或小型实验室化学家仍然不使用它们。即便如此,人工智能的进步最终还是达到了化学水平。当今的前沿模型是多模态的,并且能够进行明确的推理。他们可以直接从期刊图表或手绘图中读取化学结构,而不是依赖于预先策划的分子数据库。他们可以阅读方法部分的实验细节或实际发布形式的支持信息。他们还可以逐步展示他们的推理,这意味着化学家可以审核输出。所有这些都无法消除该领域多年来一直在描述的数据问题,但它改变了尽管存在数据问题仍然可以解决的问题。最终,我们的主张是温和的:克劳德开始有意义地协助化学家进行日常翻译、回忆和整合工作,以补充他们的判断,我们计划继续扩大其帮助。今天,我们发布第一份白皮书,以加速这项工作。它解决了化学家最常见的分析输入:核磁共振谱。 Claude 与 ChemDraw 进行 NMR 预测和结构阐明 完整版本可以在此处找到 几乎所有小分子(药物、农药、染料、香料、聚合物、DNA 或蛋白质亚基以及功能性无机或固态材料)的存在都是因为化学家确定了其结构。鉴于这些分子无法用显微镜看到,化学家必须依靠光谱分析,用光、无线电波或磁场探测分子。给定分子吸收、发射或偏转这种能量的方式为化学家提供了一种模式或光谱,他们可以用它来阐明其结构。核磁共振波谱(化学家所依赖的标准技术之一)是合成化学中最耗时的步骤之一;对于每种化合物,化学家必须手动将光谱中的每个峰与提议结构中的原子进行匹配。在本白皮书中,我们测试了 Claude 与当今化学家所依赖的专用 NMR 软件的对比情况。我们将三个 Claude 模型(Opus 4.7、Opus 4.6、Sonnet 4.6)与 ChemDraw 和 MestReNova 进行对比,对从模型训练截止后发布的合成化学预印本中提取的 20 种化合物进行了测量,以避免选择偏差。 ChemDraw 和 MestReNova 都进行正向预测,使用绘制的结构来模拟将产生的 NMR 谱。除了前锋