编辑|Panda
前些天,,,,,,Anthropic 宣布了一篇题为「When AI Builds Itself」(当 AI 构建自身)的文章,,,,,,迅速引发普遍讨论。。。。。文章展现了一组令人侧目的内部数据:阻止 2026 年 5 月,,,,,,Anthropic 代码库中凌驾 80%的代码已由 Claude 撰写,,,,,,工程师逐日合并的代码量是 2024 年的 8 倍;;;;在一项内部测试中,,,,,,Claude 将一段训练代码的运行速率从基准提升了约 52 倍,,,,,,而一名有履历的人类研究员通常需要 4 到 8 小时才华抵达 4 倍加速。。。。。
Anthropic 将这条轨迹指向一个更深的目的地:「递归自我刷新」——AI 系统自主设计、构建和训练自死后继版本,,,,,,人类不再驱动每一步。。。。。值得关注的是,,,,,,该公司还呼吁行业协调,,,,,,在递归自我刷新时刻到来时拥有暂缓以致暂时叫停前沿 AI 开发的选项。。。。。并且 Anthropic 已经在这么做了:限制最新的 Claude Fable 5 被用于研发前沿 AI。。。。。
而现在,,,,,,Recursive Superintelligence 宣布向自动化 AI 研究走出了第一步
这家由田渊栋联合建设的新公司刚刚竣事隐身状态仅一个月,,,,,,现在就宣布了第一项果真手艺效果。。。。。他们打造了一个开放式的自动化知识发明系统,,,,,,并在三个基准测试上取得了 SOTA 效果。。。。。简朴来说,,,,,,他们乐成做到了让 AI 替你跑实验。。。。。
https://x.com/tydsh/status/2065062838255649082
第一步效果:让 AI 替你跑实验
Recursive 这第一项果真手艺效果名为「First Steps Toward Automated AI Research」(迈向自动化 AI 研究的第一步)
推文:https://x.com/Recursive_SI/status/2064980090702962699客栈地点:https://github.com/recursive-org/first-steps-toward-automated-ai-research博客地点:https://www.recursive.com/articles/first-steps-toward-automated-ai-research
若是用一句话概括,,,,,,这项事情的焦点是:构建了一套能自主推进 AI 研究循环的系统,,,,,,并在三个基准测试上刷新了最好效果。。。。。
在正式拆解效果之前,,,,,,有须要先明确这套系统的设计逻辑。。。。。
古板的 AI 研究流程是一个高度依赖人的「提想法—写代码—跑实验—剖析效果—再提想法」的闭环。。。。。它的效率瓶颈不在算力,,,,,,而在人。。。。。全天下能设计前沿训练流程的研究员屈指可数,,,,,,而每一轮实验迭代都需要他们高度介入。。。。。
Recursive 的系统试图把这个闭环自动化。。。。。
它的事情方式是:针对一个明确的优化目的,,,,,,系统自动提出实验想法、实现代码、运行验证、从中学习,,,,,,然后决议下一步怎么搜索。。。。。多条研究线路可以并行推进,,,,,,有用的发明可以被跨使命复用,,,,,,奖励作弊(reward hacking)的检测机制也被内嵌进整个循环,,,,,,防止系统「走捷径」把测评指标刷上去却没有真正刷新任何工具。。。。。
这并非一个针对简单问题微调的专用工具,,,,,,乃是一套跨领域的通用研究自动化框架。。。。。 Recursive 用三个差别显著的测试场景来证实这一点。。。。。
三个战。。。。。,,,,,三个新纪录
场景一:牢靠盘算预算下的小模子训练(NanoChat Autoresearch)
这项基准测试的规则来自 Andrej Karpathy(GPT-2 作者、前 OpenAI 联创)提倡的 autoresearch 项目:在一块 GPU 上,,,,,,给定五分钟的牢靠训练预算,,,,,,尽可能把一个小型语言模子训到最低的验证损失(以 BPB 权衡,,,,,,越低越好)。。。。。
这个场景自然适合自动化研究:实验周期短、指标方差低、作弊行为相对容易检测。。。。。正因云云,,,,,,一个名为「autoresearch@home」的社区项目已经在这个基准上运行了很长时间——数十名人类研究员加上数百个 AI 智能体协作,,,,,,一连把指标往下压。。。。。
Recursive 的系统以相同的初始代码出发,,,,,,最终把验证 BPB 从社区最佳的 0.9372 推进到了 0.9109,,,,,,改善了 0.0263 个 BPB。。。。;;;;凰愠闪硪恢炙捣ǎ和难盗分柿浚,,,,,Recursive 的方案只需要敌手 1.3 倍少的训练时间就能抵达。。。。。
系统发明的刷新并非一招制胜。。。。。它组合了架构调解、辅助损失、注重力机制改动、优化器行为、权重衰减调理、编译器设置等多处转变。。。。。其中最要害的一个发明,,,,,,是一种更富厚的短上下文影象机制:在注重力的 value 路径中,,,,,,通过哈希表同时嵌入 bigram(相邻词对)和 trigram(三元组)信息,,,,,,并用可学习的门控加权混淆。。。。。差别的 Transformer 层使用差别的哈希函数,,,,,,从而降低跨层重复碰撞的概率。。。。。
这个技巧在看法上与 DeepSeek Engram 等事情有所关联,,,,,,但系统将其以一种尚未见于果真文献的特定变体形式安排到了牢靠预算场景中。。。。。
场景二:逊з度极限竞速(NanoGPT Speedrun)
若是说前一个场景是在一个活跃社区的效果上「再进一步」,,,,,,这个场景则难堪多。。。。。
NanoGPT Speedrun 是另一个由 Karpathy 提倡、社区一连优化两年以上的基准:在 8 块 H100 GPU 上,,,,,,把一个 GPT 模子训练到验证损失 3.28 所需的最短时间。。。。。自 2024 年中以来,,,,,,社区已通过 83 次有纪录的孝顺把时间从约 45 分钟压缩到了 79.7 秒。。。。。每一个新方案都需要在极端优化的代码基础上再挤出时间,,,,,,难度可想而知。。。。。
Recursive 的系统从现有最优解出发,,,,,,再次把训练时间压缩到了 77.5 秒,,,,,,节约了 2.2 秒。。。。。这与近期人类孝顺者能做到的刷新幅度相当甚至更好。。。。。
系统这次找到的焦点技巧包括:
FP8 精度的注重力盘算。。。。。社区方案只在模子的最后一层(语言模子头)使用 FP8(8 位浮点)盘算,,,,,,而系统将 FP8 延伸进了注重力层的矩阵运算,,,,,,前向撒播用 FP8 以获得两倍的 Tensor Core 吞吐量,,,,,,反向撒播保存 BF16 以维持稳固性。。。。。优化器中的退火探索噪声。。。。。系统在 NorMuon 优化器的更新方法中注入了零均值高斯噪声,,,,,,噪声幅度随训练进度线性退火至零。。。。。这有点像给优化器一个「先大胆探索、再稳健收敛」的行为模式,,,,,,资助最终解落在一个更平展的损失盆地中。。。。。更精简的融合 MLP 内核。。。。。 系统重写了一个 Triton GPU 内核,,,,,,让前向撒播只存储 ReLU 平方后的激活值,,,,,,反向撒播时在内核内部重算未平方的中心效果,,,,,,省去了一次完整的激活张量在高带宽显存中的读写往返——这是硬件层面的直接提速。。。。。
三个刷新,,,,,,分属精度战略、优化器设计、GPU 内核编程三个差别的专业领域。。。。。系统在两年社区优化的效果上又找到了空间,,,,,,自己就说明晰问题。。。。。
场景三:GPU 内核优化(SOL-ExecBench)
前两个场景都在模子训练层面上事情,,,,,,第三个场景则深入到更底层:GPU 盘算内核的优化
SOL-ExecBench 是英伟达推出的基准测试,,,,,,包括 235 个内核编写使命,,,,,,笼罩矩阵乘法、归约、归一化层、注重力组件、量化例程、融合块等多类真实事情负载。。。。。评分标准是 SOL 分数:0.5 对应基准 PyTorch 实现,,,,,,1.0 对应硬件理论极限。。。。。此前的最佳果真效果是 0.699。。。。。
Recursive 的系统在 235 个内核上整体运行,,,,,,允许跨使命复用发明的优化模式(例如内存搬运战略、分块方式、规约技巧),,,,,,最终得分提升到了 0.754,,,,,,将距离硬件极限的差别缩小了 18%。。。。。
这个场景意义特殊,,,,,,由于内核工程是极高度专业化的领域——能写出高效 Triton/CUDA 内核的工程师在全球也是凤毛麟角。。。。。而 Recursive 团队在博客中坦承,,,,,,他们自己也不是内核领域的专家,,,,,,「这些想法来自系统自己,,,,,,而不是来自凯时AG专业配景。。。。。」
Recursive:用 AI 研究递归刷新 AI
宣布这项效果的公司 Recursive Superintelligence 建设于 2025 年底至 2026 年头,,,,,,上个月刚刚竣事隐身状态,,,,,,首创成员除了前 Meta FAIR 研究科学家总监田渊栋之外,,,,,,还包括:
Richard Socher,,,,,,Recursive CEO,,,,,,前 Salesforce 首席科学家Alexey Dosovitskiy,,,,,,前 Google DeepMind 研究科学家和 Vision Transformer 第一作者,,,,,,谷歌学术引用量凌驾 16 万Tim Rockt?schel,,,,,,前 DeepMind Principal 科学家和 UCL 人工智能教授Peter Norvig,,,,,,谷歌前研究总监,,,,,,与 Stuart Russell 合著了 AI 领域著名教科书《人工智能:一种现代要领》Caiming Xiong,,,,,,前 Salesforce AI 副总裁Tim Shi,,,,,,前 OpenAI 研究员,,,,,,企业 AI 公司 Cresta 联合首创人兼 CTOJosh Tobin,,,,,,Recursive CTO,,,,,,前 OpenAI 与 Uber ATG 研究认真人Jeff Clune,,,,,,前 Google DeepMind 研究副总裁,,,,,,加拿大不列颠哥伦比亚大学盘算机科学教授
并且该创业公司一亮相,,,,,,甚至还没有一个果真产品,,,,,,就已手握 6.5 亿美元融资,,,,,,估值高达 46.5 亿美元,,,,,,由 GV(谷歌风投)和 Greycroft 领投,,,,,,英伟达和 AMD Ventures 跟投。。。。。
公司的焦点主张与名字直接对应:构建能够递归地提升自身研究能力的 AI 系统,,,,,,让 AI 加入并加速 AI 自己的研发历程,,,,,,最终形成一连自我增强的闭环。。。。。
更多详情,,,,,,参阅报道《脱离 Meta 后,,,,,,田渊栋刚刚官宣创业了》。。。。。
虽然,,,,,,在赛道层面,,,,,,Recursive 并不孑立。。。。。Yann LeCun 的 AMI Labs 在今年 3 月完成 10 亿美元融资,,,,,,David Silver 的 Ineffable Intelligence 在 4 月拿下 11 亿美元种子轮,,,,,,都指向相似的偏向:让 AI 系统自主天生知识,,,,,,镌汰人类在研究流程中的介入。。。。。但在果真效果的节奏上,,,,,,Recursive 的这份「第一步」应该是现在同类公司中最详细、最可复现的手艺展示之一。。。。。
递归范式的黎明
Recursive 宣布的这份效果,,,,,,放在更宏观的行业配景下,,,,,,代表着一种新型 AI 研发范式的起源落地:让 AI 系统自己肩负研究的主体角色
这种「递归式 AI」的焦点逻辑并不重大:AI 提升 AI 研究能力,,,,,,刷新后的 AI 又能更有用地提升自身,,,,,,周而复始。。。。。它不依赖某个简单突破,,,,,,而是依赖一个一连天生突破的系统。。。。。
这种思绪对 AI 研究自己的经济学具有主要意义。。。。。前沿模子的训练流程仍然高度依赖少数具备特定手艺的研究员,,,,,,而能胜任这项事情的人全球不凌驾几千个。。。。。若是自动化研究系统能接受其中哪怕一部分事情,,,,,,AI 前进的速率与本钱曲线都会爆发转变。。。。。
这一判断也与行业最近发出的其他声音形成了呼应。。。。。好比本文开头提到的 Anthropic 的《When AI Builds Itself》,,,,,,语气并不轻松——它呼吁行业协调,,,,,,在递归自我刷新时刻到来时拥有暂缓以致暂时叫停前沿 AI 开发的选项,,,,,,以留出时间让社会结构和对齐研究跟上节奏。。。。。更多详情请参阅《AI 自进化过快,,,,,,Anthropic 呼吁全球中止研发》。。。。。
https://www.anthropic.com/institute/recursive-self-improvement
两件事同时爆发,,,,,,耐人寻味。。。。。一边是 Anthropic 在纪录和警示这条轨迹的走向,,,,,,另一边是 Recursive 这样的团队,,,,,,正在一步一步地让这条轨迹酿成现实。。。。。
虽然,,,,,,Recursive 自己也认可,,,,,,这仍是「」:目今系统在指标明确、反馈快速、作弊可检测的场景下效果最好,,,,,,距离自主推进开放性科学问题尚有相当距离。。。。。奖励作弊的防控将是规;;;;飞弦涣媪俚慕沟闾粽。。。。。
但一个闭环已经最先运转。。。。。接下来的问题,,,,,,只是它会转得多快。。。。。
随藏书一同“落户”浙大的,,,,,,尚有匹俦二人的生涯新篇。。。。。2025年,,,,,,他们受聘为浙大中西书院特聘教授。。。。。生涯融入江南四序,,,,,,徐泓特殊在社交平台上纪录,,,,,,早春赏郁金香盛开,,,,,,清明品尝青团,,,,,,暖冬与太太在洒满阳光的草坪上散步;;;;泡云南咖啡,,,,,,吃苏式月饼。。。。。