新京报贝壳财经讯(记者 张晓辉)NVIDIA GTC 2026大会如期举行。北京时间3月18日一早,月之暗面金创始人杨志林发表题为《How We Scale Kimi K2.5》的演讲,首次系统揭示了Kimi K2.5车型背后的技术路线图。技术重构是本次演讲的核心。杨志林在演讲中表示,要推动大规模模型智能上限的不断进步,需要重建优化器、注意力机制、残差连接等底层基础。 Kimi实践专家杨志林介绍,在超大规模训练中,Kimi团队通过实验验证了Muon优化器在提升代币效率方面的巨大潜力,并在此基础上开发了copen源码的MuonClip优化器。这通过训练模型彻底解决了 Logitz 爆炸问题数万亿个参数的规模。在注意力机制方面,Kimi Linear作为一种混合线性注意力架构挑战了“所有层都必须使用充分注意力”的惯例。优化递归存储管理,对于128K或1M超长上下文,解码速度提高5~6倍。针对10年残差连接,Kimi推出了残差护理方案。 3月16日,Kimi发表了题为《Attention Residuals》的白皮书,重新设计深度学习中的核心残差连接结构。传统的残差结构通过均匀求和各层的输出来实现信息传递。 Kimi团队的最新白皮书提出了一种新的解决方案,允许模型对每一层选择性地关注前一层的输出,而不是简单地将它们相加。报告显示,改进后的 48B 模型的训练效率提高了 1.25 倍。会议最后,杨志林讨论了我公司的拓展智能代理组。他认为,未来的智能形式将从单一智能体演变为动态生成的群体。 Kim K2.5 中引入的 Orchestrator 机制可以将长而复杂的任务拆分为数十个子代理来并行处理。为了避免协作过程中单点依赖导致的“串行崩溃”,团队设计了一种新的并行强化学习奖励函数,让模型能够真正学习任务分解和并行执行。在杨志林看来,今天的规模化不再只是积累资源的问题,而是必须同时在计算效率、长期记忆循环和自动化协作等方面寻求规模经济。如果这三个方面的技术进步能够成倍增加,模型将表现出远高于目前水平的智能水平。校对刘宝庆