杨志林GTC 2026演讲：首次系统披露Kimi K2.5技术路线图 — 新京报 – 吃瓜网黑瓜网每日大赛，精彩内容不容错过

新京报贝壳财经讯（记者张晓辉）NVIDIA GTC 2026大会如期举行。北京时间3月18日一早，月之暗面金创始人杨志林发表题为《How We Scale Kimi K2.5》的演讲，首次系统揭示了Kimi K2.5车型背后的技术路线图。技术重构是本次演讲的核心。杨志林在演讲中表示，要推动大规模模型智能上限的不断进步，需要重建优化器、注意力机制、残差连接等底层基础。 Kimi实践专家杨志林介绍，在超大规模训练中，Kimi团队通过实验验证了Muon优化器在提升代币效率方面的巨大潜力，并在此基础上开发了copen源码的MuonClip优化器。这通过训练模型彻底解决了 Logitz 爆炸问题数万亿个参数的规模。在注意力机制方面，Kimi Linear作为一种混合线性注意力架构挑战了“所有层都必须使用充分注意力”的惯例。优化递归存储管理，对于128K或1M超长上下文，解码速度提高5~6倍。针对10年残差连接，Kimi推出了残差护理方案。 3月16日，Kimi发表了题为《Attention Residuals》的白皮书，重新设计深度学习中的核心残差连接结构。传统的残差结构通过均匀求和各层的输出来实现信息传递。 Kimi团队的最新白皮书提出了一种新的解决方案，允许模型对每一层选择性地关注前一层的输出，而不是简单地将它们相加。报告显示，改进后的 48B 模型的训练效率提高了 1.25 倍。会议最后，杨志林讨论了我公司的拓展智能代理组。他认为，未来的智能形式将从单一智能体演变为动态生成的群体。 Kim K2.5 中引入的 Orchestrator 机制可以将长而复杂的任务拆分为数十个子代理来并行处理。为了避免协作过程中单点依赖导致的“串行崩溃”，团队设计了一种新的并行强化学习奖励函数，让模型能够真正学习任务分解和并行执行。在杨志林看来，今天的规模化不再只是积累资源的问题，而是必须同时在计算效率、长期记忆循环和自动化协作等方面寻求规模经济。如果这三个方面的技术进步能够成倍增加，模型将表现出远高于目前水平的智能水平。校对刘宝庆

杨志林GTC 2026演讲：首次系统披露Kimi K2.5技术路线图 — 新京报

杨志林GTC 2026演讲：首次系统披露Kimi K2.5技术路线图 — 新京报

推荐文章

日本开始卫星物联网业务商业试验，支持低空经济等产业发展 – 新京报

北京警方加强烟花年货展示安保 – 新京报

北京新闻社与壳牌金融与资本市场研究院联合发布“理性投资十大指引” – 北京新闻社

发表评论取消回复

杨志林GTC 2026演讲：首次系统披露Kimi K2.5技术路线图 — 新京报

发表评论 取消回复

发表评论取消回复