聚焦效率、拥抱终端、以小事办大事,一群AI“墙人”正在让智能模型在手机、汽车等终端设备上流畅运行。全球第一个达到GPT-4o级别的大规模最终多模态模型、“密度法”的提出者和实践者、国内第一个“模仿美国人”的模型——这些就是在AI领域崭露头角的北京墙通智能科技有限公司(以下简称“墙通智能”)。 Face Wall的核心团队来自清华大学。其联合创始人兼首席研究员刘志远是中国最早研究自然语言处理的科学家之一。与其他“按规模构建模型”的公司不同,面墙智能选择了极限并肩的独特AI路线,推出了MiniCPM系列端到端模型。因其24亿参数c赢得赞誉在Mistral 7B模型的基础上,壁面智能相继形成了基础、多模态和全模态MiniCPM最终模型的完整谱系。面墙智能的故事不仅是一支年轻AI技术团队的成长故事,也是中国在大模式浪潮中从追随者向创新者转变的一个缩影。就像科幻小说中试图靠自己改变未来的“面壁者”一样,该公司注重效率,打破AI模型对计算资源的过度依赖,让智能在终端设备上“跃入千家万户”。智能办公室的墙上写着:“保持领先,以更少的投入,赚更多的钱。” “让我们先行一步,以更少的力量赢得更多的胜利。”新京报贝壳财经记者 罗一丹/摄 “先行一步,以少打胜仗。”当新京报贝壳财经记者走进清华临墙智能办公室时科技园里,首先引起他注意的就是那堵墙。这段文字也是对墙上智能发展之路的生动描述。 2020年12月,清华大学计算机学院副教授刘志远领导的团队训练了全球第一个大规模开源中文模型——CPM。该项目也是中国大型基础模型“后藤”的前身。 2022年8月,面墙智能成立。虽然是一家年轻的公司,但其核心团队是由清华大学自然语言处理实验室10多年的深度学习经验成长起来的,并且成立于ChatGPT流行之前,使其完全“领先一步”。而到了2023年,当国产大型车型陆续推出,市场进入“百款大战”时,墙前智能选择了一条不同的道路:端到端模式。与大语言不同过去的模型依靠体积来传递缩放定律,并且通常具有数千亿或数万亿个参数,而客户端模型专注于支持仅使用手机、PC 和其他设备的计算能力的完整、可用的模型。刘志远告诉贝壳财经记者,缩放法存在重大矛盾。世界各地能够构建和资助此类模型的团队越来越少。 “刘志远接受记者采访。新京报贝壳财经记者 吉喆/摄。基于这个想法,刘志远团队提出了大型模型的密度定律。“对于大型模型,需要把更多的知识投入到单元参数中,就像摩尔定律力求电路密度翻倍一样。”刘志远告诉新京报贝壳财经记者,模型的容量密度每100天就可以翻倍。这意味着每100天,可以使用一半的参数来达到模型的容量om 100天前,至今墙体智能的进展都遵循这个规律。 2024年2月,智能面墙推出了MiniCPM大模型。它仅使用 24 亿个参数就实现了超过 100 亿个参数的大型模型的性能。 2024年6月,美国斯坦福大学的人工智能团队从面墙智能“偷”了MiniCPM-Llama3-V 2.5“小钢炮”模型。虽然这最终以抄袭者道歉并撤回模型而告终,但这也证明了本土模型开始崛起,实力得到业界认可,墙上的情报不仅避免了志同道合的巨头流入大模型领域的“正面交锋”,而且积累了深厚的知识和方法论基础,构建了自己的护城河。这就像试图在很小的空间内创建一个非常复杂的电路。提取大数据f为了将互联网变成更小的模型并增加模型特征的密度,有必要: 1. 设计能够容纳大量知识的高效模型架构。 2.利用数据治理,从PP级数据中寻找真正先进信息的“素材”“教义”。 3、从数据到模型的学习过程本身也是一个非常复杂的过程。我们提出了“模型风洞”的概念。就像造飞机之前,我们首先要在风洞里进行模拟实验。我们通过多次实验学习规则,然后将其推断出真正需要训练的模型。另外,底层训练所使用的芯片参数也与其密切相关,这也需要软硬件的协同设计。 ”刘志远在接受新京报贝壳财经记者采访时表示:技术进步与前瞻:最终智能化的‘持久战’。所有智能都在各个领域获得关注。近日,该公司发布了基于文本的模型MiniCPM 4.1、MiniCPM V4.5多模态模型和VoxCPM语音生成模型3。其中,VoxCPM和MiniCPM-V 4.5均已开源,并一度在国际上开源。HuggingFace社区平台第一大和第二大模型刘志远透露,新发布的MiniCPM 4.1基于文本的模型彻底革新了架构,“可以快五倍以上”比同尺寸的车型,经过充分验证的全墙智能技术壁垒。” “还有很多悬而未决的问题,比如如何优化模型架构和训练效率,世界数据训练完成后该怎么办。这个开发过程不能用线性的方式来看待。对于大规模模型来说,首先要有创新的意识和能力。比如MoE架构早在2021年就创建了,但DeepSeek终于普及了它。”我们相信这个领域将会出现重大突破:“自主强化学习”技术的成熟。”从去年到今年,学习范式已经从传统的逐词学习扩展到探索性强化学习。这意味着模型可以创建自己的数据来学习。例如,对于一个数学问题,模型可以探索大约十几种不同的解题思路,这是一个非常重要的学习。这是范式的突破。对于有才华的毕业生来说,在加入公司后六个月内成为专家非常重要。谈及发展前景,刘志远表示,SF似乎与小说《三体》有类似的战略愿景:“克服自主强化学习之后,模型将在各个领域不断进化和成长。从全球分布来看,最强大的算力实际上会到来”来自用户。如果这样的模型可以在一台设备上运行,那么它将成为每个人的专用智能个人助理。当然,目前这是不可能的,还在不断进化的过程中。 “墙”这样的名字背后是有科学依据的。虽然是虚构的,但刘志远告诉新京报贝壳财经记者,在选名字时,他就定下了英文名“ModelBest”,其实意思是“成为最好的模特”。中文名字应该以M和B开头。“经过大量研究,我认为撞墙更符合人工智能的目标,有一种科幻气质,也是隐喻人类智能发展到最高水平时应该如何反思。”刘志远表示,确定最终目标后,要雅利安认清形势、准确预测、百战百胜。 《论抗战》的思想精髓具有伟大的意义。对商家有参考价值。这是因为迈向AGI本身就是一场“抵抗之战”。在这个过程中,敌人并不安全。你必须与自己、朋友、商人和不确定的未来进行点球大战。到达终点的人就是胜利者。刘志远告诉新京报贝壳财经记者,北京在人工智能领域拥有全国最强的积累。 “清华大学从1978年就确定了人工智能方向,有几十年的研究积累。”他特别表示,北京市各级政府高度重视人工智能发展。 “2019年,我获得了北京人工智能致远研究院的致远学者称号。当时,大型模型尚未受到广泛关注,但北京提供了非常慷慨的人才支持。”面墙智能获得北京投资支持近三年来,先后负责致远、智浦、北京国资、海淀区等工作。从 2025 年 10 月开始,墙壁智能的最终模型将在汽车中部署。在汽车、手机等终端领域实现规模化导入。刘志远预测,在不久的将来,搭载其最终型号的设备数量将增加十倍。这位清华大学院士、企业家正率领团队稳步推进AGI长征 中国互联网发展基金会 中国正能量网络通信专项基金支持 新京报 贝壳财经 记者 卢欧丹 编辑 陈莉 遮遮掩掩 刘宝庆