文心 5.0 是怎么真正做到原生全模态的？

发布时间：2026-06-08 00:56:48 来源：前出塞知识网

作者：文心 5.0 是怎么真正做到原生全模态的？

感觉今年所有大厂都有往全模态冲的趋势, 但这里的技术细节会直接决定模型质量，比如最常见的实现方式就是先训好一个文本大模型, 再额外训练一个视觉/音频适配器来对接, 把图像或视频编码成向量后拼到文本 token 序列里送进 LLM 但这样做融合比较浅: 视觉编码器和语言模型是分开预训练的, 两边的表征空间靠一个轻量 adapter 来桥接, 存在转译损耗, 而且容易出现能力跷跷板—— 加强视觉的时候文本能力反而下降那么既然支持多模态这么复杂, 而文心5.0更是做到了文本, 图像, 音频, 视频全模态, 真的不会炸吗? 于是我仔细看了它的技术报告, 给大家带来深度解析首先文心5.0从一开始就设计了一个"统一自回归骨干"—— 所有模态的数据都先被编码成统一的 token，在同一套「预测下一组 token」目标下联合训练。来看这个骨干统一了哪些: 首先, 统一 token 空间: 文本就还是 BPE token, 图像/视频被切成 patch 后再映射到同一维度, 音频被切成 frame 做连续特征编码, 最后全部投到同一个 embedding 空间里, 让模型眼里只有「一串 token」而不是四套完全不同的表示然后, 统一损失函数: 所有模态最后都回到同一个自回归目标, 即预测下一组 token, 这样模型在训练阶段就被迫学会在同一语义坐标系下对齐不同模态最后, 统一深度网络: token 进骨干后走同一套 Transformer + MoE 堆栈, 只有在输入/输出极个别地方有轻量的模态适配层支撑这一切的是一个超稀疏 MoE：总参数 2.4T，但每次推理只激活不到 3% 的参数；再配上一个模态无关的专家路由。这样一来，不同模态可以共享同一批专家，图像里学到的模式可以直接反哺文本、音频甚至视频。从效果上看，文心5.0在多模态理解这块的成绩也非常亮眼：LMArena 上文本综合能力排到全球前列 (发布的时候直接是国内模型SOTA). 而这条路成本很高：需要海量高质量多模态数据做对齐，路由稳定性、专家负载均衡这些都是很硬的工程问题. 最后, 我做了几张简单的架构图，方便大家理解这次文心的架构, 这个基础方向我觉得是相当可以的, 期待文心模型持续增强实力 #文心5 #文心大模型 #文心 #ERNIE5 #全模态 #多模态 #moe #大模型 #agent

返回新闻列表

文章详情

文心 5.0 是怎么真正做到原生全模态的？

推荐阅读