文章详情

专注互联网科技,赋能企业数字化发展

文心 5.0 是怎么真正做到原生全模态的?

作者:文心 5.0 是怎么真正做到原生全模态的?

感觉今年所有大厂都有往全模态冲的趋势, 但这里的技术细节会直接决定模型质量,比如最常见的实现方式就是先训好一个文本大模型, 再额外训练一个视觉/音频适配器来对接, 把图像或视频编码成向量后拼到文本 token 序列里送进 LLM 但这样做融合比较浅: 视觉编码器和语言模型是分开预训练的, 两边的表征空间靠一个轻量 adapter 来桥接, 存在转译损耗, 而且容易出现能力跷跷板—— 加强视觉的时候文本能力反而下降 那么既然支持多模态这么复杂, 而文心5.0更是做到了文本, 图像, 音频, 视频全模态, 真的不会炸吗? 于是我仔细看了它的技术报告, 给大家带来深度解析 首先文心5.0从一开始就设计了一个"统一自回归骨干"—— 所有模态的数据都先被编码成统一的 token,在同一套「预测下一组 token」目标下联合训练。来看这个骨干统一了哪些: 首先, 统一 token 空间: 文本就还是 BPE token, 图像/视频被切成 patch 后再映射到同一维度, 音频被切成 frame 做连续特征编码, 最后全部投到同一个 embedding 空间里, 让模型眼里只有「一串 token」而不是四套完全不同的表示 然后, 统一损失函数: 所有模态最后都回到同一个自回归目标, 即预测下一组 token, 这样模型在训练阶段就被迫学会在同一语义坐标系下对齐不同模态 最后, 统一深度网络: token 进骨干后走同一套 Transformer + MoE 堆栈, 只有在输入/输出极个别地方有轻量的模态适配层 支撑这一切的是一个超稀疏 MoE:总参数 2.4T,但每次推理只激活不到 3% 的参数;再配上一个模态无关的专家路由。这样一来,不同模态可以共享同一批专家,图像里学到的模式可以直接反哺文本、音频甚至视频。 从效果上看,文心5.0在多模态理解这块的成绩也非常亮眼:LMArena 上文本综合能力排到全球前列 (发布的时候直接是国内模型SOTA). 而这条路成本很高:需要海量高质量多模态数据做对齐,路由稳定性、专家负载均衡这些都是很硬的工程问题. 最后, 我做了几张简单的架构图,方便大家理解这次文心的架构, 这个基础方向我觉得是相当可以的, 期待文心模型持续增强实力 #文心5 #文心大模型 #文心 #ERNIE5 #全模态 #多模态 #moe #大模型 #agent

返回新闻列表