今天刷x刷到,文心5.1在Search Arena上冲到全球第4,见图2-3。 仔细一看,是style-control off情况, 不过style-control on整体排名下降,但国内仍然是第一。 这次算找准角度了,search深耕这么多年,带search就应该更好,历史积累了那么多意图、复杂需求query。 不过看了文心5.1的blog,最有意思的还是预训练成本打到6%。 其核心还是用了之前的Once-For-All 弹性训练,见图4-5,在文心5.0技术报告中就有重点说明。 通过弹性深度、弹性宽度、弹性稀疏度,让模型本身在预训练阶段就适应参数变少情况。 其中, 弹性深度,让某些层"可有可无",在训练过程,25%概率跳过一些Transformer 层数; 弹性宽度,让 MoE 里的专家"可多可少",20%概率选择部分路由专家作为专家池(随机采样); 弹性稀疏度,让每次"激活多少专家"可调,20%概率,topk在一个范围内随机选择,小于标准值; 其实文心5.1模型,就是基于文心5.0衍生出来的,找到最优子结构,继承文心5.0原本的知识, 可以通过少量训练资源衍生不同能力。 文心5.1整体榜单效果,见图6,在其他一些榜单上效果也还不错。 最后,不知道在Create 2026大会上,Robin还有啥其他内容带来不,哈哈哈哈 PS:13、14号到时候现场面基。 #大模型 #ai #人工智能 #百度