私下里和腾讯的哥们聊他们最新发的模型混元 Hy3 preview。听他的意思,这款模型在内部口碑其实很不错。 我开玩笑说,你们内部也没人好意思直接吐槽吧。他回答,还真不是,之前的模型大家骂得挺狠的,这次确实有不少提升。行业内这款模型被 GPT-5.5 和 DeepSeek V4 的发布声淹没了。 早上起来我也花时间认真看了下这款模型,想说一点真实的体感。 1、Hy3 preview 总参数 295B,激活参数 21B,256K 上下文,算是一个中型模型。核心特点是快慢思考的融合,并且重点提升 Coding 和 Agent 能力。这基本是当下行业的共识路线。 2、姚顺雨加入之后,几乎把之前的东西从底层推倒重建。 这一点新闻稿里写得很清楚,第一句话就是:预训练,重建。强化学习,重建。基础设施,重建。意思已经很明白了,Hy3 preview 是一个全新的模型,一个全新的起点。 3、这次腾讯的新模型能力上确实有不少提升,但也不可能快速追上头部的几款模型。毕竟也就几个月训练时间,模型短期内立马出现质的飞跃,我认为也不现实。所以,重点还是看加速度。 4、听说腾讯内部评估,下一大版本应该会有比较大的突破。腾讯今年最重要的策略之一就是重回大模型第一梯队。这一点我觉得还是有很大的盼头,因为从 Hy3 preview 情况看,他们现在思路还是非常清晰。 5、官方新闻里自己也说了,更大尺寸的模型还在训练中。我们看看年底的时候,Hy 能不能再次跨入第一梯队的水准。 模型这东西,我觉得现在用户也不看测评,大家只看效果。就像这两天的 GPT Image 2 一样,用户还是识货的。 6、我哥们说,这次腾讯发布的新闻稿,非常真诚。我自己看了一下,确实。比如在 Benchmark 对比图里,他们明确标出了自己在部分场景不及 GLM 5.1 和 Kimi K2.5。 7、这一点很难得。大家都知道现在 Benchmark 刷数据太容易了。据说腾讯现在的风格就是不刷 bench,也不会背题,就老老实实找场景测试。 8、当然,直接拿 GLM 5.1 和 Kimi K2.5 来对比 Hy3 preview 也不太公平,参数量差距摆在那儿。我觉得这款模型的核心价值是在这个参数量的限定下,性价比做得很不错。 9、或者这么说,中型模型中,Hy3 preview 已经是第一梯队的模型了。