近日,清华大学基础模型研究中心联合中关村实验室研制的 SuperBench 大模型综合能力评测框架,对外发布 2024 年 3 月版《SuperBench 大模型综合能力评测报告》。 评测共包含了 14 个海内外具有代表性的模型,结果显示:文心一言 4.0 表现亮眼。与国际一流模型水平接近、差距逐渐缩小。 图 1 所示,在各大模型安全性评测中,国内模型文言一心,力压群雄,超越 GPT-4 系列,稳拿榜首! 图 2 所示,在人类对齐能力评测中,GPT-4 网页版占据榜首,文心一言 4.0 位居国内模型榜首,GPT-4 网页版位居榜首。 图 3 所示,在代码编写能力评测中,对国内模型来讲仍是一个大挑战,可以看到与国际模型仍有明显差距。 图 4 所示,在语义理解能力评测中,国内模型 GLM-4 和 文心一言4.0 则超过GPT-4 系列模型位居第二和第三位。和国际模型 Claude-3 差距逐渐缩小。 图 5 所示,在作为智能体能力评测中,GPT-4系列模型和 Claude-3 处于领先地位,国内模型还是有一定差距的。 整体来看,国外的 GPT-4 系列和 Claude-3 模型当前仍处于领先地位。国内的文心一言 4.0、GLM-4 大模型本次评测表现优异,在逐步的缩小同国际大模型的差距。 本文信息参考自《SuperBench大模型综合能力评测报告》 #文言一心 #大模型 #评测报告 #GPT #gpt4 #人工智能 #chat_gpt