文章详情

专注互联网科技,赋能企业数字化发展

AI大模型翻译能力测试-20250423

作者:AI大模型翻译能力测试-20250423

简单赛马娱乐一下 截取4月22日某研报的两段话作为素材,由于足够新避免出现在大模型的语料库(翻译名著虽然区分度更大,但可能就有这个问题),所有模型均调用api,temperature设定为0.1,使用统一的提示词 图片P2为原文,其后为译文 分为3组: 小模(小于20b):P3-P4 中模(30-100b):P5-P8,其中P8为推理模型 大模(大于100b):P9-P16,其中P13、P15为推理模型,P16为混合推理模型(实际未推理) 对比后的几个印象: 1️⃣翻译任务,参数量就是王道,越级挑战难度很大(除了基于llama3.1的Nemotron-Ultra,看起来被llama的中文能力拖累了),即便是能力很好的新模型如qwq-32b面对一年前的老模型yi-large也没有优势 2️⃣gemini2.5-flash是好东西,不知道算不算小模(一般认为是10-20b,也有人认为gemma3是1.5-flash的开源),但显然不比一众32b弱,而且输出速度极快,高并发,适合网页翻译 3️⃣同样参数下,推理模型展现了比非推理模型更好的翻译能力,但不多…… 4️⃣doubao作为一个200b的moe,效果还是很让我满意的(不是广哈哈),关键是很便宜,即便用词不如deepseek 据说最强的翻译模型是gpt-4.5,但测不起……我认为r1的翻译已经足够好了 #deepseek #大模型 #大模型翻译 #gemini #qwen #glm4 #豆包 #gemma3 #翻译#ai

返回新闻列表