最近Deepseek的出现,将AI热推向了新一波的高潮。并且,deepseek就是以逻辑推理见长,逻辑题似乎更加能够检验它与别人的差距。我用国内的五家AI(Deepseek,Kimi,豆包,文心一言,讯飞星火)做了一下管综今年的逻辑真题,结论如下: 1、Deepseek的逻辑推理能力确实强于其他四家; 2、Deepseek做25年管综逻辑真题,大概是在40+分的水平(满分60),其他家大概在20-30分不等;(个人手感,未经大规模数据验证) 3、所有AI对逻辑题的擅长程度:论证推理题>形式推理题>综合推理题;对近五年的三类题型的平均正确率大概在80%>60%>40%。(感觉,未经大规模数据验证) 4、在这里面Deepseek最为严谨,特别是开了“深度思考”模式后,基本上不会应付了事,会给的分析都是他能够确定的(在他的深度思考中能看见它经常自己和自己打架,否定和怀疑自己多次后才会拿出结论),而其他AI在分析和解析中,都会不负责任的给出较多错漏百出地推理过程。 5、管综真题难度29年来逐年递增,其他AI基本上能够完全应对2014年以前难度的真题(2-3星),14年以后上了3.5星难度的难题就有点吃力了,Deepseek能够勉强应对3-4星难度的真题,能够明显看出吃力感(从思考30s以内,到思考1分半以上,甚至做不出)。 6、即便是Deepseek,暂时也只能辅导大家做真题较为简单的真题(2星以下),3星左右的,它虽然能做出来,但是是“强推”,确定性不高,且缺乏技巧和模型,人类学了并不是最简路径,4星以上的很多它根本就做不出来, 7、图中用24年真题中的一道概念题(形推范畴,4星守门员难度)测验了一下5家,只有Deepseek是一次性做对了,但是思考了101秒,而且使用它强大的数据分析能力“强推”,缺乏模型和技巧。其他四家全部选错,或者直接把自己绕宕机了。 所以,有以下几点: 1、以如今管综逻辑题的难度,借助AI学习真题和做题技巧的愿望,还教难实现; 2、管综逻辑老师,目前还不至于被AI取代; 3、但是,类似于公考等考试里面的逻辑题,其难度基本上已经被Deepseek覆盖了。你猜,会不会加速这些考试的难度向管综靠齐呢? 大家还有什么关于逻辑和AI结合的问题想要知道的,都可以在聊天栏里留言,我们择日试过再聊! #管综 #逻辑思维 #公考行测 #行测 #AI #deepseek