> 资讯 > 社会

谁更聪明？讯飞星火深度推理模型X1升级版和DeepSeek数学能力大PK

人阅读 2025-03-07 14:48:40业界资讯

继今年1月15日讯飞发布深度推理模型星火X1后，3月3日，星火X1迎来了升级。同时基于星火X1升级版，首发星火医疗大模型X1，在诊断推荐、健康咨询等医学任务上效果领先。

作为采用全国首个、也是目前唯一一个基于国产算力训练的深度推理大模型，科大讯飞官方称，星火X1升级版在模型参数量较少的情况下，实现了数学能力与DeepSeek R1和OpenAI o1的全面对标。

星火X1升级版的数学能力到底如何，能否真的对能标DeepSeek R1，还需要我们亲自动手验证。

下面的10道试题，涉及小、初、高及奥数。本着一视同仁的原则，每题10分，满分100，以最后得分多者为胜，看看星火X1升级版和DeepSeek R1谁才是数学殿堂里的王者。

试题1：

来源：《五年级方程超难易错题》

某班有学生45人，会下象棋的人数是会下围棋人数的3.5倍，两种棋都会及两种棋都不会的都是5人，求只会下围棋的人数。（设未知数并列方程求解）

星火X1

DeepSeek R1

两大模型都给出了正确答案，各得10分。

试题2：

来源：《小学奥数盈亏问题题库》

幼儿园老师给小朋友分糖果．若每人分8块，还剩10块；若每人分9块，最后一人分不到9块，但至少可分到一块．那么糖果最多有多少块？

星火X1

DeepSeek R1

再次双赢，各得10分

试题3：

来源：《2024年重庆市中考数学试题A卷数学试题》

星火X1

DeepSeek R1

正确，两大模型各得10分。

试题4：

来源：《2024年重庆市中考数学试题A卷数学试题》

星火X1

DeepSeek R1

两大模型回答正确，各得10分。

试题5：

来源：《2024年重庆市中考数学试题A卷数学试题》

星火X1

DeepSeek R1

两大模型回答正确，各得10分。

试题6：

来源：《2024年重庆市中考数学试题A卷数学试题》

星火X1

DeepSeek R1

星火X1完美给出了三小题的答案，得10分，DeepSeek给出的答案中（1）正确，（2）错误，（3）两个坐标只给出了一个，以4个答案共10分计算，每个答案分别为2.5分，因此这道题DeepSeek共得5分。

试题7：

来源：《2024年新高考数学全国一卷试卷（新高考Ⅰ）》

星火X1

DeepSeek R1

回答正确，各得10分

试题8：

来源：《2024年新高考数学全国一卷试卷（新高考Ⅰ）》：

星火X1

DeepSeek R1

星火X1给出的两小题答案全部正确，得10分；DeepSeek此轮表现不佳，0分。

试题9

来源：《初中奥数常考试题类型100例》）

已知三角形的三个内角的和是 180°，如果一个三角形的三个内角的度数都是小于 120 的质数，则这个三角形三个内角的度数分别是___。

星火X1

DeepSeek R1

星火X1只给出一个答案，实际上，该题还有一个答案，即2°、89°、89°，同样也能满足题意，因为漏失一个答案，得5分。DeepSeek回答正确，得10分。

试题10：

来源：《2024年全国中学生数学奥林匹克竞赛（预赛）暨2024年全国高中数学联合竞赛一试试卷（A卷）》

星火X1

DeepSeek R1

星火X1回答正确，得10分；DeepSeek回答错误，不得分。

小结：

上面我们对刚升级的讯飞星火深度推理大模型X1做了简单的测试，从它和当前热度很高的DeepSeek的PK情况来看，星火X1的表现很出色，10道题仅错了半题，总得分95分，相比之下，DeepSeek表现略差，错了两题，半错一题，总得分75分。

LOT物联网

iot产品 iot技术 iot应用 iot工程

Powered By LOT物联网 闽ICP备2024036174号-1

联系邮箱：support1012@126.com