答对有资格入职特斯拉?马斯克这道数学题,我们用七大 AI 模型测了一遍
此前,马斯克在社交平台 X 上贴出了一道数学题,并表示如果有人解开这个问题,就有资格在特斯拉公司工作,引起了很多网友的讨论。
这是一道算式题:6÷2 (1 2)。
在推文下面,网友纷纷给出了自己的答案,但结果却呈现“两极化”,有人认为答案是“1”,有人认为答案是“9”。
其实对于这道题目,美国史丹佛大学教授、数学家塔沃克(Presh Talwalkar)在 8 年前就曾发视频做过解释,大致意思是遵循从左至右的运算规则,先将括号内的 1 2 算出,得到 6÷2×3 的算式,然后乘、除号位阶相等,由左至右计算,会得出答案为 9。
但同时塔沃克也在视频中说,1917 年的数学运算规则与现在有些不一样,按照过去的算法,当时规定碰到除法时,应该将左边整个算式除以右边整个算式,所以答案为 1。
也就是说,以现在的运算规则来看,这道题的准确答案是 9,但说答案为 1 的,也有一定的缘由。
看到这,突然想到,如果把这个比较有争议的问题让 AI 大模型来回答,它是否能给出准确的答案?又是否能判断出其中的“争议”所在呢?
想到不如立刻行动,于是小编找来各大知名厂商最新的 AI 大模型,来进行一番对比测试,看看不同的模型面对这个问题时会有怎样的表现。
在测试前需要特别说明的是,由于这道题目具有相当的迷惑性和争议性,因此在测试时,小编会重点查看大模型推理的过程是否能将其中的关键步骤考虑到,并在输出结果中对这一争议点进行解释。
同时为了重点测试各大模型的推理能力,以及避开在线搜索信息对结果的影响,测试时小编只用各家最新的深度推理模型来进行测试,并关闭了“联网搜索”功能。
1、讯飞星火 X1
小编首先使用的是科大讯飞的讯飞星火大模型。值得一提的是,最近科大讯飞深度推理大模型 —— 讯飞星火 X1 迎来全新升级,这是当前业界唯一基于全国产算力训练的深度推理大模型,升级后的星火 X1 在数学、代码、逻辑推理、文本生成、语言理解、知识问答等通用任务上效果显著提升。
来看讯飞星火在面对这个问题时的实际表现,小编将马斯克的帖子截图进行上传,然后对它说“请回答一下图片里面的这道数学题”,讯飞星火 X1 能准确识别图片中的数学题,然后进行推理和思考。
观察讯飞星火 X1 的推理过程,它先是按照我们上面所说的现代运算顺序算出了正确结果,但同时,它也考虑到了将 2 (1 2) 当成一个整体的情况,并指出关键在于“运算顺序的理解”,然后讯飞星火进一步引用数学上的 PEMDAS / BODMAS 规则,解释了将 2 (1 2) 视为一个整体,则需要额外的括号的原则,再次肯定正确的答案就是 9。
在推理过程中,我们还能看到讯飞星火也考虑到了以往网络对这一问题存在的争议,并表示这种情况下需要明确题目的书写方式是否有隐含的括号,或者是遵循某种特定的惯例。
整体来说,讯飞星火 X1 深度推理大模型对于这个问题的思考过程是非常细致、全面的,既明确了现代算法下的正确答案,也对可能存在的争议点进行了解惑。
再看讯飞星火最终输出的答案,先给出了按照 PEMDAS / BODMAS 规则运算的正确答案是 9。然后特别给我们指出了潜在误解的情况,就是如果将 2 (1 2) 视为整体的话,应该有一个隐含的括号,即 6 ÷ [2×(1 2)],这样才是正确的书写方式。不仅如此,讯飞星火还在回答的最后给出了延伸讨论,指出在实际考试或严谨场合中,应通过括号避免歧义,如明确写成 6 ÷ [2 (1 2)] 或 (6 ÷ 2)(1 2))。
总体而言,讯飞星火 X1 的推理过程通顺严谨,考虑的情况也很全面,输出的结果不仅给出了正确答案,还对争议点进行了解惑,整个回答可以说是找不到什么问题,可见这最新的讯飞星火 X1 深度推理大模型表现确实不错。
2、DeepSeek R1
接下来,小编又用 DeepSeek R1 模型进行了测试,还是上传截图让 DeepSeek R1 进行识别。可以看到 DeepSeek R1 的深度思考过程,也是先按照 PEMDAS / BODMAS 规则运算出了正确的结果。然后又通过“对吗?”话锋一转,开始思考将 2 (1 2) 视为一个整体的情况,但是对于这个情况的思考过程有点啰嗦,虽然也提到了隐式括号的问题,但没有给出有中括号的正确写法,虽然思考的过程是正确的,但内容上稍有含糊。
再看输出的结果,先是给出了正确的运算步骤和结果,不过输出答案“9”时出现了不明意义的代码,而且对于争议点的说明也不够详细明确。
3、字节豆包 1.5
然后小编测的是豆包 1.5 深度思考模型,也是上传截图让它来回答图中的数学题,豆包大模型的思考过程相对简单,先是按照四则运算法则算出了正确的结果 9,然后也提到了把 2 (1 2) 看做一个整体的情况,并给出了看成整体的话应该写作 6÷[2 (1 2)],但这里没有中括号,所以还是应该按照从左到右的顺序进行计算。可以看到,豆包大模型虽然思考过程简单,但言简意赅,核心的要点解释得比较清楚。
不过,正式的输出结果中,虽然给出了正确的计算步骤和结果,但对于争议点的解释反而又比较含糊了,不如推理过程中说得清晰。
4、文心 X1 Turbo
接着,小编用百度刚刚发布的文心 X1 Turbo 模型进行测试,由于文心 X1 Turbo 模型在深度思考模式下不支持上传图片,所以小编直接手动输入问题“请回答这道数学题:6 ÷ 2 (1 2)=?”。
文心 X1 Turbo 模型也是一样,先给出了正确的运算步骤和结果,然后考虑能不能将 2 (1 2) 看成一个整体的问题,文心 X1 Turbo 的解释是算式中的括号只是提高了“1 2”的优先级,但没有提高省略的“×”的优先级,所以“×”和“÷”还是同阶的,要按照从左到右的顺序来运算。虽然思考的过程稍显繁琐,但整体内容上没什么问题。
再看输出的结果,先给出按照 PEMDAS / BODMAS 运算规则的正确结果,然后提示将 2 (1 2) 误解为整体的关键点,虽然给出的解释也比较简洁,但整体逻辑上是没什么问题的。
5、腾讯混元 T1
然后我们再看腾讯混元 T1 模型的回答,还是先看思考的过程。
腾讯混元 T1 的思考过程整体看下来是没什么问题的,对于能不能将 2 (1 2) 看成整体的解释也比较明确,还给出了可以看成整体时的正确写法:6 ÷ [2×(1 2)]。
不过,在输出的答案中,对于这一争议点的解释反而又略显含糊了,如果有同学没有看思考过程的话,只看输出的答案还是不能理解为什么不能将 2 (1 2) 看作整体优先计算。
6、通义千问 Qwen-QwQ-32B
下面我们再看看通义千问是怎么解决这个问题的吧,小编还是选择通义千问的深度思考模型。
千问的思考过程中,先按照 PEMDAS / BODMAS 原则给出了正确的运算结果,重点是对于能不能将 2 (1 2) 看成整体的思考,这一方面千问给出的解释比较含糊,有点车轱辘话反复说的意思,没有说到要点上。
再看输出的结果,只是给出了这道题正确的步骤和结果,并没有对争议点进行解释和说明。
6、OpenAI o3
除了国内的这几家模型,还测试了国外的两家模型,首先是 OpenAI o3,o3 大模型没有给出推理过程,不过在输出的结果中详细展示了它的解题和思考逻辑,所以我们直接看输出的结果。
首先,OpenAI o3 给出了按照 PEMDAS / BODMAS 原则详细的计算过程和正确的答案:9。
然后我们看 OpenAI o3 对争议的解释,即能不能把 2 (1 2) 看成一个整体优先计算,OpenAI o3 的解释过程很严谨,问题的关键说得也很清楚,明确表示争议点事在没有括号的情况下自行施加了额外的运算次序,这并不符合普遍的约定。同时 OpenAI o3 还科普了一下在某些特性语境或旧式计算工具中,隐式乘法(如紧挨括号的乘法)普被视为比除法更高的优先級的情况,但这并不是普遍的数学教学标准。
整体来看,OpenAI o3 模型的回答结果也很让人满意,基本上和讯飞星火 X1 的回答是一个水平。
7、Grok 3
最后,还用马斯克自家的 Grok 3 深度思考模型进行了测试。Grok 3 的思考过程和前面的通义千问有点类似,都是先计算正确的结果,但是对争议点能不能把 2 (1 2) 看成整体的解释相对含糊。
不过在输出的结果中,Grok 3 的解释比思考过程更清晰,明确表示如果看作一个整体,应该写作 6 ÷ [2 (1 2)],这样一说就简洁明了了。
结语
总结一下,通过用马斯克贴出的这道引发热议的数学算式题,测试了 7 款大模型面对这一问题的思考和解答,总体来说,讯飞星火 X1 深度推理大模型和 OpenAI o3 的表现最为让人满意,无论是思考的过程还是答案的输出都比其他模型更加严谨、完善,同时对于“能不能把 2 (1 2) 看成一个整体优先计算”这一关键争议点的解释也更加详细和有理有据,能说到重点上,让人一看就能明白。
其次文心 X1 Turbo 模型的思考过程和回答输出也比较不错,让人能够一眼看懂。而 DeepSeek R1、腾讯混元 T1、Grok 3、豆包 1.5 的表现虽然也还可以,但或是在思考过程或是在回答输出方面都有改进的空间。通义千问方面对于争议点的解释在思考过程和回答输出方面都有些含糊。
当然,最后要说的是,这次小编只是借马斯克贴出的“出圈”数学题做了一次小测试,样本数有限,仅供大家参考,并不能用来评价各家大模型真实、全面的水平。同时也能看到如今 AI 大模型的深度推理能力确实有了很大的提升,思考推理的过程流畅自然,很像是人类的思考过程了,相信随着模型技术的持续发展,AI 能够帮助我们解决越来越多的问题,为我们的工作和生活带来更多的便利。
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,所有文章均包含本声明。