开云体育

开云体育官方天塌了!苹果刚证实DeepSeek、o3、Claude等模型根本没有“推理”能力

2025-06-08
浏览次数:
返回列表

  开云体育[永久网址:363050.com]成立于2022年在中国,是华人市场最大的线上娱乐服务供应商而且是亚洲最大的在线娱乐博彩公司之一。包括开云、开云棋牌、开云彩票、开云电竞、开云电子、全球各地赛事、动画直播、视频直播等服务。开云体育,开云体育官方,开云app下载,开云体育靠谱吗,开云官网,欢迎注册体验!

开云体育官方天塌了!苹果刚证实DeepSeek、o3、Claude等模型根本没有“推理”能力

  苹果公司的新研究质疑了大型语言模型具有真正逻辑思维能力的假设,称其为“推理幻觉”。

  2.研究发现,当前推理模型在面对复杂问题时,其推理能力会“断崖式”崩溃,暴露出反直觉的“思考退化”现象。

  3.由于现有评测方法的缺陷,如数据污染和缺乏对思考过程的洞察,苹果研究团队转向更“纯净”的实验场——可控的解谜环境。

  4.通过对比思考模型与非思考模型在不同复杂度下的性能,研究揭示了三种性能境界:低复杂度区、中等复杂度区和高复杂度区。

  5.最后,苹果强烈建议改革大模型的评估范式,转向更可控、更深入的过程分析,以真正理解AI的能力边界。

  最新研究《思考的幻觉:通过问题复杂性视角理解推理模型的优势与局限》中,苹果对“大型语言模型已经具备真正的逻辑思维能力——即真正的“推理能力”——这一普遍存在的假设提出了质疑。苹果公司的研究人员看到的并非认知领域的突破,而是一种幻觉:这些模型仅仅创造了思考的印象,而实际上并没有稳定、可理解的思维过程

  这篇研究批评的核心点是:当前最前沿的推理模型,在面对真正复杂的问题时,其推理能力会“断崖式”崩溃,并且暴露出一种反直觉的“思考退化”现象,甚至连“照着算法抄作业”都做不好

  目前,评估AI推理要依赖于数学(如MATH、AIME)和编程等基准测试。然而,研究人员指出,这种方法存在两大弊端:

  数据污染(Data Contamination):这些基准测试的题目和答案很可能已经大量存在于模型的训练数据中。模型可能只是“记住”了答案,而非真正“推理”出答案。论文中的数据显示,模型在更新的AIME25数据集上的表现反而不如更早的AIME24,这与人类表现恰恰相反,强烈暗示了数据污染对评测结果的干扰

  缺乏对“思考过程”的洞察:最终答案的正确与否,无法告诉我们模型是如何思考的,其思维链是高效、严谨还是充满了冗余和错误

  为了摆脱这些“陷阱”,苹果的研究团队转向了一个更“纯净”的实验场——可控的解谜环境

  通过改变谜题的参数(如汉诺塔的盘子数量、过河问题的人数),研究人员可以精确地控制问题的组合复杂度,同时利用模拟器验证模型生成的每一步操作是否合规,从而深入剖析其完整的“思考轨迹”

  如图示意:研究人员不仅评估最终答案,还提取并分析模型在think标签内的中间步骤,以洞察其思维过程

  通过对一系列前沿模型(包括Claude 3.7 Sonnet、DeepSeek-R1及其对应的非思考版本)的详尽测试,研究得到了几个颠覆性的发现:

  当比较“思考”模型(LRM)和其标准LLM版本时,研究人员发现了三个截然不同的性能区间:

  低复杂度区:对于简单问题,标准模型反而更准确、更高效。LRM的“思考”显得多余和累赘

  中等复杂度区:随着问题变难,LRM生成长思维链的优势开始显现,其性能超越标准模型

  高复杂度区:当问题复杂度超过某个临界点,两种模型双双“崩溃”,准确率降至零。这表明,“思考”机制只是延缓了失败的到来,并未解决根本性的能力瓶颈

  如图5所示:在低、中、高三种复杂度下,思考模型与非思考模型的性能对比,清晰地展示了三个不同区间的表现

  准确率断崖式下跌:所有受测的LRM,在问题复杂度达到某个阈值后,准确率都会急剧下降至零

  反直觉的“思考退化”:更奇怪的是,在接近这个“崩溃点”时,模型用于思考的计算量(即生成的思考token数量)非但没有因问题变难而增加,反而开始显著减少

  如图示意:随着复杂度增加(横轴),模型准确率(上排)最终归零。与此同时,其思考长度(下排,以token计)在达到峰值后不增反降,仿佛在难题面前主动“放弃思考”

  这表明,模型似乎存在一个内在的“缩放限制”。当它“预感到”问题过于困难无法解决时,即便有充足的计算预算(token limit),它也会选择“躺平”,减少思考的努力

  简单问题“过度思考”(Overthinking):在解决简单谜题时,模型常常在很早的步骤就找到了正确答案,但之后仍会继续生成大量冗余甚至错误的探索,浪费了大量计算资源

  复杂问题“早期固执”(Early Fixation):在面对难题时,如果模型在早期犯了一个错误,它往往会固执地沿着错误的路径继续探索,很难自我纠正,最终导致失败。

  “抄作业”都不会:在汉诺塔任务中,研究人员直接在提示(prompt)中提供了完整的、一步不错的解题算法,要求模型仅仅是“执行”这个算法。结果显示,模型的表现没有任何改善,依然在相同的复杂度点上崩溃。这表明,模型的瓶颈不仅在于“规划”和“寻找”解决方案,更在于基础的、符号化的逻辑步骤执行与验证能力的缺失

  能力极度不均衡:Claude 3.7 Sonnet模型能正确解决需要上百步的汉诺塔问题,但在一个仅需11步的过河问题上却早早失败。这强烈暗示,模型的“推理能力”可能严重依赖于训练数据中的常见模式(汉诺塔是教科书级的经典问题),而非通用的、可泛化的逻辑推理能力

  当前LRM的“思考”机制,更像是一种复杂的启发式搜索或模式匹配,而非人类意义上的、可泛化的逻辑推理,这些模型在处理高组合复杂度问题时,会遭遇性能和“思考努力”的双重崩溃,这可能源于其架构的根本限制,

  当前大模型的评估范式亟待革新:我们必须超越依赖于可能被污染的基准测试和最终答案准确率的评估方法,转向更可控、更深入的过程分析,才能真正理解AI的能力边界

搜索