苹果近日发表了一篇研究论文,称推理模型全都没真正思考,无论DeepSeek、o3-mini还是Claude 3.7都只是另一种形式的“模式匹配”,所谓思考只是一种假象。
为了更客观测试推理模型的推理能力,他们设计了4类谜题环境:汉诺塔、跳棋交换、过河问题、积木世界,并且这4类谜题的难度可以精确控制。
随着问题变难,推理模型初始会延长思考,但随后思考深度反而下降,尽管仍有充足token预算,它们却在最需要深入思考时选择了放弃。并且,当问题复杂度继续增加并超过某个临界点时,无论是推理模型还是标准模型都会经历完全的性能崩溃,准确率直线下降至零。
对此,有网友讽刺到:“苹果拥有最多的资金,2年了也没有拿出像样的成果,现在自己落后了,却来否定别人的成果。”
据悉,Apple Intelligence在2024年WWDC正式亮相,在这一年里,苹果宣传中的许多功能都经历延期、不够完善甚至被下架。不过也有人指出,这篇论文没有看上去那么消极,而是呼吁设立更好的推理机制和评估办法。
《仙剑4 重制版》新实机预热:虚幻5开发 登PC和主机
网红甲亢哥被做进游戏!本人笑得合不拢嘴
放假玩游戏的人太多了!Steam遭遇平安夜大崩溃
顺眼多了?剧版《美末》艾莉演员被AI换脸
五年后才发现!《最后生还者2》被删机制曝光
你说快手限时快播是啥意思?打赏主播停不下来的囧图