周四,苹果公司的一组研究人员发布了一篇名为《理解大型语言模型中数学推理的局限性》的论文,揭示 LLM 在解决数学问题时容易受到干扰。注意到,研究人员通过对数学问题的微小改动,例如添加无关的信息,来测试 LLM 的推理能力。结果发现,这些模型在面对这样的变化时,其表现急剧下降。
例如,当研究人员给出一个简单的数学问题:“奥利弗星期五摘了 44 个奇异果,星期六摘了 58 个奇异果。星期日,他摘的奇异果是星期五的两倍。奥利弗一共摘了多少个奇异果?”时,LLM 能够正确地计算出答案。然而,当研究人员添加一个无关的细节,“星期日,他摘的奇异果是星期五的两倍,其中 5 个比平均小”时,LLM 的回答却出现了错误。例如,GPT-o1-mini 的回答是:“... 星期日,其中 5 个奇异果比平均小。我们需要从星期日的总数中减去它们:88(星期日的奇异果) - 5(较小的奇异果) = 83 个奇异果。”
上面只是一个简单的例子,研究人员修改了数百个问题,几乎所有问题都导致模型的回答成功率大幅下降。
研究人员认为,这种现象表明 LLM 并没有真正理解数学问题,而是仅仅根据训练数据中的模式进行预测。但一旦需要真正的“推理”,例如是否计算小的奇异果,它们就会产生奇怪的、不合常理的结果。
这一发现对 AI 的发展具有重要的启示。虽然 LLM 在许多领域表现出色,但其推理能力仍然存在局限性。未来,研究人员需要进一步探索如何提高 LLM 的推理能力,使其能够更好地理解和解决复杂的问题。(远洋)
董理斌:AI如何破解难题,重塑各行各业的未来?
消息称苹果App Store将推AI评论摘要,助用户找到最值得下载的App
贾扬清预言:AI推理成本明年再降10倍,一两年内或将低于人工费?
尼尔森IQ×饿了么:OAIPL即时零售新方法论,解锁增长新密码?
苹果牌AI计划2025年4月更新支持中文等语言
苹果 iOS / iPadOS 18.1 正式版如期而至,AI功能重磅上线!
金蝶苍穹APP发布,AI布局再添新篇章!
中国信通院金键:如何打造AI时代的标识数字新基建?
厉害猫AI火了,互联网巨头阿里、字节、百度、腾讯为何纷纷关注?
一周热点汇总:苹果AI落后行业巨头超2年,特斯拉股价创11年来最大涨幅
湘ICP备19005331号-4copyright?2018-2024
guofenkong.com 版权所有
果粉控是专业苹果设备信息查询平台
提供最新的IOS系统固件下载
相关APP应用及游戏下载,绿色无毒,下载速度快。
联系邮箱:guofenkong@163.com