资讯在沃

当前位置：沃资讯 > 科技 > 正文内容

苹果研究员质疑AI：简单数学题一改就出错？

发布时间：2024-10-12 11:32 来源：ITBEAR 作者：沈如风

近年来，人工智能（AI）在各个领域取得了显著进展，尤其是大型语言模型（LLM），它们能够生成人类水平的文本，甚至在某些任务上超越人类。然而，一项新研究对LLM的推理能力提出了质疑。苹果公司的一组研究人员发现，这些模型在解决简单数学问题时，只要问题稍有变动，就容易出错，暗示它们可能并不具备真正的逻辑推理能力。

研究人员在一篇名为《理解大型语言模型中数学推理的局限性》的论文中揭示了LLM在解决数学问题时易受干扰的现象。他们通过对数学问题进行微小改动，例如添加无关信息，来测试LLM的推理能力。结果发现，面对这样的变化，模型的表现急剧下降。

例如，当给出一个简单的数学问题：“奥利弗星期五摘了44个奇异果，星期六摘了58个。星期日，他摘的是星期五的两倍。他一共摘了多少个？”LLM能正确回答。但若添加无关细节：“星期日摘的是星期五的两倍，其中5个比平均小。”LLM的回答则出错。GPT-o1-mini的回答是：“...星期日，其中5个奇异果比平均小。我们需要从总数中减去它们：88 - 5 = 83个。”

这只是一个例子，研究人员修改了数百个问题，几乎所有改动都导致模型回答成功率大幅下降。他们认为，这表明LLM并未真正理解数学问题，而只是根据训练数据中的模式进行预测。一旦需要真正的“推理”，如是否计算小的奇异果，它们就会产生不合常理的结果。

这一发现对AI的发展具有启示意义。尽管LLM在许多领域表现出色，但其推理能力仍有局限。未来，研究人员需进一步探索如何提高LLM的推理能力，使其更好地理解和解决复杂问题。

更多>同类内容

vivo X200s新机亮相：直屏设计搭配蔡司影像，性能如何？

04-22

AMD Zen5c内核亮相：3nm工艺，16核共享32MB三级缓存，性能如何？

04-22

迪拜出租车公司大动作！比亚迪海豹电动车型喜提200辆订单

04-22

荣耀GT Pro来袭：2700Hz瞬时触控采样率，性能新巅峰即将揭晓！

04-22

宜兴高铁关键工程合龙，武汉至重庆将迈入4小时经济圈

04-22

iPhone 17 Pro将推天空蓝配色，能否超越远峰蓝成为新神作？

04-22

苹果Vision Pro头显专利：FaceTime虚拟形象逼真技术大揭秘

04-22

极氪9X旗舰SUV官图曝光，设计酷似库里南，售价或破百万

04-22

iQOO Neo 10S获认证：2K屏+7000mAh电池，骁龙8至尊版性能如何？

04-22

REDMI Turbo 4 Pro震撼来袭！首发骁龙8s，性能跑分突破240万

04-22

仰望U8L加长版豪华亮相，上海车展即将开启“大”有不同之旅！

04-22

鸿蒙微信新版本邀测：功能再升级，拉黑、桌面小程序等新特性来袭

04-22

REDMI Turbo 4 Pro强悍来袭！首发骁龙8s跑分超240万

04-22

Win10（MBR）如何无损升级Win11（GPT）？详细步骤来了！

04-22

英伟达576.02驱动遭吐槽：显卡温度读取错误何时能解？

04-22

点击查看更多 +

全站最新

极氪9X旗舰SUV官图曝光，设计酷似库里南，售价或破百万

极氪9X旗舰SUV官图曝光，设计酷似库里南，售价或破百万

vivo X200s新机亮相：直屏设计搭配蔡司影像，性能如何？

vivo X200s新机亮相：直屏设计搭配蔡司影像，性能如何？

AMD Zen5c内核亮相：3nm工艺，16核共享32MB三级缓存，性能如何？

AMD Zen5c内核亮相：3nm工艺，16核共享32MB三级缓存，性能如何？

2025年第一季度中国SUV销量揭晓：特斯拉Model Y力压群雄夺冠！

2025年第一季度中国SUV销量揭晓：特斯拉Model Y力压群雄夺冠！

华为Mate 80系列12月将上市？全系直屏设计引关注

华为Mate 80系列12月将上市？全系直屏设计引关注

世界最大全电驱环保绞吸船“浚澜”正式上岗，我国水利疏浚添利器！

世界最大全电驱环保绞吸船“浚澜”正式上岗，我国水利疏浚添利器！

三星新专利：垂直卷轴屏手机来袭，能否量产成悬念？

三星新专利：垂直卷轴屏手机来袭，能否量产成悬念？

华硕新机箱AP202“灵光岛”亮相：悬浮海景房设计，弧面玻璃超吸睛！

华硕新机箱AP202“灵光岛”亮相：悬浮海景房设计，弧面玻璃超吸睛！

热门内容

本栏最新

vivo X200s新机亮相：直屏设计搭配蔡司影像，性能如何？

vivo X200s新机亮相：直屏设计搭配蔡司影像，性能如何？

AMD Zen5c内核亮相：3nm工艺，16核共享32MB三级缓存，性能如何？

AMD Zen5c内核亮相：3nm工艺，16核共享32MB三级缓存，性能如何？

迪拜出租车公司大动作！比亚迪海豹电动车型喜提200辆订单

迪拜出租车公司大动作！比亚迪海豹电动车型喜提200辆订单

荣耀GT Pro来袭：2700Hz瞬时触控采样率，性能新巅峰即将揭晓！

荣耀GT Pro来袭：2700Hz瞬时触控采样率，性能新巅峰即将揭晓！

宜兴高铁关键工程合龙，武汉至重庆将迈入4小时经济圈

宜兴高铁关键工程合龙，武汉至重庆将迈入4小时经济圈

iPhone 17 Pro将推天空蓝配色，能否超越远峰蓝成为新神作？

iPhone 17 Pro将推天空蓝配色，能否超越远峰蓝成为新神作？

苹果Vision Pro头显专利：FaceTime虚拟形象逼真技术大揭秘

苹果Vision Pro头显专利：FaceTime虚拟形象逼真技术大揭秘

极氪9X旗舰SUV官图曝光，设计酷似库里南，售价或破百万

极氪9X旗舰SUV官图曝光，设计酷似库里南，售价或破百万

沃资讯门户 · 资讯在沃千万用户的默认资讯主页合作微信：netspread（注明:沃资讯）
Copyright © wwo.com.cn All rights reserved. 鲁ICP备11015305号-23