忘记AGI吧——顶级AI模型在数学方面仍然挣扎

最新MATHVISTA基准测试显示,包括GPT-4V在内的12个顶级AI模型在视觉数学推理方面仍落后人类10.4个百分点。研究人员指出,实现AGI可能更依赖高质量训练数据而非模型规模,数据污染问题也影响评估准确性。

最新基准测试研究结果显示,领先的AI模型在视觉数学推理方面仍然落后于人类。

Source: Decrypt

人工通用智能(AGI)通常被描述为能够像人类一样在许多领域执行任务的系统。本周发布的MATHVISTA基准测试结果显示,当前模型仍然达不到这一目标。

来自微软研究院、Sahara AI和埃默里大学的研究人员测试了通用智能的核心能力——基于视觉信息的数学推理,包括图表、图形和图表。

在测试的12个基础模型中,包括ChatGPT、Gemini和Claude,GPT-4 Vision得分最高,为49.9%。人类参与者的平均得分为60.3%,突显了当前AI系统与通常与AGI相关的更广泛推理能力之间的差距。

微软研究院首席研究员郝成告诉《Decrypt》:“我们希望机器能够做普通人日常任务能做的事情。这基本上就是每个人追求AGI的目标。”

通过将问题放入图像、图表和图形中,该项目测试模型是否能准确解释视觉信息并解决多步骤的数学和逻辑问题——这些技能超越了仅基于文本的模式匹配。

模型在这些任务上仍然存在困难,衡量这种局限性也很困难。

AI robots. Image: Decrypt

MathVista于2023年10月在GitHub和Hugging Face上发布。根据微软研究院的数据,自那时以来,它已被下载超过275,000次,其中过去一个月下载超过13,000次。

然而,创建这个数据集需要的不仅仅是标准的数据标注。微软研究院需要能够处理算术、代数、几何和统计学问题的标注员,同时区分更深层次的数学推理(如解释图形或解方程)与更简单的任务(如计数对象或读取数字)。

在试点阶段后,微软选择了Sahara AI来支持这项工作。该公司提供了训练有素的标注员、定制工作流程和多阶段质量检查,以生成基准测试中使用的6,000多个多模态示例。

Sahara AI首席执行官、南加州大学计算机科学副教授肖恩·任表示,如果没有可靠的基准测试,衡量更广泛机器智能的进展将变得困难。

“存在数据污染的细微差别,一旦我们开始使用这个数据集进行测试,这些结果就会被吸收到下一个版本中,”任告诉《Decrypt》。“所以你无法真正知道它们是在解决数据集,还是具备这种能力。”

如果基准测试答案出现在模型的训练数据中,高分可能反映的是记忆而不是推理。这使得确定AI系统是否真正改进变得更加困难。

Tesla founder and X CEO Elon Musk. Image: Shutterstock/Decrypt

研究人员还指出了训练数据的局限性。大部分公开可用的互联网内容已经被纳入模型数据集中。

“你肯定需要某种方式将一些新知识注入这个过程,”郝成说。“我认为这种事情必须来自高质量的数据,这样我们才能真正突破这个知识边界。”

一个提议的路径涉及模拟环境,模型可以在其中互动、从经验中学习并通过反馈改进。

“你在某个沙盒中创建一个孪生世界或真实世界的镜像,这样模型就可以玩耍并做很多人类在现实生活中做的事情,这样它基本上就可以突破互联网的边界,”郝成说。

任表示,人类在改进AI系统方面可能仍然扮演重要角色。虽然模型可以快速生成内容,但人类在评估内容方面仍然更胜一筹。

“人类和AI之间的这种差距——它们擅长什么,不擅长什么——可以用来真正改进未来的AI,”他说。

本网站所有区块链相关数据与资料仅供用户学习及研究之用,不构成任何投资建议。转载请注明出处:https://www.lianxinshe666.com/2026/03/18/%e5%bf%98%e8%ae%b0agi%e5%90%a7-%e9%a1%b6%e7%ba%a7ai%e6%a8%a1%e5%9e%8b%e5%9c%a8%e6%95%b0%e5%ad%a6%e6%96%b9%e9%9d%a2%e4%bb%8d%e7%84%b6%e6%8c%a3%e6%89%8e/

(0)
链新社的头像链新社
SEC与CFTC联合声明:大多数加密资产不属于证券
上一篇 1小时前
Streamex估值过高?黄金代币化项目面临多重挑战
下一篇 17分钟前

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

风险提示:理性看待区块链,提高风险意识!