基准测试
-
忘记AGI吧——顶级AI模型在数学方面仍然挣扎
最新MATHVISTA基准测试显示,包括GPT-4V在内的12个顶级AI模型在视觉数学推理方面仍落后人类10.4个百分点。研究人员指出,实现AGI可能更依赖高质量训练数据而非模型规模,数据污染问题也影响评估准确性。
最新MATHVISTA基准测试显示,包括GPT-4V在内的12个顶级AI模型在视觉数学推理方面仍落后人类10.4个百分点。研究人员指出,实现AGI可能更依赖高质量训练数据而非模型规模,数据污染问题也影响评估准确性。