BlockSec挑战EVMBench:AI审计远未达到替代人类水平

BlockSec重新测试OpenAI和Paradigm的EVMBench基准,发现AI在真实世界智能合约漏洞利用中成功率为0%。研究表明,虽然AI能检测已知漏洞模式,但无法替代人类审计师的深度协议知识和对抗性推理能力,强调人机协作才是未来方向。

区块链安全公司BlockSec的最新研究发现,OpenAI和Paradigm联合开发的AI智能合约审计基准测试EVMBench可能过于乐观地评估了AI自动化替代人工监督的能力。

AI人工智能

重新评估AI审计能力

EVMBench曾测试AI代理在智能合约安全任务中的表现,包括检测、修补和利用漏洞,并报告了令人印象深刻的结果。今年2月,EVMBench开发者表示,AI能够利用72%并检测约45%的智能合约漏洞,使用了来自Code4rena审计的120个精选示例。

BlockSec决定重新测试这些结果,在其题为”重新评估EVMBench”的论文中指出,OpenAI和Paradigm的测试条件可能混淆了结果。

“EVMBench声称AI能够利用72%的智能合约漏洞,行业开始讨论完全自动化审计。我们使用更多配置和22个真实世界攻击事件重新测试。利用成功率:0%,”BlockSec联合创始人周亚金在X帖子中表示。

测试方法改进

研究人员将模型配置数量增加到26个,通过混合匹配不同机器人和模型架构,例如在ChatGPT架构上运行Claude。他们认为原始测试的14个代理配置主要将模型限制在其原生供应商架构中。

“你无法判断代理的性能反映的是模型能力还是架构优势,”他们指出。

此外,BlockSec对原始报告中的数据污染问题表示担忧,该报告测试了先前在40个Code4rena存储库中发布的已知漏洞,这些漏洞可能已经进入AI的训练数据。

为了解决这个问题,作者测试了机器人在22个真实世界安全事件上的表现,所有这些事件都发生在2026年2月中旬之后,”因此这些事件超出了每个模型的训练窗口。”

测试结果

最重要的是,作者发现,在他们测试的110个代理-事件对中,涉及五个代理运行相同的22个事件,零个端到端利用成功,这表明即使是最先进的AI也远未达到运行真实世界利用的水平。

尽管如此,BlockSec的ReEVMBench测试结果显示,AI漏洞检测结果与原始报告基本一致,Claude Opus 4.6表现最佳,捕获了20个真实世界漏洞中的13个。

“难度分布遵循清晰模式。六个事件几乎被所有代理检测到(87.5%到100%),涉及众所周知的模式,如卖出钩子储备操纵和未检查的乘法溢出。但有四个事件未被任何代理检测到,五个事件仅被八个代理中的一个检测到,”周亚金写道。

人类与AI协作的未来

“这些发现挑战了完全自动化AI审计即将到来的说法。代理可靠地捕捉众所周知的模式,并对人类提供的上下文做出强烈反应,但无法替代人类判断,”他补充道。

周亚金总结说,”EVMBench是一个有价值的贡献”,为加密安全行业提供了评估标准。他还表示,AI和人类研究人员已经在执行不同但同样有用的任务,相互补充对方的弱点。

“真正的问题不是’AI能否替代人类?’而是’人类和AI应该如何合作?’AI处理广度(系统扫描);人类处理深度(协议知识、对抗性推理)。两者都无法完成对方的工作。结合在一起,它们形成了完整的审计能力,”周亚金写道。

“AI审计具有真正的价值,但替代人类还远未实现。正确的方向是人机协作,”他补充道。

本网站所有区块链相关数据与资料仅供用户学习及研究之用,不构成任何投资建议。转载请注明出处:https://www.lianxinshe666.com/2026/03/21/blocksec%e6%8c%91%e6%88%98evmbench%ef%bc%9aai%e5%ae%a1%e8%ae%a1%e8%bf%9c%e6%9c%aa%e8%be%be%e5%88%b0%e6%9b%bf%e4%bb%a3%e4%ba%ba%e7%b1%bb%e6%b0%b4%e5%b9%b3/

(0)
链新社的头像链新社
内华达州成为首个禁止预测市场平台Kalshi的州——至少目前如此
上一篇 1小时前
巨鲸警报:2.5亿美元USDC新铸入市,市场密切关注流动性动向
下一篇 43分钟前

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

风险提示:理性看待区块链,提高风险意识!