BlockSec挑战EVMBench：AI审计远未达到替代人类水平

链新社 • 1小时前 • 区块链 • 阅读 1

区块链安全公司BlockSec的最新研究发现，OpenAI和Paradigm联合开发的AI智能合约审计基准测试EVMBench可能过于乐观地评估了AI自动化替代人工监督的能力。

Table of Contents

重新评估AI审计能力

EVMBench曾测试AI代理在智能合约安全任务中的表现，包括检测、修补和利用漏洞，并报告了令人印象深刻的结果。今年2月，EVMBench开发者表示，AI能够利用72%并检测约45%的智能合约漏洞，使用了来自Code4rena审计的120个精选示例。

BlockSec决定重新测试这些结果，在其题为”重新评估EVMBench”的论文中指出，OpenAI和Paradigm的测试条件可能混淆了结果。

“EVMBench声称AI能够利用72%的智能合约漏洞，行业开始讨论完全自动化审计。我们使用更多配置和22个真实世界攻击事件重新测试。利用成功率：0%，”BlockSec联合创始人周亚金在X帖子中表示。

测试方法改进

研究人员将模型配置数量增加到26个，通过混合匹配不同机器人和模型架构，例如在ChatGPT架构上运行Claude。他们认为原始测试的14个代理配置主要将模型限制在其原生供应商架构中。

“你无法判断代理的性能反映的是模型能力还是架构优势，”他们指出。

此外，BlockSec对原始报告中的数据污染问题表示担忧，该报告测试了先前在40个Code4rena存储库中发布的已知漏洞，这些漏洞可能已经进入AI的训练数据。

为了解决这个问题，作者测试了机器人在22个真实世界安全事件上的表现，所有这些事件都发生在2026年2月中旬之后，”因此这些事件超出了每个模型的训练窗口。”

测试结果

最重要的是，作者发现，在他们测试的110个代理-事件对中，涉及五个代理运行相同的22个事件，零个端到端利用成功，这表明即使是最先进的AI也远未达到运行真实世界利用的水平。

尽管如此，BlockSec的ReEVMBench测试结果显示，AI漏洞检测结果与原始报告基本一致，Claude Opus 4.6表现最佳，捕获了20个真实世界漏洞中的13个。

“难度分布遵循清晰模式。六个事件几乎被所有代理检测到（87.5%到100%），涉及众所周知的模式，如卖出钩子储备操纵和未检查的乘法溢出。但有四个事件未被任何代理检测到，五个事件仅被八个代理中的一个检测到，”周亚金写道。

人类与AI协作的未来

“这些发现挑战了完全自动化AI审计即将到来的说法。代理可靠地捕捉众所周知的模式，并对人类提供的上下文做出强烈反应，但无法替代人类判断，”他补充道。

周亚金总结说，”EVMBench是一个有价值的贡献”，为加密安全行业提供了评估标准。他还表示，AI和人类研究人员已经在执行不同但同样有用的任务，相互补充对方的弱点。

“真正的问题不是’AI能否替代人类？’而是’人类和AI应该如何合作？’AI处理广度（系统扫描）；人类处理深度（协议知识、对抗性推理）。两者都无法完成对方的工作。结合在一起，它们形成了完整的审计能力，”周亚金写道。

“AI审计具有真正的价值，但替代人类还远未实现。正确的方向是人机协作，”他补充道。

本网站所有区块链相关数据与资料仅供用户学习及研究之用，不构成任何投资建议。转载请注明出处：https://www.lianxinshe666.com/2026/03/21/blocksec%e6%8c%91%e6%88%98evmbench%ef%bc%9aai%e5%ae%a1%e8%ae%a1%e8%bf%9c%e6%9c%aa%e8%be%be%e5%88%b0%e6%9b%bf%e4%bb%a3%e4%ba%ba%e7%b1%bb%e6%b0%b4%e5%b9%b3/

BlockSec挑战EVMBench：AI审计远未达到替代人类水平

重新评估AI审计能力

测试方法改进

测试结果

人类与AI协作的未来

相关推荐

相关推荐

英伟达CEO黄仁勋提议：AI代币作为职场货币和新员工福利

CertiK Web3安全公司加入全球关键框架，共同打击加密货币犯罪

Orbiter Finance革命性OpenClaw MCP工具包发布首日GitHub星标突破1000，引爆开发者社区

LumiWave主网上线：战略转向AI与现实世界资产代币化

革命性现实世界资产代币化：Figure Forge正式推出，连接传统金融与DeFi

发表回复