ChatGPT制造商OpenAI和专注于加密货币的投资公司Paradigm推出了EVMbench,这是一款旨在帮助提升以太坊虚拟机智能合约安全性的工具。

EVMbench旨在评估AI智能体在以太坊虚拟机智能合约中检测、修补和利用高严重性漏洞的能力。
智能合约是以太坊网络的核心,承载着从去中心化金融协议到代币发行的所有代码。根据Token Terminal的数据,2025年11月以太坊上部署的智能合约周数量达到历史最高点170万份,仅上周就部署了669,500份。
根据OpenAI的博客文章,EVMbench借鉴了来自40次审计的120个精选漏洞,大部分来自Code4rena等开源审计竞赛。它还包括了Tempo安全审计过程中的场景,Tempo是Stripe专注于高吞吐量、低成本稳定币支付的专用第一层区块链。
支付巨头Stripe于12月推出了Tempo的公共测试网,当时表示该网络正在Visa、Shopify和OpenAI等公司的参与下构建。
该公司的目标是基于具有经济意义的真实世界代码进行测试——特别是在AI驱动的稳定币支付不断扩展的情况下。
三种测试模式
EVMbench旨在通过三种模式评估AI模型:检测、修补和利用。在”检测”模式下,智能体审计代码库,并根据其对真实漏洞的召回率进行评分。在”修补”模式下,智能体必须消除漏洞而不破坏预期功能。最后,在”利用”阶段,智能体尝试在沙盒化的区块链环境中进行端到端的资金耗尽攻击,通过确定性交易重放进行评分。
在利用模式下,通过OpenAI的Codex CLI运行的GPT-5.3-Codex获得了72.2%的分数,而六个月前发布的GPT-5仅为31.9%。在检测和修补任务中表现较弱,智能体有时无法进行详尽审计,或难以保持完整的合约功能。

ChatGPT制造商的研究人员警告说,EVMbench并不能完全捕捉现实世界的安全复杂性。但他们补充说,随着模型成为攻击者和防御者的强大工具,在具有经济意义的环境中衡量AI性能至关重要。
Sam Altman的OpenAI和以太坊联合创始人Vitalik Buterin此前在AI发展速度上存在分歧。2025年1月,Altman表示他的公司”有信心我们知道如何构建我们传统上理解的AGI”。但Buterin主张AI系统应该包含”软暂停”功能,如果出现警告信号,可以暂时限制工业规模的AI操作。
本网站所有区块链相关数据与资料仅供用户学习及研究之用,不构成任何投资建议。转载请注明出处:https://www.lianxinshe666.com/2026/02/19/ai%e6%99%ba%e8%83%bd%e4%bd%93%e8%83%bd%e6%8f%90%e5%8d%87%e4%bb%a5%e5%a4%aa%e5%9d%8a%e5%ae%89%e5%85%a8%e6%80%a7%e5%90%97%ef%bc%9fopenai%e4%b8%8eparadigm%e5%88%9b%e5%bb%ba%e6%b5%8b%e8%af%95%e5%b9%b3/