OpenAI正式进入千亿资产安全战场:EVMbench发布,智能合约审计范式生变

2 小时前
11542


2026年2月18日,OpenAI与加密投资机构Paradigm联合发布了一款名为EVMbench的基准测试工具。根据HEAL Security的报道,这套工具旨在评估AI代理在以太坊虚拟机环境中发现、修补和利用智能合约漏洞的能力,其背后是价值超过1000亿美元的开源加密资产安全需求。这条新闻在AI圈并未激起太大水花,但在区块链安全领域,它被视为一个历史性信号:AI正式进入价值超千亿美元的链上资产安全战场。


EVMbench并非一款商业产品,而是一套衡量AI代理安全能力的“考卷”。据AI Business报道,该基准测试收录了来自40次专业审计的120个高危漏洞案例,多数取自Code4rena等公开审计竞赛平台。更值得关注的是,它纳入了Tempo区块链的多个漏洞场景——Tempo是由Stripe和Paradigm为稳定币支付专门构建的Layer 1区块链,这意味着EVMbench的触角已经伸向了支付导向的智能合约领域,而这正是RWA与稳定币交汇的核心地带。


测试结果令人震撼。根据eWEEK的报道,最新的GPT-5.3-Codex在“漏洞利用”模式下的成功率高达72.2%,而仅仅六个月前发布的GPT-5在同一测试中得分仅为31.9%。这组数字背后,是一场正在发生的范式变革:智能合约审计,这个守护千亿资产的关键防线,正在从“人力密集型”走向“AI增强型”。对于正在从概念验证迈向规模化部署的RWA而言,这一变革的影响将远超技术本身。



一、三份考卷,测出AI的安全功底


EVMbench的设计逻辑,本质上是将智能合约安全的完整工作流拆解为三个递进的能力层级。据HEAL Security报道,这三种模式分别对应着安全工作的不同阶段:检测模式要求AI代理审计智能合约代码库,并基于对已知漏洞的召回率进行评分;修补模式要求AI在修复漏洞的同时保持合约原有功能完整,通过自动化测试和漏洞利用检查来验证;利用模式则最为激进——AI代理必须在沙盒化的区块链环境中执行端到端的资金窃取攻击,通过交易重放和链上验证来评分。


这种设计的高明之处在于,它不是在测试AI的“知识点”,而是在测试AI的“工作流”。台湾科技大学的分析指出,检测对应审计能力,修补对应开发能力,利用对应攻击理解能力——三者构成了一个完整的安全能力闭环。OpenAI为此开发了一套基于Rust语言的测试架构,可以确定性部署合约并限制不安全的RPC方法,所有利用任务都在隔离的本地Anvil环境中运行,而非真实网络。


特别值得注意的是EVMbench的题库构成。据Bitcoin.com报道,这120个漏洞案例不仅来自通用的DeFi协议审计,还专门纳入了Tempo区块链的多个漏洞场景。AI Business分析指出,Tempo是为稳定币支付设计的高吞吐量Layer 1区块链,将这些场景纳入评测范围,意味着EVMbench已经将目光投向了未来AI代理与稳定币支付系统深度融合的安全需求。当AI代理自主执行支付、管理资产时,这些场景的覆盖面恰恰是RWA生态最关心的部分。



二、72%的攻击成功率,AI更会进攻还是防守


EVMbench的测试结果揭示了一个耐人寻味的现象:AI在“攻击”上的表现远超“防守”。根据HEAL Security的数据,在利用模式下,GPT-5.3-Codex达到了72.2%的成功率;但在检测模式下,AI往往在找到第一个漏洞后就停止深入,难以完成全面的代码审计。OpenAI对此的解释是,利用模式的目标足够明确——“直到资金被完全抽干为止”,这让AI可以不断迭代尝试;而检测模式需要的是“全面覆盖”,这是当前AI的短板。


eWEEK的报道进一步印证了这一判断。报道援引测试数据称,最好的模型在漏洞检测上仅能捕捉约46%的漏洞,而在修补模式下,成功率也只有39%左右。但当给AI一个关于漏洞位置的小提示时,修补成功率会从39%跃升至94%。这一发现揭示了一个关键结论:当前AI能力的瓶颈不在于技能本身,而在于搜索范围——人类提供上下文后,AI的表现会大幅提升。


这一发现对RWA生态有着深刻的警示意义。攻击者可能比防守者更快利用AI——如果AI能以72%的成功率复现攻击路径,那么黑产团队没有理由不部署同样的能力。审计的逻辑也在被改变:传统审计是“找漏洞”,未来审计可能是“验证AI没找到的漏洞”。速度正在成为新的安全变量,漏洞从被发现到被利用的时间窗口正在被AI急剧压缩。


OpenAI在发布EVMbench的同时,也宣布将通过其网络安全资助计划提供1000万美元的API额度,支持防御性安全研究,特别是针对开源软件和关键基础设施的研究。公司还扩大了其安全研究代理Aardvark的测试范围,并与开源维护者合作提供免费代码扫描服务。这释放了一个明确信号:防御方正在与时间赛跑。



三、冷静的声音:学术界和安全公司的质疑


然而,EVMbench发布后不久,来自学术界和产业界的质疑声也随之而来。2026年3月11日,arXiv平台上发布了一篇题为《Re-Evaluating EVMBench: Are AI Agents Ready for Smart Contract Security?》的论文,对EVMbench的结论进行了重新评估。


这篇由Chaoyuan Peng等人撰写的论文指出,EVMbench存在两个关键局限:一是评估范围狭窄,仅测试了14种代理配置,且大多数模型仅在其供应商提供的框架上测试;二是依赖的审计竞赛数据发布时间早于所有模型的发布截止日期,模型可能在训练阶段已经接触过这些数据。为弥补这些局限,研究者将测试扩展到26种配置,覆盖四个模型家族和三种框架,并引入了一个全新的、不包含数据污染的真实安全事件数据集——22个发生在所有模型发布日期之后的安全事件。


研究得出三个重要发现。第一,AI代理的检测结果并不稳定,在不同配置、任务和数据集上的排名会发生显著变化。第二,在真实安全事件上,没有任何AI代理能在全部110个代理-事件组合中实现端到端的成功利用——尽管它们最多能检测出65%的漏洞,但这与EVMbench得出的“漏洞发现是主要瓶颈”的结论相矛盾。第三,框架选择对结果影响显著,一个开源框架的表现比供应商提供的框架高出5个百分点,但EVMbench并未对此进行控制。


与此同时,知名区块链安全公司OpenZeppelin也对EVMbench提出了尖锐批评。据Cointelegraph中文报道,OpenZeppelin在对EVMbench进行审计后发现,数据集中存在训练数据泄露,以及至少四项被标记为高严重性的漏洞在实际操作中并不可利用。OpenZeppelin在X平台发文指出,所有高分AI代理“很可能在预训练阶段已接触到与基准测试相关的漏洞报告”,因为这些漏洞均来自2024年到2025年中期的审计,而AI代理的知识截止时间通常设定在2025年中期。


这些质疑共同指向一个结论:完全自动化的AI审计尚未到来。正如arXiv论文所言,AI能够可靠地捕捉已知模式,并对人类提供的上下文做出强烈响应,但无法替代人类的判断。对于开发者而言,AI扫描可以作为预部署检查工具;对于审计机构而言,AI最有效的定位是“人机协同”——由AI负责广度覆盖,人类审计师贡献协议特定的知识和对抗性推理。



四、千亿资产的守门人,RWA需要怎样的安全


智能合约管理着超过1000亿美元的链上资产,这是EVMbench发布的背景数据。但更值得关注的是,这1000亿美元正在发生结构性变化——RWA的崛起正在将传统金融资产带入链上。当国债、信贷、房地产等现实世界资产以代币化形式上链时,安全的内涵被重新定义。


对于RWA项目方面言,智能合约的漏洞不再是“币圈内部损失”,而是直接指向现实资产的损失。这意味着安全审计的标准必须向传统金融看齐。据AI Business报道,麦肯锡预测到2028年,已发行稳定币的总价值将达到2万亿美元。在这个规模下,安全不再只是技术问题,而是资产负债表的直接风险。项目方需要重新评估现有审计流程,探索AI审计工具的嵌入路径——不是用AI完全替代人类,而是让AI完成广度覆盖,人类聚焦协议特定逻辑和对抗性推理。


对于审计机构而言,OpenAI承诺提供的1000万美元API额度支持防御性安全研究,这是一个明确的信号:AI审计不是来替代审计师的,而是来武装审计师的。未来,能够驾驭AI的审计团队将获得指数级的能力提升。正如arXiv论文所言,AI在检测模式下的不稳定性恰恰说明,人类审计师的专业判断在当前阶段不可或缺。AI处理已知模式的识别,人类负责边界案例和创新性漏洞的发现,这种分工正在成为行业共识。


对于上市公司而言,当企业将资产以RWA形式上链融资时,智能合约的安全性直接关系到企业的资产负债表。据Blockchain.news报道,随着AI代理在漏洞利用上能力的提升,漏洞发现到被利用的时间窗口正在急剧缩短——那些不使用AI辅助审计的协议团队,将越来越处于劣势。“合约被黑客攻击”将从技术风险上升为财务风险,董事会需要对此有清晰的认知。这不仅是技术部门的职责,更是战略层面的风险管理议题。



五、人机协同,才是这场变革的终局答案


基于上述分析,我们可以从三个层面提炼出这场范式变革的战略启示。


技术层面,人机协同是未来范式。arXiv论文的结论值得反复强调:AI无法替代人类判断,但可以作为“预部署检查工具”发挥最大价值。对于RWA项目而言,最优策略是将AI审计嵌入开发流程——在代码编写阶段就引入AI辅助扫描,在上线前由人类审计师进行最终把关。正如eWEEK的分析所指出的,AI在获得小提示后修补成功率可从39%跃升至94%,这意味着人类审计师可以将有限精力集中在AI难以把握的核心逻辑上。


认知层面,安全成本的定义正在被重塑。传统观念中,安全审计是上线前的“一次性投入”。但在AI代理经济崛起的背景下,攻击可以24小时自动化进行,安全也必须成为持续性的实时监控。HEAL Security的报道指出,EVMbench的发布正值AI代理在代码编写和规划能力上飞跃的节点,未来这些模型将在区块链的攻击与防御两端扮演转型角色。这意味着项目方需要建立持续监控机制,而非仅在发布前做一次审计。


合规层面,守住红线与用好工具必须兼顾。对于RWA研究院的中国大陆读者而言,EVMbench的讨论必须在42号文“境内严禁、境外备案”的框架下进行。本文讨论的AI审计工具聚焦于技术趋势和防御性应用,绝不构成对境内合约的操作建议。但当中国企业通过香港合规通道发行RWA时,采用AI增强的审计能力,将是与国际标准接轨的必然要求。香港稳定币牌照的落地,恰恰为这种合规探索提供了通道。



结语


2026年,数字文明正在经历AB面的深度融合:AI作为极致生产力,区块链作为先进生产关系。EVMbench的发布,是这两条主线在资产安全这一关键节点上的首次交汇。


72.2%的攻击成功率是一个警钟:AI的漏洞利用能力正在指数级提升,留给防守方的时间窗口正在缩短。但1000万美元的防御投入也是一个承诺:AI同样可以被用来守护资产,关键在于我们如何驾驭它。arXiv论文的结论为这种驾驭提供了方向——AI无法替代人类,但可以成为最得力的助手。OpenZeppelin的批评则提醒我们,工具的构建和评估必须与被保护的合约达到同等标准。


对于RWA生态而言,安全从来不是技术选项,而是生存底线。当千亿资产从物理世界走向数字空间时,AI与人类的协同审计,或许就是那道最后的防线。站在临界点上,那些率先将AI审计工具嵌入开发流程的项目,将在这场攻防速度战中占据先机;而那些等到监管完全明朗才行动的企业,可能会发现窗口期已经关闭。


本文讨论的AI审计技术适用于境外合规框架,不构成境内操作建议。对于中国企业而言,在香港合规通道下探索AI增强的RWA安全实践,将是与全球标准接轨的必由之路。



参考资料:

  1. HEAL Security, OpenAI Launches EVMbench to Detect, Patch, and Exploit Vulnerabilities in Blockchain Environments, 2026年2月18日
  2. 台湾科技大学, OpenAI與Paradigm合推基準測試EVMbench,評測AI代理智慧合約漏洞攻防能力, 2026年2月24日
  3. eWEEK, OpenAI Just Showed That AI Can Drain a Crypto Wallet… on Purpose, 2026年2月19日
  4. arXiv:2603.10795, Re-Evaluating EVMBench: Are AI Agents Ready for Smart Contract Security?, 2026年3月11日
  5. AI Business, OpenAI Aims for Stablecoin Market with New EVMbench, 2026年2月23日
  6. Blockchain.News, OpenAI and Paradigm Launch EVMbench to Test AI Smart Contract Hacking, 2026年3月5日
  7. Cointelegraph中文, OpenZeppelin:OpenAI的EVMbench存在数据污染问题, 2026年3月3日
  8. Bitcoin.com, OpenAI and Paradigm Launch EVMbench to Measure AI Smart Contract Security, 2026年2月18日