2026年2月18日,OpenAI与加密投资机构Paradigm联合发布了一款名为EVMbench的基准测试工具。根据HEAL Security的报道,这套工具旨在评估AI代理在以太坊虚拟机环境中发现、修补和利用智能合约漏洞的能力,其背后是价值超过1000亿美元的开源加密资产安全需求。这条新闻在AI圈并未激起太大水花,但在区块链安全领域,它被视为一个历史性信号:AI正式进入价值超千亿美元的链上资产安全战场。
EVMbench并非一款商业产品,而是一套衡量AI代理安全能力的“考卷”。据AI Business报道,该基准测试收录了来自40次专业审计的120个高危漏洞案例,多数取自Code4rena等公开审计竞赛平台。更值得关注的是,它纳入了Tempo区块链的多个漏洞场景——Tempo是由Stripe和Paradigm为稳定币支付专门构建的Layer 1区块链,这意味着EVMbench的触角已经伸向了支付导向的智能合约领域,而这正是RWA与稳定币交汇的核心地带。
测试结果令人震撼。根据eWEEK的报道,最新的GPT-5.3-Codex在“漏洞利用”模式下的成功率高达72.2%,而仅仅六个月前发布的GPT-5在同一测试中得分仅为31.9%。这组数字背后,是一场正在发生的范式变革:智能合约审计,这个守护千亿资产的关键防线,正在从“人力密集型”走向“AI增强型”。对于正在从概念验证迈向规模化部署的RWA而言,这一变革的影响将远超技术本身。

EVMbench的设计逻辑,本质上是将智能合约安全的完整工作流拆解为三个递进的能力层级。据HEAL Security报道,这三种模式分别对应着安全工作的不同阶段:检测模式要求AI代理审计智能合约代码库,并基于对已知漏洞的召回率进行评分;修补模式要求AI在修复漏洞的同时保持合约原有功能完整,通过自动化测试和漏洞利用检查来验证;利用模式则最为激进——AI代理必须在沙盒化的区块链环境中执行端到端的资金窃取攻击,通过交易重放和链上验证来评分。
这种设计的高明之处在于,它不是在测试AI的“知识点”,而是在测试AI的“工作流”。台湾科技大学的分析指出,检测对应审计能力,修补对应开发能力,利用对应攻击理解能力——三者构成了一个完整的安全能力闭环。OpenAI为此开发了一套基于Rust语言的测试架构,可以确定性部署合约并限制不安全的RPC方法,所有利用任务都在隔离的本地Anvil环境中运行,而非真实网络。
特别值得注意的是EVMbench的题库构成。据Bitcoin.com报道,这120个漏洞案例不仅来自通用的DeFi协议审计,还专门纳入了Tempo区块链的多个漏洞场景。AI Business分析指出,Tempo是为稳定币支付设计的高吞吐量Layer 1区块链,将这些场景纳入评测范围,意味着EVMbench已经将目光投向了未来AI代理与稳定币支付系统深度融合的安全需求。当AI代理自主执行支付、管理资产时,这些场景的覆盖面恰恰是RWA生态最关心的部分。
EVMbench的测试结果揭示了一个耐人寻味的现象:AI在“攻击”上的表现远超“防守”。根据HEAL Security的数据,在利用模式下,GPT-5.3-Codex达到了72.2%的成功率;但在检测模式下,AI往往在找到第一个漏洞后就停止深入,难以完成全面的代码审计。OpenAI对此的解释是,利用模式的目标足够明确——“直到资金被完全抽干为止”,这让AI可以不断迭代尝试;而检测模式需要的是“全面覆盖”,这是当前AI的短板。
eWEEK的报道进一步印证了这一判断。报道援引测试数据称,最好的模型在漏洞检测上仅能捕捉约46%的漏洞,而在修补模式下,成功率也只有39%左右。但当给AI一个关于漏洞位置的小提示时,修补成功率会从39%跃升至94%。这一发现揭示了一个关键结论:当前AI能力的瓶颈不在于技能本身,而在于搜索范围——人类提供上下文后,AI的表现会大幅提升。
这一发现对RWA生态有着深刻的警示意义。攻击者可能比防守者更快利用AI——如果AI能以72%的成功率复现攻击路径,那么黑产团队没有理由不部署同样的能力。审计的逻辑也在被改变:传统审计是“找漏洞”,未来审计可能是“验证AI没找到的漏洞”。速度正在成为新的安全变量,漏洞从被发现到被利用的时间窗口正在被AI急剧压缩。
OpenAI在发布EVMbench的同时,也宣布将通过其网络安全资助计划提供1000万美元的API额度,支持防御性安全研究,特别是针对开源软件和关键基础设施的研究。公司还扩大了其安全研究代理Aardvark的测试范围,并与开源维护者合作提供免费代码扫描服务。这释放了一个明确信号:防御方正在与时间赛跑。
然而,EVMbench发布后不久,来自学术界和产业界的质疑声也随之而来。2026年3月11日,arXiv平台上发布了一篇题为《Re-Evaluating EVMBench: Are AI Agents Ready for Smart Contract Security?》的论文,对EVMbench的结论进行了重新评估。
这篇由Chaoyuan Peng等人撰写的论文指出,EVMbench存在两个关键局限:一是评估范围狭窄,仅测试了14种代理配置,且大多数模型仅在其供应商提供的框架上测试;二是依赖的审计竞赛数据发布时间早于所有模型的发布截止日期,模型可能在训练阶段已经接触过这些数据。为弥补这些局限,研究者将测试扩展到26种配置,覆盖四个模型家族和三种框架,并引入了一个全新的、不包含数据污染的真实安全事件数据集——22个发生在所有模型发布日期之后的安全事件。
研究得出三个重要发现。第一,AI代理的检测结果并不稳定,在不同配置、任务和数据集上的排名会发生显著变化。第二,在真实安全事件上,没有任何AI代理能在全部110个代理-事件组合中实现端到端的成功利用——尽管它们最多能检测出65%的漏洞,但这与EVMbench得出的“漏洞发现是主要瓶颈”的结论相矛盾。第三,框架选择对结果影响显著,一个开源框架的表现比供应商提供的框架高出5个百分点,但EVMbench并未对此进行控制。
与此同时,知名区块链安全公司OpenZeppelin也对EVMbench提出了尖锐批评。据Cointelegraph中文报道,OpenZeppelin在对EVMbench进行审计后发现,数据集中存在训练数据泄露,以及至少四项被标记为高严重性的漏洞在实际操作中并不可利用。OpenZeppelin在X平台发文指出,所有高分AI代理“很可能在预训练阶段已接触到与基准测试相关的漏洞报告”,因为这些漏洞均来自2024年到2025年中期的审计,而AI代理的知识截止时间通常设定在2025年中期。
这些质疑共同指向一个结论:完全自动化的AI审计尚未到来。正如arXiv论文所言,AI能够可靠地捕捉已知模式,并对人类提供的上下文做出强烈响应,但无法替代人类的判断。对于开发者而言,AI扫描可以作为预部署检查工具;对于审计机构而言,AI最有效的定位是“人机协同”——由AI负责广度覆盖,人类审计师贡献协议特定的知识和对抗性推理。
智能合约管理着超过1000亿美元的链上资产,这是EVMbench发布的背景数据。但更值得关注的是,这1000亿美元正在发生结构性变化——RWA的崛起正在将传统金融资产带入链上。当国债、信贷、房地产等现实世界资产以代币化形式上链时,安全的内涵被重新定义。
对于RWA项目方面言,智能合约的漏洞不再是“币圈内部损失”,而是直接指向现实资产的损失。这意味着安全审计的标准必须向传统金融看齐。据AI Business报道,麦肯锡预测到2028年,已发行稳定币的总价值将达到2万亿美元。在这个规模下,安全不再只是技术问题,而是资产负债表的直接风险。项目方需要重新评估现有审计流程,探索AI审计工具的嵌入路径——不是用AI完全替代人类,而是让AI完成广度覆盖,人类聚焦协议特定逻辑和对抗性推理。
对于审计机构而言,OpenAI承诺提供的1000万美元API额度支持防御性安全研究,这是一个明确的信号:AI审计不是来替代审计师的,而是来武装审计师的。未来,能够驾驭AI的审计团队将获得指数级的能力提升。正如arXiv论文所言,AI在检测模式下的不稳定性恰恰说明,人类审计师的专业判断在当前阶段不可或缺。AI处理已知模式的识别,人类负责边界案例和创新性漏洞的发现,这种分工正在成为行业共识。
对于上市公司而言,当企业将资产以RWA形式上链融资时,智能合约的安全性直接关系到企业的资产负债表。据Blockchain.news报道,随着AI代理在漏洞利用上能力的提升,漏洞发现到被利用的时间窗口正在急剧缩短——那些不使用AI辅助审计的协议团队,将越来越处于劣势。“合约被黑客攻击”将从技术风险上升为财务风险,董事会需要对此有清晰的认知。这不仅是技术部门的职责,更是战略层面的风险管理议题。
基于上述分析,我们可以从三个层面提炼出这场范式变革的战略启示。
技术层面,人机协同是未来范式。arXiv论文的结论值得反复强调:AI无法替代人类判断,但可以作为“预部署检查工具”发挥最大价值。对于RWA项目而言,最优策略是将AI审计嵌入开发流程——在代码编写阶段就引入AI辅助扫描,在上线前由人类审计师进行最终把关。正如eWEEK的分析所指出的,AI在获得小提示后修补成功率可从39%跃升至94%,这意味着人类审计师可以将有限精力集中在AI难以把握的核心逻辑上。
认知层面,安全成本的定义正在被重塑。传统观念中,安全审计是上线前的“一次性投入”。但在AI代理经济崛起的背景下,攻击可以24小时自动化进行,安全也必须成为持续性的实时监控。HEAL Security的报道指出,EVMbench的发布正值AI代理在代码编写和规划能力上飞跃的节点,未来这些模型将在区块链的攻击与防御两端扮演转型角色。这意味着项目方需要建立持续监控机制,而非仅在发布前做一次审计。
合规层面,守住红线与用好工具必须兼顾。对于RWA研究院的中国大陆读者而言,EVMbench的讨论必须在42号文“境内严禁、境外备案”的框架下进行。本文讨论的AI审计工具聚焦于技术趋势和防御性应用,绝不构成对境内合约的操作建议。但当中国企业通过香港合规通道发行RWA时,采用AI增强的审计能力,将是与国际标准接轨的必然要求。香港稳定币牌照的落地,恰恰为这种合规探索提供了通道。
2026年,数字文明正在经历AB面的深度融合:AI作为极致生产力,区块链作为先进生产关系。EVMbench的发布,是这两条主线在资产安全这一关键节点上的首次交汇。
72.2%的攻击成功率是一个警钟:AI的漏洞利用能力正在指数级提升,留给防守方的时间窗口正在缩短。但1000万美元的防御投入也是一个承诺:AI同样可以被用来守护资产,关键在于我们如何驾驭它。arXiv论文的结论为这种驾驭提供了方向——AI无法替代人类,但可以成为最得力的助手。OpenZeppelin的批评则提醒我们,工具的构建和评估必须与被保护的合约达到同等标准。
对于RWA生态而言,安全从来不是技术选项,而是生存底线。当千亿资产从物理世界走向数字空间时,AI与人类的协同审计,或许就是那道最后的防线。站在临界点上,那些率先将AI审计工具嵌入开发流程的项目,将在这场攻防速度战中占据先机;而那些等到监管完全明朗才行动的企业,可能会发现窗口期已经关闭。
本文讨论的AI审计技术适用于境外合规框架,不构成境内操作建议。对于中国企业而言,在香港合规通道下探索AI增强的RWA安全实践,将是与全球标准接轨的必由之路。
参考资料:
来源:
发布人:maizi
声明:该文观点仅代表作者本人,不代表火讯财经立场。火讯财经系信息发布平台,仅提供信息存储空间服务。
如文章涉及侵权, 请及时致函告之,本站将第⼀时间删除⽂章。邮箱:840034348@qq.com