OpenAI推出名为MLE-bench的新基准，用于评估AI代理开发机器学习解决方案的能力

544 天前

10月12日，星期六 06:30

OpenAI推出名为MLE-bench的新基准，用于评估AI代理开发机器学习解决方案的能力

火讯财经讯，10月12日消息，据TheDecoder报道，OpenAI推出了名为MLE-bench的新基准，旨在评估AI代理在机器学习解决方案开发中的表现。该基准涵盖75项Kaggle竞赛，重点评估当前机器学习开发的挑战性任务，并将AI结果与人类表现进行比较。初步测试中，o1-preview模型与AIDE框架结合表现最佳，在16.9%的竞赛中获得铜牌，超过了Anthropic的Claude3.5Sonnet。通过增加尝试次数，o1-preview的成功率翻倍至34.1%。OpenAI认为，MLE-bench有助于评估核心ML工程技能，尽管它并未涵盖所有AI研究领域。

恐慌指数 VIX 下跌至 20.04

火讯财经讯，恐慌指数VIX下跌1点，报20.04。

43 分钟前
数据：过去 24 小时全网爆仓 2.99 亿美元，多单爆仓 1.36 亿美元，空单爆仓 1.64 亿美元

火讯财经讯，过去24小时全网加密货币爆仓总额达2.99亿美元，其中多单爆仓1.36亿美元，空单爆仓1.64亿美元。具体来看，比特币多单爆仓1864.62万美元，空单爆仓9522.18万美元；以太坊多单爆仓2569.04万美元，空单爆仓2335.72万美元。

51 分钟前
分析，比特币突破 7.2 万美元，中东停火预期提振市场情绪

火讯财经讯，受中东局势缓和预期提振，比特币价格快速走高。以色列总理内塔尼亚胡已指示启动与黎巴嫩的谈判，此前美国前总统特朗普亦要求以方减少军事行动以维护停火进程。消息公布后，比特币迅速上涨约3%，当前报约7.23万美元，24小时涨幅约2%，显著跑赢主流加密资产——以太坊、Solana及XRP涨幅均不足1%。与此同时，美股止跌回升，油价从日内高点回落。值得注意的是，比特币与科技股走势出现明显分化，两者20日滚动相关系数已降至约0.34，表明比特币正逐步摆脱与科技股的联动，更多受宏观地缘政治及避险情绪驱动。

1 小时前
标普 500 和纳斯达克 100 指数盘中上涨 0.5%

火讯财经讯，据行情数据显示，标普500指数与纳斯达克100指数已涨至盘中高位，最新涨幅为0.5%。

1 小时前
美国财政部推出面向数字资产行业的网络安全信息共享计划

火讯财经讯，美国财政部网络安全与关键基础设施保护办公室（OCCIP）今日宣布一项新举措，旨在加强数字资产行业的网络安全。该举措将向符合条件的美国数字资产公司和行业组织提供及时、可操作的网络安全信息，帮助它们更好地识别、预防并应对针对其客户和网络的网络威胁。这一行动落实了总统数字资产市场工作组在《加强美国在数字金融科技领域的领导力》报告中的一项重要建议。

1 小时前

544 天前

OpenAI推出名为MLE-bench的新基准，用于评估AI代理开发机器学习解决方案的能力

恐慌指数 VIX 下跌至 20.04

数据：过去 24 小时全网爆仓 2.99 亿美元，多单爆仓 1.36 亿美元，空单爆仓 1.64 亿美元

分析，比特币突破 7.2 万美元，中东停火预期提振市场情绪

标普 500 和纳斯达克 100 指数盘中上涨 0.5%

美国财政部推出面向数字资产行业的网络安全信息共享计划

友情链接：