248 天前

04月11日,星期五 08:30

OpenAI推出高难度基准测试BrowseComp,挑战AI上网搜索能力

火讯财经讯,4月11日消息,OpenAI已开源全新基准测试BrowseComp,用于评估AI代理在互联网上查找难以获取信息的能力。该测试包含1266个极具挑战性的题目,设计初衷为模拟AI在复杂信息网络中的“在线寻宝”,强调答案难找但易验证。测试中问题涵盖影视、科技、历史等多个领域,难度显著高于现有如SimpleQA等测试。 据AIGC开放社区称,这个测试基准非常有难度,连OpenAI自己的GPT-4o、GPT-4.5准确率只有0.6%和0.9%几乎为0,即便使用带浏览器功能的GPT-4o也只有1.9%。但OpenAI最新发布的Agent模型DeepResearch准确率高达51.5%。

1
0
  • 某神秘巨鲸20天内将逾2289枚BTC换为逾6.7万枚ETH

    火讯财经讯,12月15日消息,据余烬监测,自11月25日起,一地址持续通过THORChain将BTC换仓为ETH,仅今日就将317枚BTC跨链兑换为9105枚ETH,金额约2815万美元。20天累计已兑换2289枚BTC为67253枚ETH,累计金额逾2.04亿美元,平均成本约$3,036/ETH。同期ETH/BTC汇率从0.0322升至0.0347,显示ETH相对BTC略有升值。

    3 分钟前

  • 比特币OG加码ETH多头仓位,总持仓市值达6.76亿美元

    火讯财经讯,12月15日消息,据OnchainLens披露,“比特币OG(10/11)”钱包大幅加仓ETH多头仓位,总共持有180,935枚ETH(市值约5.55亿美元)、1000枚BTC(约8829万美元)及25万枚SOL(约3240万美元),组合总值约6.76亿美元。尽管该地址此前曾获利2600万美元,目前整体已转为亏损2300万美元。

    3 分钟前

  • “66kETH借贷鲸”再出手,8小时内购入近3.86万枚ETH

    火讯财经讯,12月15日消息,据Lookonchain监测,曾斥资15亿美元购买489,696枚ETH的“66kETH借贷鲸”在市场回调中再次加仓。其过去8小时从Aave借出8500万美元USDT转入Binance,并提取38,576枚ETH,按当时市值约为1.193亿美元。

    3 分钟前

  • 日韩股市开盘普跌,韩国KOSPI指数跌幅2.67%

    火讯财经讯,12月15日消息,日经225指数12月15日(周一)开盘下跌404.45点,跌幅0.80%,报50432.10点。韩国KOSPI指数12月15日(周一)开盘下跌111.31点,跌幅2.67%,报4055.85点。

    33 分钟前

  • 英国财政部拟制定加密监管规则,2027年起实施

    火讯财经讯,12月15日消息,据《卫报》报道,英国财政部正制定新规,将自2027年起把加密货币纳入金融行为监管局(FCA)监管框架,使其比照其他金融产品监管。财政大臣RachelReeves表示,此举旨在增强透明度、提升消费者信心,并打击非法行为。英国政府同时计划禁止使用加密货币进行政治捐款,回应加密资金来源不明的担忧。

    33 分钟前