500 天前

09月05日,星期二 10:00

上海交大发布大模型双语编程评估基准 CodeApex

火讯财经讯,据机器之心报道,上海交通大学APEX实验室推出了CodeApex,一个专注于评估LLMs的编程理解和代码生成能力的双语基准数据集。在评估大语言模型的编程理解能力上,CodeApex设计了三种类型的选择题:概念理解、常识推理和多跳推理。此外,CodeApex也利用算法问题和相应的测试用例来评估LLMs的代码生成能力。CodeApex总共评估了14个大语言模型在代码任务上的能力。其中GPT3.5-turbo表现出最好的编程能力,在这两个任务上分别实现了大约50%和56%的精度。可以看到,大语言模型在编程任务上仍有很大的改进空间。

3
0
  • ETH突破3500美元,日内涨幅 2.29%

    火讯财经讯,1月18日消息,欧易OKX行情显示,ETH刚刚突破3500美元,现报3500.44美元/枚,日内涨幅2.29%。

    1 小时前

  • BTC突破105000美元,日内涨幅 0.95%

    火讯财经讯,1月18日消息,欧易OKX行情显示,BTC刚刚突破105000美元,现报105000.00美元/枚,日内涨幅0.95%。

    4 小时前

  • “LUNA/UST崩盘时做空BTC盈利的聪明钱”今日买入31.17枚WBTC和cbWBTC

    火讯财经讯,1月17日消息,据链上分析师@ai_9684xtpa监测,“LUNA/UST崩盘时做空BTC赚取516万美元的聪明钱”昨天刚清仓ETH获利302万,今天又开始买入BTC看多了,过去15分钟他以均价103,872美元买入31.17枚WBTC和cbWBTC,价值319万美元。

    5 小时前

  • 过去24小时全网合约爆仓2.78亿美元,多空双爆

    火讯财经讯,1月17日消息,Coinglass数据显示,过去24小时加密货币市场全网合约爆仓2.78亿美元,其中多单爆仓1.13亿美元,空单爆仓1.65亿美元。BTC爆仓总金额9169.49万美元,ETH爆仓总金额3551.89万美元。

    6 小时前

  • 美国白宫:应让TikTok继续对美国人可用,相关法律实施必须由下一届政府执行

    火讯财经讯,1月17日消息,据金十报道,美国白宫表示,应让TikTok继续对美国人可用,TikTok法律的实施必须由下一届政府来执行。 此前今日早些时候消息,美国最高法院维持TikTok“不卖就禁”法案。

    6 小时前