487 天前

09月19日,星期二 12:00

FlagEval 大语言模型评测 9 月榜:Baichuan 2 排名第一

火讯财经讯,据TechWeb9月19日报道,国内权威评测体系FlagEval(天秤)公布最新9月榜单大模型评测结果。基于最新CLCCv2.0主观评测数据集,FlagEval(天秤)9月榜重点评测了近期大热的7个开源对话模型。从整体结果来看,Baichuan2-13b-chat、Qwen-7b-chat、Baichuan2-7b-chat名列前茅,准确率均超过65%。在基座模型榜单中,Baichuan2、Qwen、InternLM、Aquila的客观评测结果表现均超越同参数量级的Llama及Llama2模型。在SFT模型榜单中,Baichuan2-13B-chat、YuLan-Chat-2-13B、AquilaChat-7B名列前三。在客观评测两个榜单中,Baichuan2均表现出优异性能,基础模型测试在中英文领域均全面超越Llama2。据悉,FlagEval(天秤)是北京智源人工智能研究院推出的大模型评测体系及开放平台,旨在建立科学、公正、开放的评测基准、方法、工具集,协助研究人员全方位评估基础模型及训练算法的性能。FlagEval大语言模型评测体系当前包含6大评测任务,近30个评测数据集,超10万道评测题目。

0
0
  • BTC跌破104000美元,日内下跌 0.54%

    火讯财经讯,1月19日消息,欧易OKX行情显示,BTC刚刚跌破104000美元,现报103992.80美元/枚,日内下跌0.54%。

    2 小时前

  • Vitalik:以太坊基金会更应该使用生态系统中构建的工具

    火讯财经讯,1月18日消息,VitalikButerin在X平台发文称,我觉得,以太坊基金会更应该使用生态系统中构建的工具(包括DeFi),即使这可能会意味着以太坊基金会在这方面表现的并不完全中立。当然,以太坊基金会应该非常明智地做到这一点。

    2 小时前

  • 过去24小时全网合约爆仓4.79亿美元,主爆多单

    火讯财经讯,1月18日消息,Coinglass数据显示,过去24小时加密货币市场全网合约爆仓4.79亿美元,其中多单爆仓3.32亿美元,空单爆仓1.48亿美元。BTC爆仓总金额7038.78万美元,ETH爆仓总金额7340.36万美元。

    3 小时前

  • Aave创始人Stani:以太坊基金会应是一个精简高效组织,不努力的人应该离开

    火讯财经讯,1月18日消息,Aave创始人Stani在X平台发文称,以太坊基金会需要专注于加速创新,使以太坊网络尽可能便宜,同时又不损害安全性或使系统过于复杂。而作为一个组织来说,以太坊基金会应该是一个精简而高效的组织,任何没有付出100%努力的人都应该离开,“互联网计算机需要依靠火箭燃料来运行”。

    3 小时前

  • 分析:比特币今日拉升或受特朗普推出个人Meme币影响

    火讯财经讯,1月18日消息,据金十报道,美国当选总统特朗普在其社交账号上发文,宣布推出个人Meme币TRUMP,并告知用户需访问域名为“gettrumpmemes”的网站以获取该Meme代币。CoinGecko数据显示,TRUMP币市值达40亿美元,其市值已位列Meme币第四,前三分别为DOGE(市值587亿美元)、SHIB(市值133亿美元)、PEPE(市值78亿美元)。比特币也受此影响,自97000美元附近直线拉升至突破105000美元,之后有所回调,盘中跌破103000美元,日内跌超1100美元。

    3 小时前