723 天前

09月19日,星期二 12:00

FlagEval 大语言模型评测 9 月榜:Baichuan 2 排名第一

火讯财经讯,据TechWeb9月19日报道,国内权威评测体系FlagEval(天秤)公布最新9月榜单大模型评测结果。基于最新CLCCv2.0主观评测数据集,FlagEval(天秤)9月榜重点评测了近期大热的7个开源对话模型。从整体结果来看,Baichuan2-13b-chat、Qwen-7b-chat、Baichuan2-7b-chat名列前茅,准确率均超过65%。在基座模型榜单中,Baichuan2、Qwen、InternLM、Aquila的客观评测结果表现均超越同参数量级的Llama及Llama2模型。在SFT模型榜单中,Baichuan2-13B-chat、YuLan-Chat-2-13B、AquilaChat-7B名列前三。在客观评测两个榜单中,Baichuan2均表现出优异性能,基础模型测试在中英文领域均全面超越Llama2。据悉,FlagEval(天秤)是北京智源人工智能研究院推出的大模型评测体系及开放平台,旨在建立科学、公正、开放的评测基准、方法、工具集,协助研究人员全方位评估基础模型及训练算法的性能。FlagEval大语言模型评测体系当前包含6大评测任务,近30个评测数据集,超10万道评测题目。

0
0
  • 一包含444枚BTC的地址在休眠13年后被激活

    火讯财经讯,9月11日消息,据WhaleAlert监测,一个休眠13年的地址刚刚被激活,内含444枚BTC(价值5068.3万美元)。

    14 分钟前

  • 一包含300枚BTC的地址在休眠13.1年后被激活

    火讯财经讯,9月11日消息,据WhaleAlert监测,一个休眠13.1年的地址刚刚被激活,内含300枚BTC(目前价值3418万美元,2012年价值3564美元)。

    14 分钟前

  • 币安将上线Pump.fun (PUMP) 

    火讯财经讯,9月11日消息,据官方公告,币安将于2025年9月11日12:30(UTC时间)上线Pump.fun(PUMP),并开放以下现货交易对的交易。新增现货交易对:PUMP/USDT、PUMP/TRY。种子标签将应用于PUMP。

    14 分钟前

  • 3个钱包在沉寂13年后转出137.03枚比特币,价值1563万美元

    火讯财经讯,9月11日消息,据Lookonchain监测,3个钱包(很可能属于同一巨鲸)在沉寂13年后转出了137.03枚比特币(价值1563万美元),这些钱包原本共持有955枚比特币(价值1.088亿美元),其中5枚比特币被转至一个Kraken交易所钱包。13年前,比特币的价格仅为12美元。

    14 分钟前

  • 币安理财、一键买币、闪兑、杠杆、合约上线Holoworld AI(HOLO)

    火讯财经讯,9月11日消息,据官方公告,币安理财、一键买币、闪兑交易平台、杠杆和币安合约将上线HoloworldAI(HOLO)。其中,币安将于2025年09月11日20:00(东八区时间)上线HOLO1-75倍U本位永续合约。

    14 分钟前