FlagEval 大语言模型评测 9 月榜：Baichuan 2 排名第一

887 天前

09月19日，星期二 12:00

FlagEval 大语言模型评测 9 月榜：Baichuan 2 排名第一

火讯财经讯，据TechWeb9月19日报道，国内权威评测体系FlagEval（天秤）公布最新9月榜单大模型评测结果。基于最新CLCCv2.0主观评测数据集，FlagEval（天秤）9月榜重点评测了近期大热的7个开源对话模型。从整体结果来看，Baichuan2-13b-chat、Qwen-7b-chat、Baichuan2-7b-chat名列前茅，准确率均超过65%。在基座模型榜单中，Baichuan2、Qwen、InternLM、Aquila的客观评测结果表现均超越同参数量级的Llama及Llama2模型。在SFT模型榜单中，Baichuan2-13B-chat、YuLan-Chat-2-13B、AquilaChat-7B名列前三。在客观评测两个榜单中，Baichuan2均表现出优异性能，基础模型测试在中英文领域均全面超越Llama2。据悉，FlagEval（天秤）是北京智源人工智能研究院推出的大模型评测体系及开放平台，旨在建立科学、公正、开放的评测基准、方法、工具集，协助研究人员全方位评估基础模型及训练算法的性能。FlagEval大语言模型评测体系当前包含6大评测任务，近30个评测数据集，超10万道评测题目。

CEX的稳定币储备近3个月下降14%

火讯财经讯，2月22日消息，据Alicharts监测，过去三个月，加密CEX（中心化交易所）的稳定币储备下降了14%，从750亿美元降至645亿美元。

5 小时前
分析：英伟达下周公布的财报即使亮眼，可能也无法提振股价

火讯财经讯，2月22日消息，据金十援引外媒分析报道，多年来，英伟达在推动股市创历史新高方面发挥了关键作用。但随着对人工智能的怀疑情绪加剧，华尔街越来越担心这家芯片巨头下周的财报无论结果如何，都会压低股价。英伟达股价数月来一直横盘震荡，对于一家不久前还曾是指数领涨者并实现三位数年涨幅的公司来说，这无疑是个大倒退。投资者预计下周英伟达的财报表现将超出华尔街预期，并提高未来几个季度的预期。但这可能不能提振股价。与此同时，如果英伟达业绩未能平息投资者对人工智能的紧张情绪，可能会对AI相关股票及更广泛的市场带来更大波动。

5 小时前
美国贸易代表：最高法关税裁决后，美国双边贸易协议依然有效

火讯财经讯，2月22日消息，据金十报道，美国贸易代表格里尔周日在哥伦比亚广播公司的《面对全国》节目中表示，美国与欧盟、韩国等国家达成的那些协议仍然有效。他试图将这些协议与特朗普周六宣布的计划实施的15%全球关税区分开来。格里尔说：“我们希望他们明白，这些交易将会是成功的交易。我们会全力支持这些交易。我们也期望我们的合作伙伴能够全力支持这些交易。”他还表示，美国的其他贸易手段，包括对其他国家贸易行为进行调查的手段，将为美国提供优势。他在本周末与欧盟方面的负责人进行了交谈，并且还将与美国其他主要贸易伙伴的官员进行沟通，以向他们传达安心的信息。

5 小时前
某地址做多金银并做空多种加密资产，当前浮盈逾57万美元

火讯财经讯，2月22日消息，据链上分析师Ai姨监测，地址0x7c9…3c8fd在Hyperliquid开设了价值264.7万美元的头寸，其中有2个多头头寸：做多黄金（GOLD）和白银（SILVER）；9个空头头寸：做空BTC/ETH/SOL/DYDX/AVAX在内的加密主流和山寨代币。该地址当前浮盈57.3万美元，除了ETH和SOL浮亏1千美元左右，其他标的均在水上。

6 小时前
美媒：若伊朗很快提交核方案，美伊会谈预计将于周五举行

火讯财经讯，2月22日消息，据AXIOS网站报道，一位美国高级官员周日表示，如果美国谈判代表在未来48小时内收到伊朗提出的详细核协议方案，他们准备于周五在日内瓦与伊朗举行新一轮会谈。美国官员表示，目前的外交努力可能是特朗普总统在发动大规模美以联合军事行动（可能直接针对伊朗最高领袖哈梅内伊）之前给予伊朗的最后机会。这位美国高级官员表示，特朗普政府正在等待伊朗的提议。

6 小时前

887 天前

FlagEval 大语言模型评测 9 月榜：Baichuan 2 排名第一

CEX的稳定币储备近3个月下降14%

分析：英伟达下周公布的财报即使亮眼，可能也无法提振股价

美国贸易代表：最高法关税裁决后，美国双边贸易协议依然有效

某地址做多金银并做空多种加密资产，当前浮盈逾57万美元

美媒：若伊朗很快提交核方案，美伊会谈预计将于周五举行

友情链接：