新晋大模型动不动声称超越GPT-4,我们整理了这些评测工具

转载
390 天前
4687
AI梦工厂

文章转载来源:AI梦工厂

文章来源:AI先锋官

图片来源:由无界AI生成

自ChatGPT问世以来,全球掀起了大模型的“军备竞赛”。据报道,今年1-7月国内共发布了64个大模型。截至2023年7月,中国累计有130个大模型问世。

“百模大战”都不足以形容如今的焦灼“战况”,那么究竟哪家大模型更胜一筹呢?这就离不开大模型的评测。

然而,现阶段并不存在一个公认有效的评测方式,这就导致国内外的大模型评测领域出现“榜单大战”。不完全统计,目前市面上的评测工具(系统)不下50个,同类榜单的结果却可以千差万别。公众关于“刷分”的质疑更是不绝于耳。

业界一般认为,评价一款大模型有两个显化标准:一是参数量,二是评测集。

所谓参数量,是指模型中可学习的参数数量,包括模型的权重和偏置。参数量的大小决定了模型的复杂程度,更多的参数和层数,是大模型区别于小模型的标志性特点。2022年,美国一批大模型亮相,从Stability AI发布由文字到图像的生成式模型Diffusion,再到OpenAI推出的ChatGPT,模型参数规模开始进入百亿、千亿级别时代。

从表面指标看,千亿参数的模型普遍比百亿级表现更好。不过这也不绝对,堆参数也未必就能提升能力。那么,同样参数级别的模型应该如何分辨优劣?这就需要引入大模型的第二个评测维度——评测集。

评测集是为有效评估基础模型及其微调算法在不同场景、不同任务上的综合效果,所构建的单任务或多任务的统一基准数据集,有公开和封闭两种形态。

这些评测集就像针对不同领域的考卷,通过测试大模型在这些“考卷”中的得分,人们可以更直观地比较大模型的性能高低。

在小模型时代,大多数模型机构都会使用学术类评测集效果来作为评判模型好坏的依据。现在,大模型厂商也开始更加主动地参与到学术界基准测试框架中来,视其为权威背书与营销依据。

市面上已出现不少大模型的评测集,例如国际上用的较多的大模型评测集MMLU、中文评估模型C-Eval、SuperCLUE等。


-1- 评测工具


MMLU

全称Massive Multitask Language Understanding,是一种针对大模型的语言理解能力的测评,是目前最著名的大模型语义理解测评之一,由UC Berkeley大学的研究人员在2020年9月推出。该测试涵盖57项任务,包括初等数学、美国历史、计算机科学、法律等。任务涵盖的知识很广泛,语言是英文,用以评测大模型基本的知识覆盖范围和理解能力。

论文地址:

https://arxiv.org/abs/2009.03300

官方网站: 

https://paperswithcode.com/dataset/mmlu

大模型排行榜: 

https://paperswithcode.com/sota/multi-task-anguage-understanding-on-mmlu

C-Eval

C-Eval 是一个全面的中文基础模型评估套件。由上海交通大学、清华大学和爱丁堡大学研究人员在2023年5月份联合推出,它包含了13948个多项选择题,涵盖了52个不同的学科和四个难度级别,用以评测大模型中文理解能力。

论文地址:

https://arxiv.org/abs/2305.08322

项目地址:

https://github.com/SJTU-LIT/ceval

官方网站:

https://cevalbenchmark.com/

SuperCLUE

中文通用大模型综合性评测基准,从三个不同的维度评价模型的能力:基础能力、专业能力和中文特性能力。

其中基础能力能力包括: 语义理解、对话、逻辑推理、角色模拟、代码、生成与创作等10项能力。

专业能力包括: 包括了中学、大学与专业考试,涵盖了从数学、物理、地理到社会科学等50多项能力。

中文特性能力: 针对有中文特点的任务,包括了中文成语、诗歌、文学、字形等10项多种能力。

项目地址:

https://github.com/CLUEbenchmark/SuperCLUE

官方网站:

https://www.cluebenchmarks.com/

SuperCLUE琅琊榜

中文通用大模型匿名对战评价基准,与ChatbotArena相同以众包方式让不同的大模型产品进行匿名、随机的对抗测评,结果基于Elo评级系统。

项目地址:

https://github.com/CLUEbenchmark/SuperCLUElyb

Chatbot Arena

ChatbotArena是一个大型语言模型 (LLM) 的基准平台,该项目方LMSYS Org是由加州大学伯克利分校、加州大学圣地亚哥分校和卡内基梅隆大学合作创立的研究组织。

以众包方式进行匿名随机对战的LLM基准平台。通过demo体验地址进入对战平台。输入自己感兴趣的问题,提交问题后,匿名模型会两两对战,分别生成相关答案,需要用户对答案做出评判,从4个评判选项中选择一个:模型A更好、模型B更好、平手、都很差。支持多轮对话。最终使用Elo评分系统对大模型的能力进行综合评估。(可以自己指定模型看效果,但不计入最终排名情况)。

项目地址:

https://github.com/lm-sys/FastChat

官方网站:

https://chat.lmsys.org/

FlagEval

FlagEval(天秤)由智源研究院将联合多个高校团队打造,是一种采用“能力—任务—指标”三维评测框架的大模型评测平台,旨在提供全面、细致的评测结果。该平台已提供了 30 多种能力、5 种任务和 4 大类指标,共 600 多个维度的全面评测,任务维度包括 22 个主客观评测数据集和 84433 道题目。

FlagEval(天秤)第一期已推出大语言模型评测体系、开源多语言文图大模型评测工具mCLIP-Eval 和开源文图生成评测工具 ImageEval。天秤平台还将继续探索语言大模型评测与心理学、教育学、伦理学等社会学科的交叉研究,以期更加科学、全面地评价语言大模型。FlagEval 针对大模型开发者和使用者,旨在帮助各个开发团队了解自身模型的薄弱之处,并推动技术创新。

项目地址:

https://github.com/FlagOpen/FlagEval

官方网站:

https://flageval.baai.ac.cn/

OpenCompass

2023年8月,上海人工智能实验室(上海AI实验室)正式推出OpenCompass大模型开放评测体系,通过完整开源可复现的评测框架,支持大语言模型、多模态模型各类模型的一站式评测,并定期公布评测结果榜单。

官方网站:

https://opencompass.org.cn/

项目地址:

https://github.com/open-compass/opencompass

JioNLP

考察 LLM 模型对人类用户的帮助效果、辅助能力,可否达到一个“智能助手”的水平题型,选择题来源于中国大陆国内各种专业性考试,重点在于考察模型对客观知识的覆盖面,占比 32%;主观题来源于日常总结,主要考察用户对 LLM 常用功能的效果。

项目地址:

https://github.com/dongrixinyu/JioNLP/wiki/LLI评测数据集

清华安全大模型测评

清华收集的一个评测集,涵盖了仇恨言论、偏见歧视言论、犯罪违法、隐私、伦理道德等八大类别,包括细粒度划分的40余个二级安全类别

地址:http://115.182.62.166:18000

LLMEval-3

由复旦大学NLP实验室推出,聚焦于专业知识能力评测,涵盖哲学、经济学、法学、教育学、文学、历史学、理学、工学、农学、医学、军事学、管理学、艺术学等教育部划定的13个学科门类、50余个二级学科,共计约20W道标准生成式问答题目。为了防止刷榜现象的发生,LLMEval-3评测采用了一种新颖的评测模式,即“题库考试”模式

地址:http://llmeval.com/

GAOKAO-Bench

GAOKAO-bench是一个以中国高考题目为数据集,测评大模型语言理解能力、逻辑推理能力的测评框架。

项目地址: 

https://github.com/OpenLMLab/GAOKAO-Bench

PandaLM

其是直接训练了一个自动化打分模型,0.1.2三分制用模型对两个候选模型进行打分。

项目地址:

https://github.com/We0penML/PandaLM

BIG-bench

google推出的一个评测集,BIG-bench由 204 项任务组成,任务主题涉及语言学、儿童发展、数学、常识推理、生物学物理学、社会偏见、软件开发等等领域的问题。

项目地址: 

https://github.com/google/BIG-bench

MMCU

甲骨易AI研究院提出一种衡量中文大模型处理多任务准确度的测试, 数据集的测试内容涵盖四大领域:医疗、法律、心理学和教育。题目的数量达到1万+,其中包括医疗领域2819道题,法律领域3695道题,心理学领域2001道,教育领域3331道。

项目地址: 

https://github.com/Felixgithub2017/MMCU

AGI Eval

微软发布的大模型基础能力评测基准,在2023年4月推出,主要评测大模型在人类认知和解决问题的一般能力,涵盖全球20种面向普通人类考生的官方、公共和高标准录取和资格考试,包含中英文数据。因此,该测试更加倾向于人类考试结果,涵盖了中英文。

论文地址:

https://arxiv.org/abs/2304.06364

GSM8K

OpenAI发布的大模型数学推理能力评测基准,涵盖了8500个中学水平的高质量数学题数据集。数据集比之前的数学文字题数据集规模更大,语言更具多样性,题目也更具挑战性。该项测试在2021年10月份发布,至今仍然是非常困难的一种测试基准。

论文地址:

https://arxiv.org/abs/2110.14168

HELM

HELM评测方法主要包括场景、适配、指标三个模块,每次评测的运行都需要指定一个场景,一个适配模型的提示,以及一个或多个指标。它评测主要覆盖的是英语,有7个指标,包括准确率、不确定性/校准、鲁棒性、公平性、偏差、毒性、推断效率;任务包括问答、信息检索、摘要、文本分类等。

论文地址: 

https://arxiv.org/pdf/2211.09110.pdf

项目地址: 

https://github.com/stanford-crfm/helm

Chinese-LLalA-Alpaca

它的打分就是相对值,优先使用gpt4,部分使用chatgpt3。

项目地址:

https://github.com/ymcui/Chinese-LLalA-Alpaca/tree/main

MT-bench

评估大模型的多轮对话和指令追随能力。数据集包括80个(8category*10question)高质量且多轮对话的问题,每个问题由6个知名大模型( GPT-4, GPT-3.5, Claud-v1, Vicuna-13B, Alpaca-13B, and LLaMA-13B)回答,人工排序得到3.3K pair对。

论文地址:

Judging LLM-as-a-judge with MT-Bench and Chatbot Arena

github

项目地址:

https://github.com/lm-sys/FastChat/tree/main/fastchat/llm_judge

数据下载地址:

https://huggingface.co/datasets/lmsys/mt_bench_human_judgments


-2- 评测模式


通过上述评测工具发现,目前常见的大模型评测模式可以大致总结为四种:

1.做题打分。主要是收集各种各样的评测数据集,然后把数据集分为不同的维度能力。通过设计一些prompt让大模型去做这些数据集的任务,与标准答案进行对照计算分数。典型的如OpenCompass,huggingface的openLLM leaderboard等。

2.让GPT-4做裁判。收集评测用的数据集(一些不是公开开源的、不带标准答案的数据集也会包含在内),然后让GPT-4给大模型的生成结果进行评判。此评判过程又有两种打分方式,一是直接打分,一是设计一些维度,例如事实性、准确性、安全合规性等,然后更细粒度地进行评测。

3.竞技场模式。类似于竞技游戏里面的竞技场。每次拉两个大模型选手PK,由用户(有时候也会用GPT-4)来评测哪个模型更好,赢的大模型有加分,输的大模型有减分。当执行了足够多的PK轮次后,就会有一个大模型的得分排行榜,这个榜单相对来说还是比较公正的,能够较为客观得体现模型的能力强弱。典型的例子如UC伯克利发布的Chatbot Arena Leaderboard。

4.针对单项能力的评测。例如针对数学能力、代码能力、推理能力等,评测这些能力既可以判断一个大模型是否真的具备类似人类的思考能力,其评测结果也能够直接帮助在特定领域场合中选择大模型(例如代码助手)。


-3- 评价结果“天差地别”


评测工具五花八门,不同评测工具的评价结果也“天差地别”。

8月15日,一家机构的人工智能大模型体验报告发布,对国内主流大模型进行使用体验的横向测评。该榜单用500道题目评测了国内8款主流AI大模型,最终讯飞星火排名第一,百度文心一言排名第二,阿里通义千问排在倒数第二。

9月,学术界当红开源评测榜单C-Eval最新一期排行榜中,云天励飞的大模型“云天书”排在第一,而GPT-4仅名列第十。

同月,SuperCLUE发布了大模型9月榜单。总榜上GPT-4排名第一,而商汤科技的SenseChat3.0拿下中文榜单首位。

10月19日,斯坦福大学发布了2023基础模型透明度指数,对10个主流基础模型进行了透明度评级,Llama 2排名第一、GPT-4排名第三。

为什么各大评测工具的评价结果截然不同呢?究其原因,主要有以下几点:

1.每个流行学术评测集都有自己的侧重点。比如Meta最常选用的GSM8K和MMLU,是不同水平的考试集——前者是小学数学,后者则是更高级的多学科问答。就像一个班的学生参加不同学科的考试,大模型们在不同榜单上自然排名不同。

2.主观题在大模型评测中比例上升。在现行海内外大模型评测榜单中,主观题与客观题结合的思路普遍被业内认可。但主观题的挑战在于,每个人心中的评价标准是否一致。以及“人类团队评分”必然会触及题目数量的天花板,而对于大模型评测而言,题量越大得出的结论则越有效。

3.专用模型与通用大模型之间在垂直领域的同台竞技导致排名失真。在实际落地场景中,制造业、医疗、金融等行业内企业客户在接入大模型能力时都需要根据自身数据库做二次微调。这也意味着,原版通用大模型直接参与垂直领域问答所得出的结果,并不能够代表大模型产品在垂直领域的真实表现。

4.开源测试集引发的“刷榜”现象。不少新晋大模型之所以能在开源测试集榜单上的排名超越GPT-4,一些原因是因为涉嫌“刷题”。例如C-Eval目前只公开了题目但没有公开答案,参与测试的大模型厂商要么找数据标注员把题目做一遍,要么用GPT-4把题做一遍,再把答案扣下来训练大模型,这样都能在相应学科测试中获得满分。

闭源评测集就能规避“刷榜”吗?不然,如果闭源评测集不进行更新换题,参与评测的模型可以从后台拉出历史记录进行“作弊”,重做被测试过的问题。这等同于“虚假闭源”。

针对上述问题,业界也在探索相应的解决方案。

例如,对于大模型评测主观题评价标准难以一致,以及“人类团队评分”触及题目数量天花板的问题,业内开始采用“人类+GPT4评分”的模式。国内如SuperCLUE会选择将GPT4视作“评卷老师”,让其加入人类团队辅助评分。

再如“刷榜”问题,业内人士认为,“评测集应该是封闭的,避免被作弊,但一个好的大模型评测应该是过程公开的评测,方便大家对评测做监督。”

也有人认为,将大模型评测过程公开是很好的愿景,但考虑到评测的公平公正性,还是应有大量的封闭评测集,“闭卷考试”才能真正的评价出模型的能力。

此外还有防刷分的大模型评测,比如复旦大学NLP实验室推出LLMEval-3采用了一种新颖的评测模式,即“题库考试”模式。在LLMEval-3中,每个参与评测的系统需要完成从总题库中随机抽样的1000题,针对同一机构的模型,确保每次评测题目不重复。评测过程将采用在线方式,一轮评测中题目的发送串行进行,即下一题的发送将会视上一道题目的回答情况而定,避免恶意爬取行为。

由于大模型涉及的领域和应用非常广泛,不同领域、不同应用的大模型需要关注的指标和评估方法不尽相同。因此,针对具体应用领域和需求,不同机构和组织可能会提出不同的评估标准和方法。“尽管没有统一的标准,但测评的意义在于提供了一种评估和比较不同大模型性能和效果的方法,帮助用户选择适合自己需求的大模型。”

如何作出真正综合全面的大模型评测,学界和产业界最前沿也“一头雾水”。即便如此,权威机构更应加强研究,尽快形成共识,促进技术进步和行业发展。