11月13日,星期一 10:00
火讯财经讯,据站长之家11月13日报道,智源研究院开源了一种名为JudgeLM的裁判模型,可以高效准确地评判各类大模型。与GPT-4相比,JudgeLM仅需1/120的成本,就能达到90%以上的评判结果一致性。它可以应用于纯文本、多模态等多种评判场景,并可以输出评分、判断和阐述理由。通过创新方法,JudgeLM与参考答案的一致性最高超过了90%,接近人类表现。JudgeLM有三个不同参数版本,分别为70亿、130亿和330亿参数,能力和表现随着参数规模的增大而提升。此外,智源研究院还开源了一个包含训练和验证样本的数据集,用于深入研究大语言模型裁判。JudgeLM的评判效率高,成本低于基于API的评判方法。