11月02日,星期四 07:45
火讯财经讯,据站长之家11月2日报道,蚂蚁集团联合北京大学发布了面向DevOps领域的大语言模型评测基准“DevOps-Eval”。该评测基准包含了计划、编码、构建、测试、发布、部署、运维和监控等8个类别的选择题,共计4850道题目。此外,还针对AIOps任务做了细分,并添加了日志解析、时序异常检测、时序分类和根因分析等任务。目前,DevOps-Eval已发布了第一期的评测榜单,评测了OpsGpt、Qwen、Baichuan和Internlm等开源大语言模型。DevOps-Eval的评测方式包括Zero-shot和Few-shot,评测结果显示各模型得分相差不大。