01月08日,星期一 05:30
火讯财经讯,据站长之家1月8日报道,字节跳动与浙江大学合作推出了多模态大语言模型Vista-LLaMA,该模型专为视频内容理解而设计,能够输出高质量视频描述。通过创新的视觉与语言token处理方式,Vista-LLaMA解决了在视频内容中出现“幻觉”现象的问题。Vista-LLaMA在多个开放式视频问答基准测试中表现卓越,尤其在NExT-QA和MSRVTT-QA测试中取得了突破性成绩。其在零样本NExT-QA测试中实现了60.7%的准确率,在MSRVTT-QA测试中达到了60.5%的准确率,超过了目前所有的SOTA方法。这些结果证明了Vista-LLaMA在视频内容理解和描述生成方面的高效性和精准性。