10月08日,星期天 02:00
火讯财经讯,据站长之家10月8日报道,来自威斯康星大学麦迪逊分校、微软研究院和哥伦比亚大学的研究人员近期开源了一款全新的端到端多模态大模型LLaVA-1.5,该模型在11项基准测试中都实现了新的状态最优(SOTA)成绩,包括视觉问答、图像caption等任务,展现出了强大的多模态理解能力。可与OpenAI的GPT-4V形成正面竞争。相比之前的版本LLaVA,LLaVA-1.5采用了更高分辨率的图像输入、更大规模的语言模型(13B参数),以及面向学术任务的视觉问答数据集,从而获得了显著的性能提升。研究人员发现,与额外的大规模预训练相比,视觉指令微调对提高多模态能力更为关键。