10月23日,星期一 03:00
火讯财经讯,据站长之家10月23日报道,研究人员推出了一种新的视觉提示方法Set-of-Mark(SoM),它可以让OpenAI多模态大模型GPT-4V在细粒度视觉任务上有更好的表现。GPT-4V是一种基于GPT-4的多模态模型,可以同时处理文本和图像,并生成多种类型的输出。SoM的核心思想是使用交互式分割模型(例如SAM)将图像划分为不同粒度级别的区域,并在这些区域上添加一组标记(mark),例如字母数字、掩码(mask)、框(box)。使用添加标记的图像作为输入,以解决上述问题。研究人员认为,这种方法可以让GPT-4V更好地理解图像中的物体和空间关系,并且可以利用GPT-4V的生成能力来产生文本之外的输出,如掩码或框。