GeminiProvsGPT-4V：谷歌这次杀了它吗？

文章转载来源：AIcore

文章来源：AI猿

图片来源：由无界 AI生成

尽管谷歌发布了其竞争对手 Gemini Pro，但有人声称与 OpenAI 的 GPT-4 相比，它没有达到预期。持续的争论围绕着 Gemini 还是 GPT-4V 是否更全面更胜一筹。虽然许多观点倾向于 GPT-4V，但必须承认 Google 的 Gemini Pro 也不甘落后。

最近，来自香港和上海的研究人员发表了一篇题为《Gemini Pro vs GPT-4V: A Preliminary Comparison and Combination of Vision-Language Models Through Qualitative Cases》的研究论文，比较了两个模型的视觉能力，结果相当有趣。

Gemini Pro在特定推理任务中表现出卓越的表现，特别是逻辑推理和事实准确性。这使得 Gemini 成为需要强大理解和分析能力的任务的合适选择。因此，认识到这两种模型的优势非常重要。在讨论中支持 GPT-4V 可能并不完全合理。

GPT-4V VS Gemini Pro

研究表明，GPT-4 V 的响应表现出精确性和简洁性，显示出在上下文理解方面的显着优势。另一方面，Gemini Pro 擅长提供详细而广泛的答案，再加上相关的图像和链接，凸显了其生成丰富内容的能力。在工业应用场景中，两种模型都表现出了能力，尽管存在细微差别。

Gemini 一次输入单个图像的限制取决于随附的文本指令，这与 GPT-4 V(ision) 连续摄取多个图像的能力形成鲜明对比，从而增强了其记忆能力。虽然这两种模型在基本图像识别任务中表现出相当的熟练程度，但 GPT-4 Vision 在现实世界的对象定位方面表现出色，特别是在抽象图像（七巧板）定位方面。

从图像中提取文本是这两个模型的强项，但 Gemini 在读取表格信息方面超越了 GPT-4 Vision。两种模型都在高级推理任务中展示了常识性理解，Gemini在某些智力测试中稍稍落后。值得注意的是，这两种模型都在情感理解和表达方面表现出色。

GPT-4 和 Gemini 之间的选择取决于具体的任务要求。GPT -4 适合多模式和提示任务，Gemini 适合与代码相关的工作或优先考虑计算效率的场景。

Gemini通过考验了吗？

当谷歌在发布时通过演示视频展示 Gemini Ultra 的多模式功能时，每个人都惊叹不已。但后来发现，该视频是摆拍的。

谷歌上传的六分钟视频向我们展示了Gemini进行流利对话、回答查询以及参与诸如与人玩石头剪刀布等游戏等活动的各种例子。

在演示中，一切似乎都是实时发生的，Gemini 可以快速响应。相反，Youtube 上对该视频的描述是：“出于本演示的目的，为了简洁起见，延迟已经减少，Gemini 输出也已缩短。” 但 Gemini Pro 的性能却并非如此。

在强调 GPT-4 V 在基准场景中令人印象深刻的功能时，认识到 Gemini Pro 与之共享的并行优势至关重要。Gemini 因其能够提供简洁而直接的响应而脱颖而出，在需要事实准确性和及时信息检索的任务中具有显着优势。

这种共性强调了两种模型在应对特定挑战方面的微妙有效性，并强化了这样一种观念，即一种模型的进步往往可以与另一种模型的能力产生共鸣。其强大的推理能力，特别是在专家任务中，以及提高的识别准确性，特别是在识别名人方面，展示了其在专业领域的实力。

Gemini 在代码相关任务中脱颖而出，在代码生成、理解、翻译和错误检测方面表现出熟练程度，使其成为开发人员的首选。它还拥有通用推理能力，并因其可扩展性和效率而备受推崇。

然而，这两种模型都有共同的弱点，包括空间意识的局限性、OCR 不可靠、推理不一致以及对提示的敏感性。由于缺乏具体报告的详细信息，阻碍了更深入的分析，强调了定量基准的必要性以及及时了解正在积极发展的两个模型的持续发展的必要性。虽然 Gemini Ultra 将于明年发布，但如果您优先考虑实用性、效率和更广泛的可访问性，Pro 可能是更好的选择。