大模型内卷升级，国产大模型力争多模态高地

文章转载来源：AI第一视角

随着1月23日，多模态AI概念股午后拉升,昆仑万维涨超10%,三六零、拓尔思、云从科技、汤姆猫等跟涨。到了24日，多模态AI概念股整体上涨0.81%，主力资金流出7.98亿元。

图源：网络

根据2024年的表现来看，在多模态大模型领域，风险远高于机会。多数投资者更愿意在股票价格上涨时卖出，以锁定利润，同时也有可能会因担忧未来的不确定性而选择离场。

但严寒注定退去，春天也必然带来温暖和新的开始，股价的浮动并不能阻止人工智能技术高速进步的脚步，多模态大模型的应用场景和价值正在不断扩展和提升。从语音识别、图像生成、自然语言理解、视频分析，到机器翻译、知识图谱、对话系统、内容创作，多模态大模型都能够提供更丰富、更智能、更人性化的服务和体验。

大模型之家发布的《工智能大模型产业创新价值研究报告》曾指出，随着传感器技术的发展和物联网的兴起，大量的多模态数据（如图像、视频、声音等）被广泛采集和应用。大模型将引发人工智能多模态、多场景的革命。大模型可以利用这些多模态数据进行跨模态学习，从而提升其在多个感知任务上的性能和表现。通过充分利用大模型的泛化能力、构建多模态数据集、解决融合和对齐问题，以及提供强大的计算资源支持。

图源：大模型之家

海外大厂齐发力，多模态大模型已成趋势

在近期比尔·盖茨与山姆·奥特曼的对话栏目中山姆·奥特曼就曾多次提及多模态大模型对于OpenAI的未来发展和商业化进场带来了很多期待。

图源：网络

当二人谈到对于OpenAI来讲下一阶段最重要的发展方向时，山姆·奥特曼表示语音输入和输出、图像输出以及最终的视频输出将成为公司重点发力的方向。据了解，在图像生成领域OpenAI的DALL-E 3已经可以依靠语音形式生成用户需求的内容，并且DALL-E现在可以控制生成的内容满足正确的价值观念、尊重知识产权以及保护用户隐私安全。

除DALL-E以外，OpenAI在针对GPT plus会员用户提供了众多基于GPT-4开发的插件产品，依靠ChatGPT得天独厚的数据优势，GPT plus会员可以使用的插件产品多达上百种，其中针对视频、图像、翻译等领域的应用都获得使用者广泛的好评。

不过，2024年的人工智能市场格局是否由OpenAI一家独大现在仍是未知数，山姆·奥特曼就曾明确的表示了ChatGPT在推理能力上的不足，并强调了提升模型可靠性的必要性。

事实上，山姆·奥特曼的担忧在23年底就以已现苗头。2023年年底Google DeepMind推出Gemini大模型，一时间在人工智能行业内引起了不小的震动。

并且，Gemini最出彩的地方则是多模态领域的表现。在官方介绍视频中，Gemini能够分析和理解正在变化的视频，并生成相应的描述。不仅如此，当提供文字介绍时，Gemini还通过音频形式对文字内容进行生动的复述，其中包含了一些拟人化的语气、停顿，以及富有趣味性的对话。这使得Gemini与用户的交流更加自然流畅。

图源：网络

谷歌计划将Gemini用于各种应用程序，如改进网络搜索、自然图像理解、OCR、医疗和护理教育、科学研究等。值得一提的是，在大模型之家体验集成了Gemini Pro的大模型Bard时也发现。Bard在图片处理方面也有着显著的提升。详情请参考《谷歌Gemini：挑战GPT只是序幕，颠覆英伟达才是最终目标》。

在国外大型科技企业纷纷加强在多模态领域布局的风头下，国内的大模型企业也并没有落下这一趋势。三六零董事长周鸿祎在关于2024大模型发展的十大趋势判断中明确表示：“多模态将成为大模型标配。以Gemini和GPT-4V版本为代表，多模态会成为大模型的标配，不仅能听会说，还能看懂图片和视频，能识别更能理解。”

齐头并进，国产大模型发力产业融合

中国大模型企业正在积极响应全球多模态大模型的发展趋势，加强在语音、图像和视频处理等方面的技术布局。这一趋势不仅推动了企业在创新领域的竞争力，也为用户提供了更加丰富和智能化的服务体验。

图源：网络

开年不到一个月，在智谱AI便技术开放日中发布了新一代基座大模型GLM-4，其中GLM-4的All Tools能力成为发布会上最亮眼的环节之一。得益于GLM模型的强大Agent能力，GLM-4具有强大的工具能力，包括代码执行、联网浏览、画图等。这些工具为用户提供了广泛的应用场景，从数据分析到自然语言处理，从信息检索到自动文本生成。特别是GLM-4的All Tools能力完全自动，而且可以处理各种任务，比如包括文件处理、数据分析、图表绘制等复杂任务，支持处理 Excel、PDF、PPT 等格式的文件。

追溯大模型产业布局，我国人工智能企业在发布大模型之初便一直在多模态领域发力。例如阿里巴巴旗下的通义千问在发布后的几个月就将通义全家桶已经扩展成了包括通义千问、通义听悟、通义万相等语言、视觉、多模态的AIGC工具。

大模型之家认为，在国内，企业普遍认识到大模型技术不仅仅是一种技术手段，更是推动业务创新和提升竞争力的有力工具。国内企业对人工智能技术的应用并非仅仅停留在技术的研发上，更是将其有机融入业务流程和产品服务中，以推动业务的数字化转型和智能化升级。

这种注重实际业务应用的态度，使得人工智能不再是一种抽象的概念，而是贴近企业实际运营的核心要素。企业通过大模型技术的引入，不仅提升了业务的效率和准确性，还为客户提供了更为个性化、智能化的产品和服务体验。