商汤全球首发的这个功能,就连OpenAI都还没做到

转载
298 天前
5079
AIcore

文章转载来源:AIcore

文章来源:新智元

图片来源:由无界AI生成

就在刚刚,商汤新一代「日日新SenseNova 4.0」大模型体系全面升级,多项任务性能超越GPT-4。

与此同时,全球首个支持不同模态工具调用的Assistants API,也在今日发布!

API申请网址:https://platform.sensenova.cn/

除了商量大语言模型、秒画文生图大模型外,商汤还发布了大语言模型的数据分析版本、升级了医疗版本「大医」等,将LLM通用能力推向更多领域。同时还有备受期待的多模态大模型。

值得一提的是,商汤最新的Assistants API内置多种工具,支持「文生图」与「图生文」的工具属实是全球首发,目前就连OpenAI也还无法做到!

当我们将大模型和各类应用服务工具连接起来,开发者就轻松拥有了强大的AI助手,LLM「大脑」就有了「眼睛」和「手臂」。

现在,到商汤日日新SenseNova4.0平台,国内的开发者和用户就能在一个系统里,轻松调用图文多模态能力了。


全新SOTA模型+Assistants API,轻松拿捏各种任务


智能识图

图像理解是任何多模态模型必不可少的技能。

比如,给模型一张行车路况图,乍一看,貌似是一道考验OCR能力的题目。

实则不然,想要正确回答这道题,它不仅需要将图中占比较小的多块指示牌上的字体提取出来,还需要进行推理,最终才能判断出去黄石东路怎么走。

再输入一幅画,它便一眼认出这是油画,还可以精准地将作品中的各种细节特征描述出来,比如蝴蝶的动态、昆虫的颜色。

甚至,基于以上的一些特征总结,它还能进行深入分析,提供自身评价供我们参考。

此外,在海报识别上,它的表现也是十分出色——通过识别海报中的文字信息,便能确定海报主题。

还能快速解析海报主题相关的信息,结合文字信息和视觉信息读懂整幅海报的氛围。

服装穿搭,它也非常拿手,让你穿着打扮更有范儿。

当你问这件外套,该怎么搭配?

它会识别出衣服颜色款式,并会提供合适的穿搭建议,「配一件白色或浅色系的衬衫,下装选黑色或深棕色的裤子,然后配一双黑色的皮鞋」。

多模态模型能读懂的不只是氛围图,还有表情包。

比如一只倾头凝视的猫咪,以及背后传达的情绪与态度,都能识别出。

上传东方明珠的照片,它就会给出详细介绍。


图片生成

除了图像理解外,文生图功能还可以为你画出刚刚这个场景的夜景。


在线检索

在线检索工具,则是让我们拥有了访问外部知识的能力。

比如,让它查询上海各区最新的人口数据,就能给出准确的回应。


数据分析

此外,还可以通过对话进行文档和数据分析。

比如作为一个产品经理,想了解世界范围内各个APP的使用情况,就只需要上传一份APP使用数据的excel表格。

勤勤恳恳的小浣熊会立刻在左边对话框生成相应的Python代码,以及所要求的图表,并在右边给出对应的分析结果。

不管是简单的折线图,还是复杂的箱线图,都可以快速呈现。

除此之外,它还可以分析多个表格之间的关联关系。比如看一下各地的水资源分布和他的人口数是否有相关性。

不仅可以针对多个表格文件进行关联分析,还能进行多轮对话。以及如果对图表呈现感觉不满意,还能提出修改意见。


商汤日日新4.0发布

显然,这些能力的实现,都要靠强大的模型能力来提供支持。

目前,经过最新升级的日日新4.0,在整体表现上已经非常接近GPT-4的水平了。

相比之前版本,日日新 4.0拥有更为全面的知识覆盖、更加可靠的推理能力,更长文本理解力,及稳定的数字推理能力和代码生成能力,并支持跨模态交互。

具体来说:

- 代码能力在HumanEval Coding评测上斩获75.6分,超越了GPT-4Turbo的74.4分

- 多模态能力在MMBench评测上,整体性能超越GPT-4V(84.4分 vs 74.4分)

- 代码解释器在数据分析领域以85.71%的正确率超越了GPT-4的84.62%

- 此外还有部分垂直领域能力,也可以实现对GPT-4 Turbo的超越

- 而推理能力则达到了GPT-4 Turbo 99%的水平


商量大语言模型-通用版本(SenseChat V4):4K/32k/128k全面升级,测试成绩比肩GPT-4

我们看到,研究团队新增了包括业务通用、数学能力、K12考试和文学期刊数据的约600B tokens的中英文预训练语料,从而让模型的理解能力和输出质量有了质的提高。

此外还对模型进行了4次超强的预训练,使得模型在阅读理解、综合推理、代码能力等任务上实现了5%-10%的定向性提升。

针对不同的使用场景,他们分别升级了4k、32k、128k三种上下文窗口模型的性能,拓展了应用范围。

其中SenseChat-32k可支持约三万字以上的中文长文本总结,整体能力平均达到了GPT-4-32K 90%以上水平,并在理解能力上实现了超越。

而「旗舰级」的SenseChat-128k,更是可以支持约十二万以上的中文长文本总结,并且同样在理解能力方面实现了对GPT-4的超越。

在「大海捞针」实验中128k、32k都实现了近乎完美的召回率,整体表现超过GPT-4。

日日新·商量大语言模型-数据分析版本(SenseChat-DataAnalysisCode V4)

除此之外,商汤还新增了商量大语言模型-数据分析版本以及数据分析工具「办公小浣熊」,能理解多种表格和文件类型以及复杂表格处理。

可支持多种格式的本地数据文件上传(如xls、xlsx、csv、txt、json等),以及单表格、多表格、多文档类型、复杂表格等不同数据场景。

结果显示,模型在1000+测试集上的精度超越GPT-4(85.71% vs  84.62%),并且在强大的中文理解能力加持下,更能够满足国内数据分析的需求。

日日新·商量大语言模型-医疗版本「大医」(SenseChat-Medical V4)

医疗场景下,「大医」在多轮对话与上下文理解能力上面实现了性能的大幅提升。

它还可以有效实现专业医学问答以及复杂医学任务的推理,配合上丰富的工具调用能力,还能支持更多模态医学文件的智能解读和交互问答。

在两项行业权威评测——2023年职业药剂师考试大模型评测和中文医疗大语言模型开放评测平台MedBench中,「大医」均跻身综合评分排名第二,性能接近GPT-4。

成绩超越了多个通用及医疗垂类开源大语言模型,体现了非常高的专业垂直领域的落地性能。

2023年职业药剂师考试大模型评测


中文医疗大语言模型的开放评测平台MedBench

日日新·商量多模态大模型(SenseChat-Vision V4):不止「看」到,还能 「读」懂

多模态大模型作为大模型发展的最前沿,它的能力直接决定了大模型在各行各业中落地后解决实际问题的能力。

而商汤的图文多模态大模型,不仅在开放世界视觉理解、描述、常识理解、抽象推理、多模态知识等方面表现卓越,而且视觉感知力已经无限接近人类水平。

可以看到,在权威综合基准测试MME Benchmark中,综合得分排名全球第一,表现出了全世界独一份的视觉感知能力。

在分别评测中英文多模态能力的MMB-CN与MMB-EN中,均超过GPT-4V总分位列第一,在处理中文和英文场景的图文感知需求方面都具备强劲优势。

其中,测评集共包含20个评测维度,通过从细粒度感知、单实例感知、跨实例感知、属性推理、关系推理、逻辑推理等方面来全面评估模型的多模态能力。

而在覆盖认知、知识、OCR、空间定位、语言生成、数学六大核心多模态视觉问答能力评价榜单MM-Vet中,也处于国内领先的位置。

之所以能够取得如此出众的多模态综合能力,首先是基于领先的单项能力。

首先,视觉基础模型拥有60亿参数,性能与业界领先的谷歌ViT 22B持平,在多个任务上达到业界SOTA。

其次,还融合了大语言模型的优势,强化了图文跨模态领域的能力。

具体在模型的训练上,研究团队不仅开发了用于处理经典视觉任务(如分类、检测、分割、Grounding等)的通用视觉任务解码器。

而且,对于开放式的长尾任务,还提出了通用长尾任务控制器,进一步拓展了多模态大模型的能力边界。

日日新·秒画文生图大模型(SenseMirage V4):细节质量大幅提升,实现电影级质感

在顶级的图像绘制能力基础之上,秒画文生图大模型结合了语言模型对于提示词的超强理解能力。

用户不用描述出画面所有的细节,只要提供画面的主要信息和基本用途,就能生成电影海报级的精美图像。

这样,不但大大降低生图模型的使用门槛,还能有效保证Assistant API调用时能做到「精准分割,所问即所得」。

具体来说,相对于之前的版本,秒画文生图大模型在高效的数据清理策略下,图文对增至10亿+对,模型的参数量也提升至百亿量级。

他们还进一步优化了模型的Turbo版本,结合Adversarial Distillation,达到了10倍的加速效果。

模型采用了Mixture of text experts、Spatial-aware CFG等算法,大幅度提升语义理解与图像质感和细节表现。


Assistants API首次支持不同模态工具调用


对于开发者用户来说,这次更新升级还带来了超越OpenAI的工具能力——

最新的⽇⽇新·商量大语言模型Function call & Assistants API版本内置图片生成(文生图)、智能识图(图生文)、数据分析(代码解释器)、在线检索工具。

如此一来,大大降低了开发者想要在自己的应用中实现各种AI功能的门槛,使得API的调用效率产生了质的提高。

Assistants API的概念最早是OpenAI提出的。去年11月在首届开发者大会上,Sam Altman重磅发布面向开发者的全新产品Assistants API,开启了测试阶段。任何拥有OpenAI API的用户都能够使用。

现场,Altman介绍了Assistants API具备的能力有:

- 持久对话,意味着开发者不用再为如何处理长历史会话而烦恼

- 支持对检索(Retrieval)、代码解释器(Code Interpreter)等OpenAI托管工具的访问

- 支持第三方工具的函数调用(Function Call)

函数调用是可以让Assistants API与外部工具和API连接的新方式。它可以让模型输出一个请求调用函数的消息,其中就包括调用的函数信息,以及参数信息。

然而遗憾的是,OpenAI助手API没有多模态能力,目前不支持DALL-E模型。

与单个模型API调用(比如Images API,GPT-4 Turbo、Audio API)不同,可以看到Assistants API已经拥有模型、工具、检索等功能的集成,能为开发者节省大量的时间。

根据Altman的设想,「随着时间的推进,GPTs和Assistants API将作为智能体的前身,未来能够为我们做越来越多的事情。它不仅能规划我们的生活,还能执行更为复杂的任务」。

商汤此次发布了全球首个支持不同模态工具调用的Assistants API,先OpenAI一步让理想照进了现实。

与基础的Chat Completion接口相比,商汤Assistants API的突出优势在于,支持图文结合的多模态交互,和代码执行结果的直观呈现。

这些内置工具的综合运用,使得Assistants API能够通过多轮对话和多轮工具调用,解决更加复杂的问题。

Assistants API不仅赋予了大型模型以识别图像、编写代码、执行互联网搜索和绘制图像的能力,还允许用户自定义工具,进一步扩展了这个LLM「大脑」的操作范围。

Assistants API的创新,将推动商业技术格局发生巨变。这一突破性的工具,不仅是一项技术进步,还为客户交互、流程自动化和决策提供了一种新的可能性。

- 超长上下文,重新定义对话

Assistants API的一个核心特点是它提供了一个更加结构化的方法,来处理用户与大模型之间的交互。

这是通过创建一个「线程」——代表一场对话——来实现的。在这个线程上,可以传递特定于用户的上下文和文件,从而使对话更加个性化和连贯。

这个线程没有大小限制,可以向线程传递任意多的消息,而API会使用相关优化技术,确保对模型的请求适合最大上下文窗口。

对于企业来说,每次客户的互动都可以保留成历史会话,可以拥有完整的持续对话的能力。

这样的设计,可以确保每个查询都能在上下文中被理解,从而产生更相关和更有洞察力的回答。

- 创建量身订制AI助手,改变交互方式

此外,Assistants API的核心就是增强企业与客户、数据的交互方式。

用户可以根据需求定制一个AI助手——能够进行对话响应、执行复杂的数据分析,或提供个性化客户支持。

最重要的是,它提供了一个简化的流程来创建AI助手,能够以前所未有的准确性,理解和响应复杂查询。

- 代码解释器解决实时问题

对于需要处理数据,或分析复杂数据的开发者和企业,代码解释器能够让AI助手安全地执行Python代码,将其转换为实时解决问题的强大工具。

- 通过检索扩展应用知识

而检索工具可以让AI助手访问外部知识,提供在预训练数据之外的内容,丰富特定信息的回应。

由此可以看出,Assistants API不仅仅是一种AI工具,更是一种商业战略资产。

它提供了一个灵活、高度可定制的框架,开发者可以通过结构化的线程处理用户请求,并结合多种多模态工具和模型来提供响应。

它可以彻底改变客户服务,自动化复杂任务,并可以推动企业富有洞察力的决策和创新。

随着商汤「日日新模型」升级到4.0,不论是在大语言模型、多模态大模型,还是在文生图大模型,全部完成了新一轮进化。

超强模型大脑,外加工具调用能力,能够为开发者和企业创建定制的开应用,开辟了全新的视野。

面向未来,大模型的根本就在于重塑生产力模式,商汤正在做的,就是用全新工具为技术研发赋能。

参考资料:

https://platform.sensenova.cn/