国产大模型新进展，光芒照进听觉领域

转载

871 天前

5947

元宇宙与碳中和研究院

文章转载来源：元宇宙与碳中和研究院

按照传统看法，AI与大模型等涉及到的机器学习概念主要集中在“视觉”领域，经过不懈努力，现在已经拓展到听觉领域了。清华大学与火山语音团队合作，推出认知导向的开源听觉大模型SALMONN，名称源于Speech Audio Language Music Open Neural Network的首字母缩写。Demo链接：https://bytedance.github.io/SALMONN/

如果仅以人的角度来看，视觉与听觉是既独立又配合的信息系统。但从电脑，大模型等涉及到AI的角度来说，从视觉到听觉的跨越绝非动动嘴或手指那般想象中的简单，其中的意义可以用美国登月先驱阿姆斯特朗的那句名言概括：“这是我个人的一小步，也是人类的一大步。”

与传统的语音输入或语音助手等不同，仅从名字上就不难发现，SALMONN对讲话、语音、音频、音乐等各类音频信号输入都具有感知和理解能力，相当于给大模型加上了耳朵，再以此为基础发展出多语言、跨模态推理等更复杂且高维的能力。具体说来，SALMONN的底层大模型是Vicuna 13B，即著名的“羊驼”，加一个基于Whisper Encoder的通用音频编码器，再来一个负责对齐音频和文本模态的融合器。在这套设施的配合下，SALMONN就对音频信息具有了直接感知能力。

而传统的音频处理手段较为繁琐，在接受到音频信号后先要通过API调用底层工具将音频转化为文字信息，再将文字信息输入大模型做后续处理。与之相比，SALMONN可以直接从现实世界获取知识，并在一些复杂场景中也有很好的理解和处理能力。而且由于训练数据全部基于文本指令，因此也可以说它拥有跨模态的交互能力。

官方发布的模型解析图

从目前的消息来看，SALMONN能够胜任多种多样的语音相关任务，同时又有多种在训练时没有专门学习过的多语言和跨模态能力，如不同语种的语音识别、英语到其他语言的翻译、对语音内容的摘要与提取关键词、通过音频生成故事、音频问答、语音和音频联合推理等任务。

根据官方团队的说法，SALMONN能处理的任务，依据从易到难的程度可以分为三类：1.训练中就学习过的任务，2.训练中没学过，但SALMONN能够基于文本输入完成的任务，3.训练中没学过，需要直接感知音频或视频的多模态大模型才能完成的任务。

如果仅看论文和demo很容易觉得SALMONN“不过如此”，但前面已经提到过，机器视觉与机器听觉属于两个领域，目前经常提到的AGI（通用人工智能）和机器学习等概念里，关于听觉的研究仍然以“语音助手”或类似的形式出现，比如十几年前就登上iPhone的Siri。虽然概念非常前沿，但机器听觉的发展却长期不如机器视觉那样迅速且高产，即使现在AGI，大模型等概念非常火热，但机器听觉似乎还是难以引人注目。

之所以会有如此窘境，主要是因为机器听觉与机器视觉的先天性差异，以及由此导致的一系列困难。过去曾介绍过，苹果的Siri已经算是质量很好的语音助手了，但依然经常被人嘲讽为“人工智障”。后来又有消息说苹果对Siri也有诸多不满，历次发布会里对它一直都很少提及，即使提到可能也只是“更智能”“更强大”之类的套话。之前马克·古尔曼爆料苹果在秘密开发Apple GPT时也说过，Siri部门长期陷于费力不讨好的泥沼中，苹果多年来一直想为Siri进行一次革命性更新，甚至是为此而单独规划生产线，专门出一款新产品，将Apple GPT与Siri集成到一起或许是一种好方法，能识别语音且能用语音控制的大模型，的确是比较酷的。

此次清华大学与火山语音合作推出的SALMONN可能就走在这样一条路上，也的确展示了全新的玩法，或许没多久就有更多类似的新产品问世了。

关键词：

来源：元宇宙与碳中和研究院

发布人：暖色

声明：该文观点仅代表作者本人，不代表火讯财经立场。火讯财经系信息发布平台，仅提供信息存储空间服务。

如文章涉及侵权，请及时致函告之，本站将第⼀时间删除⽂章。邮箱：840034348@qq.com

上一篇：AIGC|如何使用AI工具快速生成艺术字?

下一篇：2026央行工作会议：为虚拟货币“堵偏门”，为数字人民币“开正门”，RWA纳入合规轨道

国产大模型新进展，光芒照进听觉领域

17324篇

114672792

新闻排行

2026年1月1日起，数字人民币从“数字现金1.0时代”迈入“数字存款货币2.0时代”！

数字人民币成为广州“十五五”金融核心引擎：这步棋如何影响万亿级资产数字化未来？

央行上海总部再发警示：数字人民币诈骗“陷阱”升级，公众如何筑牢防线？

茅台“巽风”的四年探索，走出一条具有中国特色的数字资产落地路径

5亿美元入局SolanaRWA：Keel的“资本阳谋”如何重绘竞争版图？

香港试点计划引爆热议：RWA如何从概念炼成现实资产？

HashKey打响“加密资产第一股”：RWA赛道为何集体看向IPO？

传统证券交易所的“代币化时刻”：纳斯达克如何定义RWA的未来？

友情链接：