如何让用户获得最佳AI体验？高通认为这三点尤为重要

文章转载来源：腾讯科技

作者：郝博阳

图片来源：由无界AI生成

2023年是大模型狂飙的一年，各种研究日新月异，但它和大多数普通人的关联还远未建立。一方面是由于缺乏有效和多样的用例，大模型在一般人的手中能发挥出的作用很难超越搜索引擎。另一方面是体验上的限制。

当下主流的大模型应用，如ChatGPT， Charater.AI等，都是以App形式承载的云端应用，用户量一度达到数亿。但高通高级副总裁Ziad Asghar认为，只有当智能设备有更好的AI体验的时候，AI应用才能真正做到普及。因为设备端的能力能给用户带来更快的响应，更好的个性化配置和更便宜的价格。这三个因素对于消费者最终接受新兴产品来讲至关重要。

这种认知也来自于科技产业的历史经验。Ziad 认为新科技的扩散路径就是从云到端，过往的互联网等技术变革都是在服务器中，通过PC或移动端覆盖到更大的用户技术的。因此AI也会溯源这一路径，以设备为节点链接终端用户。

除了AI硬件能力的提升之外，高通对AI时代的应用和设备发展方向也有自己的预判。Ziad Asghar表示，AI在未来可能会成为一切应用的入口。这意味着过往要开启数个App才能完成的流程，在未来只需向AI助手提起单个需求即可完成。在这一应用程序范式转变的过程中，除了智能手机，AR、VR产品也有可能会成为AI应用的优质载体。

以下为腾讯科技对高通高级副总裁Ziad Asghar访谈全文：

01、高通现在是一家AI公司

腾讯科技：高通在2023骁龙峰会上着重强调了AI能力，在高通的定位中AI是一个怎样的game changer？

Ziad Asghar：高通实际上已经在人工智能上投入了超过15年。2022年底ChatGPT出现之后，人们开始每天利用它工作，并寻找在日常中如何更好使用它们的方法。风潮过后，我们思考的是从产品方面，如何让AI能够为消费者做更多的事情。

在过去，电脑只是一台电脑，但现在它可以利用AI为你做很多事情。它能让你以更高效的方式工作，包括内容创作，为你写邮件，完成比以前更多的任务。

而且在过去，人工智能是在背后默默工作的。它在幕后帮助你改进照片、音频、语音或视频质量。但随着生成式人工智能的出现，出现了基础模型和用例，它创造出了新的机会。我们每天都可以看到行业中出现新的模型，这些模型具有更多的功能，能够为我们带来新用途。

因此，从智能手机到PC、从AR/VR到汽车和IoT，我们的产品都在充分利用我们对人工智能的长期投入。这就是我们认为AI是行业真正转折点的原因。它或许会开启一个新的周期，人们要买新手机，会想要一部AI智能手机；他们想买的下一台PC，会是一台AIPC。我认为这就是我们能够为消费者带来更多价值的地方。

腾讯科技：你提到了高通已经投入人工智能领域超过15年，所以它能算一家AI公司了吗？

Ziad Asghar：我们绝对是一家人工智能公司，如今大家更能明显的感知到我们的这一身份。

腾讯科技：高通作为一家硬件公司是如何认知自己的AI价值的呢？

Ziad Asghar：所有的技术创新都会从云端开始，然后随着时间的推移，逐渐过渡到边缘设备上。这正是我们在人工智能领域所看到的：生成式AI模型非常庞大，如果你考虑模型和推理所需的工作量，就会发现端侧计算的重要性。现在，我们可以在智能手机、PC和XR产品上以非常快的速度运行70亿、100亿和130亿参数的像百川或Llama这样的大语言模型。在智能手机上，我们可以以每秒生成20个token的速度运行70亿参数的大语言模型，在电脑上这个速度达到了每秒30个token。因此，我们在终端侧已经拥有了强大的AI计算能力。

人工智能的应用主要有两个部分：训练和推理。模型训练主要发生在云端，只要给模型提供大量信息，模型只需要训练一次。但训练好的模型需要进行推理时，计算会多次重复发生，这很可能要发生在终端侧。这其实显而易见：在2005年，大约有10亿人口能够使用互联网；但如今，全球有50亿人能够使用互联网。这一增长中的很大部分要归功于智能手机对网络的接入。

你完全可以想象人工智能的应用发展也会是同样的情况。如今，生成式人工智能基本上是在云端进行的，但随着技术进一步发展，它会更多地出现在终端侧。当然，终端侧可以与云端协同工作。这将大大推动AI体验的普及。

腾讯科技：在今年，我们看到所有的芯片公司都在强调人工智能。他们都在打造AI芯片以增强人工智能体验。那么，高通对AI芯片的定位和相对优势是什么？

Ziad Asghar：谁能更好地在终端侧运行生成式AI，谁就将成为人工智能的领导者。这就是为什么我们大力投入于进行模型优化，以及打造硬件解决方案，让终端侧能够在既定功耗下实现更多的AI能力，我们的硬件AI引擎在既定功耗下有着领先的AI推理性能，这使得我们能够以尽可能低的功耗，在终端上支持更高参数规模的模型，进行更多的推理操作。这一点至关重要。

从硬件角度，我们已经开发了模型量化、压缩和提炼技术。很多公司在云端训练模型时，是以浮点运算方式进行训练的。而高通能够支持整数运算，使得模型规模更小，功耗也更低。大语言模型的终端侧运行带来了许多挑战。要运行一个非常大的模型，需要将其存储在终端，在处理时需要占用DRAM内存，通过芯片进行推理。如果使用16位浮点运算推理像百川这样参数达到70亿的大模型，模型会占用终端大量的DRAM内存，许多手机甚至没有那么大的内存容量。但是如果使用4位整数运算，内存的问题就解决了。我们在这方面有着丰富的经验。同时，我们一直在打造软件工具，结合我们领先的硬件平台，我们能够非常高效地进行模型处理。因此，我觉得我们非常有优势，可以在AI边缘侧真正取得领导地位。

得益于我们长期的AI投入，我们打造了业界领先的硬件AI能力。以PC为例，我们刚刚发布了骁龙X Elite，它的高通AI引擎拥有45TOPS的AI性能，而整个芯片的AI性能达到了75TOPS。在PC领域，我们的AI引擎，包括CPU、GPU和NPU的性能非常领先。

因此我们可以支持在终端侧运行Microsoft Copilot，以低成本打造丰富体验，不需要接入云端。这为我们带来了巨大的优势，我们能够赋能PC厂商打造出领先的AIPC产品。当然，在智能手机、汽车、XR等领域也是如此。

腾讯科技：您刚才提到了软件。目前英伟达在AI服务器中的垄断地位，在很大程度上是由CUDA toolkit的便利性带来的。高通在配套开发软件这方面有什么举措吗？

Ziad Asghar：2022年，我们推出了高通AI软件栈（Qualcomm AI Stack）这一AI软件产品组合，它支持所有的AI开发框架，包括TensorFlow Lite，PyTorch，百度飞桨等等，以及所有AI库、编译器等开发工具，让开发者能够基于任何引擎（包括CPU、GPU、NPU）进行应用开发。同时，我们还推出了高通AI引擎Direct的框架，它能允许开发者在非常接近硬件的位置进行编码，这使得他们能够充分发挥高通AI引擎的性能。

此外，你将看到我们将通过在世界移动通信大会等活动上推出更多新工具，在开发者支持方面做出更多努力。

（Qualcomm AI Stack 架构）

02、从历史上看，新技术的扩散都是从云到端

腾讯科技：为什么高通选择了端云混合AI作为你们的主要发展方向？

Ziad Asghar：这是我们研究了众多不同的生成式人工智能模态得出的结论。首先，对于不论是大语言模型、视觉模型（如Stable Diffusion）、还是多模态模型，大部分模型的运算规模都不超过150到200亿参数。另一个趋势是模型参数规模在不断缩小，同时功能越来越强大。像Llama 2或者是百川这种规模的模型，他们相比于ChatGPT这样规模更大、需要在云端运行的模型来说，能力也非常强大。所以，当你把这两个趋势结合起来思考时，就能明白终端也能够做更多事情。而且在未来，我们的AI能力会持续提升。

但仍然会有非常庞大的模型，比如推荐模型无法被压缩。因此，我们认为它们可以继续在云端运行，在混合AI模式下，模型可以在端侧处理一部分内容，这可以保证消费者的数据隐私，这对他们来说这非常重要。系统会将其他推理任务传递到云端进行处理。通过混合AI，模型能够同时利用终端和云端优势，给消费者提供最佳体验。

假设，你正在利用AI对电脑上的文件进行摘要，如果这个文件有一定版权性质，你肯定希望处理工作能在本地进行，那么系统就会在端侧将这个任务完成。但假设你需要一个必须在云端处理的推荐模型，我们也可以利用在终端和云端进行分布式处理的技术。AI处理可以拥有一个云端和终端之间的协调层，实现非常出色，统一的跨终端体验。

腾讯科技：除了隐私保护外，终端侧AI还会带来什么云端无法带来的用户体验？

Ziad Asghar：首先，假设你在飞机上无法连接网络，这时候你就无法使用任何云端大语言模型或其他类似的功能。而如果你在终端侧运行AI，虽然断了网，但你仍然可以获得完全相同的体验。在汽车数字座舱中也是如此，当用户驾驶到没有网络覆盖的地方，也可以利用终端侧AI。

第二点，端侧模型可以实现非常快速的响应。消费者的耐心有限，如果不能够迅速地回答他们的问题，他们就会去其他地方寻找答案。因此，我认为即时性是非常重要的。

第三点是成本。成本是非常重要的因素。如果你不是在终端侧，而是在云端运行生成式AI，那就会用到高算力的GPU，耗费大量的电力。这些GPU会消耗数百瓦的电力，而你的设备只需要几毫瓦。因此，当有更多的生成式人工智能用例出现，有更多的人使用生成式AI时，云端计算规模也会对应增长，成本就会增加。而在终端侧运行则基本解决了这个问题：基本可以说是免费的。

最后的一个非常重要的优势是，智能手机会知道现在的时间，你在美国还是在中国；智能手机知道你是在行走，还是在交谈，还是在开车。如果我在云端大语言模型上提问寻求帮助，它给我的答案和它给我11岁的女儿的答案不会有任何差别。但如果我们能够利用终端侧可用的信息，使得查询更加精准，AI就可以给我一个更优化的答案，比如一个根据我所处位置不同的答案。所以，终端侧AI对实现个性化体验非常重要。甚至可以想象，随着时间的推移，手机或电脑上的模型会基于用户特征进行持续的个性化优化，这是云端模型难以做到的。

腾讯科技：前几年流行的“全部上云”风潮，包括苹果的云游戏策略等，都是通过云技术的发展，延迟的降低，在很大程度上也降低了游戏机等设备的端侧能力需求。这一发展潮流是否会在AI 模型方面出现？所以端云混合是否只是一个阶段性的解决方法？

Ziad Asghar：云游戏是很多公司尝试过的东西。但如果你仔细观察，会注意到能够在云上运行的游戏类型很有限，只有那些对时延不敏感的游戏才行，比如策略游戏。但如果是像多人联网动作游戏这种对时延要求很高的游戏类型，就不适用于在云端进行。在AI用例方面，比如车机系统中的ADAS应用（高级辅助驾驶），它必须支持在终端侧进行操作，因为它对即时性的要求会非常严格。所以云系统在很多方面是非常受限的。

另外，这些服务许多都是需要付费的。我认为这也是云端和终端的区别所在。我们在终端侧所做的，你可以随时进行，而且不会产生费用。放在云端的所有东西，都会持续收取费用。

03、AI未来就是一切应用的入口

腾讯科技：在目前，AI大模型还主要是以App的形式出现在智能设备之中的。您觉得后续随着AI能力的加强，应用程序生态会发生怎样的变化？

Ziad Asghar：实际上，这正是我们目前所设想的情况。假设你要预订一张去中国的机票，现在你要做的第一件事是打开一个应用，然后找到里面价格最便宜的航班，把它添加到另一个日历应用里，然后再查看你的日历确认你什么时候出发。这是现在你定航班的流程。

那如果你的虚拟AI助手就是你所使用的终端上的唯一交互对象，你就只需要和它交互，而它再在幕后启动三、四个应用，为你直接返回结果，找到最优的航班，提供你可以选择的时间。现在即使在家里使用一些智能家居应用，我也必须打开三四个不同的应用才能弄清楚该怎么操作。但有了AI你就不再需要这样做。

这同样也适用于汽车。今天它的交互非常机械化，但在未来你可以跟它说，“我还有大概三个小时就要去机场，你能给我找家好吃的日料店吗？”汽车就能够在不耽误航班的情况下满足你的需求。这是一种全新的体验，就像《霹雳游侠（Knight Rider）》里那样，我就是看着《霹雳游侠》长大的。所以我们现在有了这样的技术，可以改变过往的用户交互界面。

（美剧《霹雳游侠》，1982年开播，其中的智慧汽车K.I.T.T.由AI驱动，可以对话和自动驾驶）

腾讯科技：所以在你看来，AI会成为一个万能应用吗？

Ziad Asghar：我认为这正是未来的发展方向：你不用再打开4-5个应用去完成一件事，而只需要和AI虚拟助手交互即可。它会搜集需要的信息并直接给你答案。这就是人工智能帮助我们节省时间的方式。我们不需要再进行这些繁琐的工作了，生活也会更加轻松。

腾讯科技：那在这样一种万能应用的背景下，电子设备本身会发生什么改变呢？新型的AI设备会是什么样的？

Ziad Asghar：智能手机当然会从中受益，因为这是人们最常用的终端。但是我们做了更多准备，我们有AR/VR产品，未来可能会有虚拟助手出现在你的AR眼镜上，它也可以出现在AI Pin上。高通致力于赋能广泛的边缘侧智能网联终端，我们认为其他终端类型也将不断发展，AI设备的形态创新还有很大空间，我认为这就是初创公司能尽力进行创新的地方。