AI大模型，让手机真正开始「智能」

文章转载来源：极客公园

原文来源：极客公园

图片来源：由无界 AI生成

经过十几年的发展，大部分智能手机系统都已走向完善，功能愈发趋同。

但这只是表象。实际上，各家厂商都在积蓄力量，酝酿革新。今年，随着大模型的迅速应用落地，进化的号角也终于开始吹响。

这场革命必定与大模型息息相关，但又不只关乎大模型。目前大模型领域的主流，都是围绕服务端部署展开。想让智能手机与大模型结合，到底意味着什么？有什么局限和优势？

想理解这个问题，需要回到更早的时候。

去年，OPPO 在 ODC2022 上发布了自研智慧跨端系统「潘塔纳尔」。起初它给人的感觉还略显抽象，但过去一年，潘塔纳尔已经实现了初步落地。通过智慧跨端和泛在服务两大体验，对下实现跨设备的协同，对上支撑了不同应用间服务的智能流转。

刚刚结束的 ODC2023 上，OPPO 正式推出 AndesGPT，将AIGC 能力与潘塔纳尔结合，融入了 ColorOS 14。表面上，OPPO 早已布局的大模型和智慧跨端系统是两套不同的技术底座，但在今天，它们却产生了重要的化学反应。

这幅手机应用、交互革命的未来蓝图，正在一点点变得完整。

01 系统「解耦」，让服务与数据融合

去年夏天，OPPO 首次推出了自研智慧跨端系统「潘塔纳尔」。

当时大部分人的注意力都放在「跨端」这个概念上，认为 OPPO 准备做的事，主要是不同硬件之间的数据流转、功能接力。比如「手机上复制，电脑上粘贴」、「手机上接到电话，在平板上接听」等功能……

但实际上，过去一年，OPPO 通过潘塔纳尔做到的最重要的一件事，是像一座桥梁，通过泛在服务和智慧跨端，把系统、应用到服务做了深层次的打通。

从智能手机诞生之日起，用来组织功能的单位就是 App。早期的智能手机系统，以 iOS 为代表，只有两个核心层级：一层是桌面，排列着一个个 App 的图标；一层是 App，就是点开 App 后所有的功能。

当年苹果最早喊出了「每个需求都有一个 App 来解决」（There's an app for everything）的口号。

随着移动互联网生态的发展，App 的生态也终于走向饱和，很多 App 都开始变得臃肿，出现了大量的功能重叠。

对用户来说，臃肿的 App、重复的功能越来越成为一种负担。为了一个小功能，就要在 App 间反复跳转，也变得非常麻烦。典型场景包括一边回复消息，一边关注外卖的配送进度；在检查邮件、浏览网页的时候，同时看地图导航……

App 是智能手机最关键的功能组织形态，但不应该是唯一的形态，更不应该是一个完全封装的系统。想要优化 App 的体验，就必须进行「系统解耦」。

这个问题一直存在，所以 Android 很早就推出了「小组件」，尝试在用户界面层面解决。但早期的小组件，完全出于 App 开发者自愿开发，并没有得到充分推动。

而 OPPO 在推出「潘塔纳尔」后，以一个更开放的姿态参与进来，将整个系统解耦，变成了一个个原子化服务，以人为中心，凭借情境感知与计算能力为人提供合适的服务，智能显示在手机桌面上，手表上，甚至通过耳机播报。

过去一年，潘塔纳尔已经针对出行、外卖、导航、快递等应用场景，推动了「泛在服务」落地。首批支持的 App 包括支付宝、美团，这次 ColorOS 14 又支持了小红书、携程、去哪儿。

利用泛在服务，用户可以更灵活、便捷地调取服务，减少不必要的操作步骤。

这件事并不只有 OPPO 一家在做，苹果 iOS 的「即时动态」、「小组件」，也是在做类似的事情。从系统中解耦出 App 的一项项「服务」，增加配置的灵活性，更高效地利用手机信息的内容和优先级，降低用户的认知、操作负担，已经是行业趋势。

与此同时，只是做到让服务跳出「App」以外其实并不足够，存在于 App 内的文件数据也会由于不同系统生态导致体验割裂，例如 iPhone 可以打开在微信上收到的 keynote，但 Android 却没办法。这种安卓生态与苹果系统之间类似的割裂每天都在上演。

这样的情况也通过「智慧跨端」正在逐步得到解决。潘塔纳尔通过一个 OPPO 账号打破数据壁垒，实现数据采集，跨端调用，让服务和数据不局限于手机，而是可以实现多设备多系统之间的流转。这使得服务能够流转出现在用户的不同设备及系统上：手表、平板、电脑、耳机、电视、汽车……随时触手可及。

举个例子，上个月的 OPPO Find N3 手机发布会上，苹果系统办公软件格式的文件，可以快速在安卓手机上打开了，而且这个功能无需安装第三方应用。在 ColorOS 14 上通过 PhoneLink，用户可以直接在 Windows 系统上操作使用手机 App，访问手机上的相册，互传文件。

将手机功能的基本组织单位从系统内「App」解耦为「服务」，允许它在多设备间灵活流转，会带来非常深远的变化。

因为随着泛在服务场景的丰富，智慧跨端可流转设备的增加，另一个问题会迅速产生：如何实现准确智能地推荐，让用户可以便捷调用？

这就需要对手机的界面、交互，以及智能推荐的机器学习模型，进行革新升级。

大模型的切入点，出现了。

02 大模型，不只要「大」

过去一年，大模型发展的核心关键词，就是「大」。

参量是大模型展现出惊人智慧的核心原因，所谓「大力出奇迹」。参数的规模越大、层级越多，大模型就能对数据进行更细腻的理解，最终拟合出更真实的结果。

如果把智慧比作声音，人类智慧是连贯的模拟信号，AI 则像是数字录音回放设备，采样率决定了音质。采样率越高，就与自然的声音越接近，到一定程度，人耳就不再能分辨出区别。同样的，参量够大，AI 就能「骗」过人类。

所以，目前宣布将大模型部署到手机上的厂商，都不同程度地遭到了舆论质疑。很多人认为手机上可以部署的模型，参量不够大。进行多端、多模型部署，反而会带来混乱。

如果大模型应用的目标仅仅是打造出一个「能通过图灵测试，上知天文，下知地理的人工智能」，那确实是，参量决定一切。

但实际上，一个模型是否实用，并不是靠参量来判断的。一切模型，最终都是为了模拟一部分现实，推演、拟合出合理、正确的结果，满足需要即可，并不能武断地说「越大越好」。

对这个问题，手机厂商有更深的认识，一个典型例子是语音助手。

语音助手的核心模型，就是要把用户发出的声音波形，拟合成自然语言。这个模型的复杂度和运算量，对于早期的智能手机来说已经很大了，大部分手机芯片跑不动。所以早期的语音助手，都会将用户语音指令的声音波形，发送到云端，由服务器上的模型识别成指令后，再发回手机执行。

但随着手机上 NPU（神经引擎）的算力发展，以及对声音识别模型的简化，手机厂商发现，也可以把这个模型部署到本地，直接让 NPU 来跑。它带来的好处也很实际：响应速度变快了，无网络环境也可以用，且增强了隐私安全性。

谷歌率先将 Google Assistant 的识别模型缩小到 500M 大小，部署在了手机本地

目前大模型应用主要以生成式 AI 为主，并未进入那些更接地气的复杂场景。当大模型应用真正触及到用户需求的细枝末节时，会有更多问题出现，其中最关键的两个就是「数据安全」和「响应速度」。

从这个角度，就不难理解 OPPO 为什么在推出 AndesGPT 的时候，如此笃定地采用了「端云协同」的技术架构。

从十亿参量到千亿参量，OPPO 计划部署一系列不同参数规模的大模型，兼顾响应速度、安全性，同时追求提升大模型的能力上限。

通过端云分工，AndesGPT 会根据对指令、任务需求的梯度理解，来智能调用不同模型。比如用户的指令只是查询手机内一个联系人，那就通过端侧模型迅速响应，如果用户问的是更复杂的知识，就通过云端大模型，生成更复杂，准确的回答。

AndesGPT 的能力覆盖非常广阔，从「智能摘要」、「智能消除」，到基于语义的多模态信息搜索，加深对用户个性化习惯的理解、记忆……

据 OPPO 内部透露，这些能力也将会支持端侧化，目前他们已经在端侧跑通 13B（130 亿）参量模型，突破了端侧大模型的能力上限。这些模型能力，加上智能手机十亿级的用户规模，将展开大模型应用的广阔未来。

03 智能手机的二次革命

从潘塔纳尔，到 AndesGPT，OPPO 展示了自己推动变革的决心。

ODC2023 上，OPPO 还宣布，计划将「对话式交互」引入到各个系统应用，简化用户的用机体验。

「对话式交互」，会很容易让人联想到 2017 年前后的 voice-first（语音优先）风潮。当时很多人都认为智能音箱、语音助手会成为下一代人机交互的关键。但风潮迅速席卷之后，又迅速衰退下去。

其中一大原因就在于，过去的智能语音助手，无论是部署在音箱还是手机上，对语义的理解能力都有限，能调用的数据和服务更有限。到最后，它能实现的功能与智能手机相比，依然只能算沧海一粟。

但这一次，变革围绕系统、应用到服务展开，依靠大模型深入。

从 ColorOS 的发展蓝图里就能看到，它一方面通过潘塔纳尔对系统解耦，带来泛在服务和智慧跨端，便于用户在 App 之外调用功能；同时又通过 AndesGPT，基于自然语义理解用户需要，推动「对话式交互」发展。

OPPO 软件工程事业部副总裁李杰在接受采访时表示，OPPO 希望通过 AndesGPT 为用户提供一个类似「超级助理」的产品。

这正是手机利用大模型的优势所在。

一方面，手机可以利用本地的数据去理解用户，其中很多是最贴近用户私人生活的数据，获得授权后，这些数据可以直接成为 prompt 的「语境」；另一方面，手机可以利用各种本地接口、模块，调用更多 App 的功能。

举一个简单的想象。当用户问聊天机器人「我晚上应该吃点什么？」时，如果不详细写在 prompt 里，那些部署在云端的聊天机器人就不会知道用户的籍贯民族，口味营养的偏好，更难以调用相关的服务。最后大概率只能给出一些较泛化的图文食物推荐。这个情况，无论把模型的参量提升到什么程度，都很难改进。

但如果利用部署在手机上的大模型，可能并不需要参量多大，就可以基于用户的位置、时间、历史订单记录，甚至是运动健康数据，来给出推荐。给出的推荐可以是食谱，可以是一个通向点评 App 的链接，以至于直接调用外卖软件的服务模块，生成一个订单，用户一键确认发送，也完全可能。

这是一个最基本的想象，类似的场景还有很多。可以说，越是贴近用户生活的，简单而具体的需求，手机在结合大模型之后，辅助用户的效果就会更好更便捷。

借助大模型，使用手机将不再是一个需要「学习」的过程，用户只需用自然语言表达自己的需求即可。OPPO 目前基于潘塔纳尔融合大模型后，在 ColorOS 14 上推出的「用机助手」就已经迈出了第一步，通过「对话」理解用户需求，帮助用户解决日常高频使用的复杂设置，将传统交互方式升级为更智能更便捷的对话方式。

它的应用逻辑是，潘塔纳尔先将各种复杂的用机设置，组合构建成面向用户需求的「原子化能力」，再通过 AndesGPT 理解用户需求之后，去匹配对应的能力并完成设置，仅手机的设置功能就覆盖了近 400 项。