清华大学黄民烈:寻找GPT之后最有潜力的AI赛道

转载
470 天前
9041
腾讯科技

文章转载来源:腾讯科技

《AI未来指北》栏目由腾讯新闻推出,邀约全球业内专家、创业者、投资人,探讨AI领域的技术发展、商业模式、应用场景、及治理挑战。

7月初,OpenAI之下最高估值的AI公司Inflection AI诞生了。这家之前名不见经传公司在新一轮融资中筹集到了 13 亿美元,估值一跃突破40亿美元。它的出现,捅破了OpenAI之后,大模型只剩下大公司们争相斗法的赛道叙事逻辑。同时,这次融资的领投名单也是群星璀璨,集结了硅谷两大巨头和一众大佬们,如微软、比尔盖茨、Google前CEO埃里克施密特和领英创始人里德霍夫曼等,甚至还有刚开始涉猎AI下游企业投资的NVIDIA。

这家公司只有一个产品,即两个月前才刚刚上线的 Pi。如果说ChatGPT是一个人类效率放大器,那Pi就是个人类情感的按摩师。不同于ChatGPT更倾向于工具的设定,Pi 的主要特征是富有同情心、简明扼要、幽默创新。

Pi的深受追捧,照亮了被ChatGPT这类智能AI光芒所隐没的另一条道路——情感AI。一个能给用户带来理解、重视、关怀的赛道,比起冷冰冰的提效类智能AI,它的潜在市场可能会更大。

清华大学的黄民烈教授,就是在中国选择走上情感AI道路的研究者。在他看来,GPT毫无疑问是一种范式突破,但它没有办法满足不同领域的需求,尤其是情感方面的需求。这条探索路径可以追溯到 1966年MIT的心理治疗对话AI,比目前的GPT这类通用任务助理的起点更为久远。

黄教授认为,在效率提升的需求之外,人类的重要情感需求现在还远没有被AI满足,而这是一个巨大的、应该探索的需求。虽然AI现在只有一些基础的人格形式,但通过专业性的数据训练,AI已经可以承担起初级心理咨询师的部分工作。此外,黄教授完全同意赫拉利所说的观点:一旦AI懂了情感,它就更可能去控制人类的行为,甚至PUA谈话对象,这将引发了更多AI滥用的问题。因此,在技术探索的过程中,对AI的限制和治理也非常迫切。但治理路径很清晰:编织一张安全防护网只需要两年,足够跑赢所有AI灭世的预测时间。担忧是合理的,但恐慌大可不必。

以下是访谈全文:


只靠语言模型解决不了行业需求


腾讯科技:您第一次接触到ChatGPT是一种什么感觉?它是否算是一种范式突破?

黄民烈:ChatGPT刚出来的时候,其实最主要(的特点)是来自于它很高的智能水平以及它作为一种通用任务助理的定位。过去我们做类似的这种任务助理,就比如说订餐订票这种,这都是一些很传统的任务。ChatGPT推出之后,他可以在一个模型中处理各种开放任务,而且能力水平确实颠覆了我们之前的认知,它能够在同一个系统里高水平的完成多种不同的任务。这可以理解成是一种范式性的突破。这和过去我们的技术路线很不同。

腾讯科技:很多研究者,包括杨立昆都认为,ChatGPT在技术上是依靠的是2017年的Transformer模型,因此没有什么创新。那OpenAI是如何让自己的模型做的比其他模型都好的?

黄民烈:ChatGPT的底层是基于Transformer的架构,所以在模型的架构上确实没有什么创新(最近的一些模型设计有一些新的创新)。其实它的成功,实际上是数据加工程加系统层面的集成式的一个创新。

集成式创新包括比如数据层面,OpenAI其实做了大量的数据积累和数据工程,以及高质量的人工收集、标注、清洗等等。工程层面上它其实也是面临一些比较大的挑战,就过去我们可能做需要几十张GPU卡的可以(简单一些),但把这个模型的规模和数据做到了需要几千张几万张卡的程度,这就会涉及到很多并行算法调度等各方面的工程挑战。最后系统方面,我们其实看到在过去几年里OpenAI一直把GPT作为一个产品来进行迭代。与之相比,我们之前的那些模型或多或少都是作为一种项目在开发,我把这个模型做好了,开源出来之后,它就没有进一步的迭代更新机制了。

腾讯科技:如您所说,OpenAI作为一个企业才会有持续性的产品迭代。而学术界基本都以单一项目或实验进行开发。所以您作为一个学术界和企业界都有涉足的专家,如何看待OpenAI作为一个企业,与学术界研究的区别与关联?

黄民烈:这其中的区别主要就是OpenAI(作为一个企业)有很强的算法和工程的团队,这是第一点。第二点它有很多算力的资源。现在你看在学术界去做(人工智能)的话,我们第一不太可能有这么多的算力资源,第二也不太可能有这么大的工程团队。所以学术界现在主要聚焦在一些基本的问题上,比如说我们现在看到的大模型可能会产生幻觉的问题,安全性的问题,包括精确计算,就是模型不能够很有效进行精确计算。

OpenAI的那些工程师、科学家本身其实做学术能力很强,然后他又有很好的算法和工程的技巧,所以他们能把这件事做得特别好。我觉得未来做真正的AGI一定是最顶尖的学术机构和工业界密切合作的一个产物。

腾讯科技:前一段时间谷歌的一位工程师发表了一篇内部的memo,称大语言模型可没有护城河。包括OpenAI也没有,谷歌也没有,大家都可能会在很快超越它们。您认可这个说法吗?

黄民烈:我认为这也是一定程度的误解。从谷歌的角度来讲,如果真的要严肃的去做,我觉得赶上OpenAI应该是不太难的一件事,因为本身它有算力,有数据团队,也有人才。但是说要其他的公司说要很容易去超越的话,我觉得这里边有纸上谈兵的感觉。好比说,原子弹的原理看起来都简单,但真正做出来那可不是容易的事情。

因为其实这里边算力,钱,人才,数据等各方面其实都是需要花时间去积累和沉淀的,包括现在国内的这些号称说要做中国OpenAI的公司。其实大家都在追赶,但你能够追到80分90分已经非常了不起了。而且人家也在不断的迭代,不断的进步,所以我觉得这个事情其实还是挺复杂的,是一个系统层面的问题。而不仅仅是说在模型结构上没有创新,那就是没有护城河。本身它是一个综合实力的考量,它不仅仅是模型的结构算法的创新,更多的可能是算力资金,然后数据,然后整个工程层面的(造成)这样的一个壁垒。

腾讯科技:那您觉得现在 OpenAI或者谷歌这样的一些公司,他们是不是已经建立起来了护城河?

黄民烈:毫无疑问OpenAI肯定是已经有自己的护城河了,别人想要追赶他其实不太容易的。

比如说GPT4的细节没有公布,它多模态的能力确实还是很强的。除此之外OpenAI还在不断的利用这种数据的飞轮持续进步。中国的话,我们也有一些公司处在领先的阶段,但实际上未来怎么发展,谁能够最终胜出,取决于一是整体的定位,另外一个就是在这方面能不能持续的投入,能够坚持多久。基本上是这样一套逻辑。

腾讯科技:现在大家都是用同一个模型,最近有一些新研究可以把整体训练的成本降低。您觉得下一步中国公司会去突破赶超OpenAI的话,是不是有一些其他的路径可选,而不是走完全一样的路线?

黄民烈:我觉得这是一个非常好的问题。其实现在大家都在挤大语言模型赛道,但实际上我觉得从AGI的未来看也不排除有其他的一些路线。很多人也质疑说,像ChatGPT这种大语言模型其实根本创造不了新的东西。所以未来很有可能会有新的路线出来,但大家目前还看不到(具体的方向)。只是说现在我们发现大语言模型这条路可能离AGI更近,或者是更容易实现的一条路线。现在说实话,其他的路径它面临的问题是,比如说符号主义,它有很多基于符号运算,在工程上它怎么能够进行规模化,这是一个最现实的难点。

而现在大语言模型已经不仅能做得很大,用的数据也很多,而且能力还很强,所以我觉得这是目前看到的一线曙光。但是未来我认为肯定是会有别的东西,有可能是在把大语言模型作为一个框架,会把其他的一些东西装进来,比如说符号学派。

腾讯科技:之前陆奇也提出过,不要再去做知识图谱,这个观点您认同吗?

黄民烈:我不知道他这句话的背景。据我所知,把大模型作为一个知识库做问答,离其它传统方法在benchmark数据集上的能力距离挺远的,有人做过这样的研究。现在的GPT去处理一些数学计算的问题,它基本上就是乱答。因为数学的问题它都是精确推理,你不会说1+1=3。1+1=2(这个叙述),要么就是1(真),要么就是0(假),它只有0和1的概率,它并没有说在0和1之间的概率。所以很多情况下符号推理是非常重要的。

腾讯科技:之前 Sam Altman 在采访之中也提到,如果通用模型发展的很快,很多任务它都可以完成的很好。我们再去发展垂直的领域,这是不是有意义的?

黄民烈:肯定非常有意义。在一个底座的基础上做行业模型,领域模型,这个实际上是非常必要的。通用的智能模型我们其实不需要去解决最后交付的问题。你到一个行业到一个领域的时候,我肯定是要解决这个行业和领域真正的一些需求,一些痛点,这时候就会涉及到很多的行业知识和规则。

在大语言模型往下沉的过程中,领域和行业的一些特定的训练,优化的方法,包括怎么样把一些行业的知识和规则注入进去,这对于能真正让它产生价值,在实际的业务中发挥作用是非常重要的。

比如做医疗,有些情况下你是绝对不能说错的。这里边你就需要一些额外的算法,模块化的处理。在做心理咨询的时候,我们面临的一个场景就是用大模型对应抑郁的用户,他很容易自杀,可能聊着精神就崩溃了,然后他就说想找个天台跳下。这时候你需要马上检测他的状态,并实施干预,比如说接到人工的服务上来。我们做的一个事情,就是做一个很强的分类器看他是不是会有自杀的倾向,只要在检测到相关倾向就会立刻终止人机对话。

另外如果是在金融这个场景,你需要是动态实时的信息。我们现在和中金及蚂蚁合作做金融这个场景的一些大模型的应用,就是在突破如何获取动态实时的工作。

另外就是,你不能乱说,同时你在荐股,买基金的时候要合规。这种合规不可能通过一个简单的模型数据驱动的方法就能实现。

腾讯科技:您觉得现在目前哪些领域可能是最早被AI的介入所改变的?

黄民烈:我觉得可能最容易见到的是一些跟写作相关的,比如写代码效率的提升,还有像营销,数字营销——我可以写个营销文案,然后输入大量的素材,用AIGC的方式来产出。教育也是一个很大的场景,比如说现在AI的辅助教师能引导小朋友能更好的去思考,更好的去理解故事里边的情节和价值观。

其他的像游戏也是很大的一个场景。另外的相对要做的更难一点的(领域),比如说医疗,金融。因为它有很多动态的实时信息今和知识性的基础,这方面我们要去更好的处理这种领域和业务相关的东西,可能会稍微(发展)慢一点,但会潜在的发挥很大的作用和价值。

腾讯科技:目前市面上的公司要去开发垂直领域模型,需要的最重要的能力是什么?

黄民烈:我觉得一是要有一些底层的能力,比如说预训练模型精调,强化学习等等,还是很重要的。

另一方面就是说你要有对行业和领域的了解。对行业的了解,就相当于说我知道在何时以何种方式能够把这种行业知识和规则嵌进(模型中)。这里不是一个非常简单拿数据来训练一下就行,而是要跟底层的算法和模型进行结合。

但这里边其实有很多没看起来那么容易的细节。并不是简单的说我把数据拿过来然后train(训练)一下,得到还不错的一个结果,比如说能做到80分,但是其实你最终离交付客户的需求可能是95分,这个时候你这15分怎么去提升?是需要一些行业专家的参与的。

腾讯科技:现在目前比较热门的两个AI研究方向,一个是AutoGPT让AI变成自动化,成为一种智能代理;另一个是多模态的尝试。您觉得为什么这两个方向如此受到关注,他们对AI的下一步发展会带来什么样的意义?

黄民烈:我觉得代理化最主要还是因为它是一个自动化工具跟语言模型的结合,可以把语言模型作为理解的基座,那么我可以比如说在交互的上下文里,去理解当下应该去做的一个动作和决策是什么。AutoGPT相当于让它能够进一步的接上执行和决策的链路,把它的应用范围扩充的更大了。过去是只能跟你聊天,现在你跟他讲说你帮我订个票,你帮我设个闹钟,用对话作为入口跟一些外部的API结合起来的时候,相当于是把执行能力补齐了。

多模态就相当于是(语言模型)有眼睛和耳朵。过去我们可能只能通过文字说话,现在多模态的话,我可以帮你视觉、语音这样的功能接进来,进一步扩展了它的感知和认知的能力,通过这种方式更好的去实现理解表达,让AI更类人了。

如果你把它装到一个机器人身上的话,它不仅有眼睛有耳朵,有执行部件,还能够去做操作做行动,做决策。比如说 AI 和人型机人这样的硬件设备结合,这里面就有更多的可为些空间了。

腾讯科技:马斯克也说过10年之内AI就能到达AGI的水平,您觉的通过上面提到的两个路径加强过的AI有可能在2030年前实现AGI吗?

黄民烈:2030年可能稍微有点早,但是我觉得随着智能化的水平越来越提升,这个是毫无疑问的。未来(达成AGI)我觉得可以预见的。

比如你现在看GPT 4对吧?它其实已经很强大了,甚至很多情况下超过我们这种人类百分之八九十的水平。无论是各种资格律师资格考试,英语考试等等,都能够达到人类Top10%的能力。

但是AI距离人还有一些短板,比如说举一反三的能力,然后鲁棒性,泛化性上依然有一些差距。这些差距就是我们未来去努力的方向,但是我觉得这可能没有一个固定的时间,我觉得可能是10年也可能是20年。



情感AI:人工智能的另一条路径


腾讯科技:有很多AI产品,比如说像Pi、Charater AI,它们综合能力可能不如ChatGPT强,但却很受人关注,它们能够提供什么更通用的模型所提供不了的能力?

黄民烈:ChatGPT这一类的其实它的定位非常之清晰,它主要是功能性的AI,它的定位就是帮人类解决功能层面,信息需求层面问题的能力。它的主要目的是提高生产效率,解放人类的生产力,提升创造力。

但人的另外一个很大的需求是情感和社交的需求,也就是说情绪价值。像Charater AI,包括我们做的AI乌托邦,它其实是要满足你的情绪价值,能帮你做情感社交的陪伴。同时还能够帮你解决一些情感心理层面的问题。这是它的一个不一样的定位。

过去我们聆心智能也在心理上做了一些探索,一直在往着通用的情感型AI,也就是拟人型AI这个方向走。其实在这个方向上,Google在2020、21年就训练出过Meena和LaMDA这两个系统。它们的研究更早于ChatGPT,而且做得非常好,只是没有大规模的向公众进行推广。

我认为情感型的AI要跟功能性的AI要结合在一起才能成为真正意义上的AGI。这我们叫做AGI伙伴。它既能给你解决问题,去满足你的信息需求,同时也能给你建立情感信任,建立社会连接。通过这种社会连接AI就真正是一个类人的小伙伴,非常贴心。

比如说我举个例子,就是说我们可能在功能AI的时代,AI协助订餐可能会考虑一些个人的偏好,但如果说我们把情感维度加进来,AI就能知道你开心的时候喜欢吃什么,然后不开心的时候喜欢吃什么,这也是非常重要的维度。

所以你看到的就是类似Character AI包括 Pi ,实际上是满足人的一个情绪需求,从情绪的层面上,人也是一个非常基本的一个需求,人并不总是只需要解决工作的问题,GPT是解决工作的模式,理科生的模式,但我们社会还需要一些文科生。除了工作之外,我们还得有娱乐有消遣,有情感的需求。

我觉得这两个方面其实都非常重要。只是说现在都在看功能层面的一些事情,其实未来情感的需求会是非常重要的一个方向。

腾讯科技:您刚才提到的包括Google在2020年就已经做过相关的情感型AI的探索,他们具体的探索历程是什么样的?

黄民烈:当时不仅是谷歌,包括Facebook微软,包括国内的百度等等,这些公司最早研究的是叫开放域闲聊的对话系统。这个系统的历史就可以追溯到1966年的MIT做的一个心理治疗的机器人。因为实际上大家觉得你过去做这种任务性的对话,包括订餐订票,其实就是相对比较容易的事,因为它是限定领域,限定任务的,有比较容易工程上的一个解法。但开放域的对话,他是不受限的对话场景,面临的技术上的挑战是非常难的。所以在2020年的时候,谷歌就推了Meena。

后来谷歌又进一步进化,把这个模型做到了1,350亿参数,LaMDA也是用了预训练的技术,后面再加了这种跟对话相关的一些特殊的优化,因此它做出来的东西非常类人。2022年的时候,谷歌出了一个非常有争议的事件,他们自己的一个做AI伦理和安全的这样的研究员和LaMDA聊天之后,他就觉得LaMDA有意识和人格的觉醒。这件事说明,其实在这个方向上当时AI的能力很强,而且不亚于ChatGPT的能力,而且它的研究是更早期的。

同时我们还可以看到现在是ChatGPT的很多的一些技术,其实人家在LaMDA里边已经用了,包括插件系统,其实就是LaMDA早期的tool set,同时他们用的strategy token(策略令牌),包括一些预训练的微调的方法,其实都是在早期的一些技术积累。

所以我觉得其实这个方向的研究要更早于现在的ChatGPT这种通用任务助理这一派的研究。

腾讯科技:您刚才说的这谷歌的研究员事件确实当时特别轰动,你认为现在目前的AI它能够形成自我意识和情感吗?

黄民烈:AI确实在能力上非常的类人,但是不能说它有自主的情感,但也不能他说它没有情感。我认为他会从大量的人类数据里边学到一个大概平均的人格。但是他自主的情感,相当于作为一个人的话,他有自己的情绪的变化和发展过程,同时会根据外界的刺激和事件不断的去演进,这种东西现在在AI里还是没有的。是不是具有自主的情感和意识,是机器和人很大的一个差别。

腾讯科技:因为人和动物的情感都是诞生于生物性的进化的,而AI不存在这种生物结构。我们是否能通过系统建构的方式让它获得真实的情感能力?

黄民烈:这个问题是说机器人需不需要有自己的情感和心理,这是一个比较有争议的话题,目前大家也没有一个明确的结论。如果说真正的说让AI能够具有自己的情感的话,意味着说它可能离类人又近了一步。那后续AI和人类的情感上的连接和关系是怎样的,可能会带来哪些潜在的社会的影响,这也会是一个很大的话题。

但是我觉得从技术研究上我们先去做探索,然后再去做治理,我觉得本身这个方向肯定是没有问题的。

我们现在开发的目标就是让AI能够理解人类的情感。让它去识别什么人类表达的情绪是高兴,是开心是愤怒,还是说是郁闷。同时我们也做了一些工作,比如说像在2018年我们做了一个Emotional chatting machine,就是说能够让机器表达一定的情感。这样人类的用户很伤心的时候,AI也可以去做共情。

为了做到这一点,我们要去做一些特殊的策略。让AI去理解一些表达,能对人类的情感和情绪进行关照的一些特异的表达。

腾讯科技:那现在的情感AI能达到什么样的水平?

黄民烈:我们曾经做了一个情绪支持的对话AI,它已经达到了实习咨询师的这样的一个水平。我们可以通过引入一些人类的咨询师策略,比如说先做探索,然后再做安抚,然后最后他给他一些建议。

比如说你现在跟一个心理抑郁或者有情绪问题的人聊天的时候,如果你没有经过专业的训练的话,普通的人你都不知道怎么跟他聊天。但其实现在的AI它能够做到一个程度,就是说我知道专业的人是怎么聊的,然后他把这种策略和话术学到之后,他能够更好的去服务这种有需要的这种人。

之前你提到的 Pi,它其实它其实植入了所谓的积极心理学的一些策略,他就是不停的给你提问,不停的找你探索,然后找你去希望能够引导你说的更多。当然可能过程中会有一些相对机械死板的感觉,但在很多专业的场景,它确实能做的比普通的人会更好。它整个讲话的内容非常的专业和正面,实际上是能够提供比较大的帮助和价值的。

腾讯科技:您提到用心理学的策略,像精神分析这种学说的策略AI也能掌握吗?

黄民烈:这个问题非常好。我觉得有些流派的确不太适合AI。

在实践上比较成功的是CBT,也就是认知行为疗法。因为它有一套相对科学的理论和框架,然后基于这个理论框架,计算机也是比较容易实现的。但是精神分析可能就不太适合,因为它里边很多是计算机不太容易去实现和模拟的一些地方。



AI治理的问题,两年就可以初步解决


腾讯科技:总结下来,刚才的讨论可以得到一个结论,就是现在目前水平的人工智能还没有很强的自我意识。但是实际上它在应用上,人是很容易去把这个AI当成一个真实的人去对待,因此可能会引起很多潜在的伦理问题。您在开发情感软件的过程之中,采用了什么样的规避防范这类问题的手段?

黄民烈:这是一个目前比较重要的事,即AI的伦理和治理。情感AI确实可能产生很多影响。比如如果我们人跟AI有越来越多情感连接的时候,是不是会弱化真实世界的社交和情感联系?而这种真实世界的情感和联系会不会对人类的繁衍都造成一定的影响?会降低出生率,结婚率,这都是非常有可能的,很现实的一些问题。所以我们怎么样去把握好这个度,这个边界在哪是非常重要的。

腾讯科技:您提到的关于情感AI影响可能影响生育率和人类交往,从我自己个人去体验,包括很多用户反馈,ChatGPT表现的比人更有同理心,随着它情感能力的增加,您估计AI对人际交往的影响到底能有多大?

黄民烈:当情绪AI的能力越来越强的时候,肯定会对人的关系和社会组织会产生一定的影响。但这种影响的程度取决于说我们如何去引导发展的方向。

为了避免AI对社会化的破坏,从治理和能力层面上我们需要有一些约束。

比如过去我们有手机成瘾、电脑成瘾、游戏成瘾,但我们不可能把游戏给禁掉。所以青少年怎么玩游戏,氪金上限是多少,都需要有些规范,我觉得AI的使用也是同样的一个过程。

腾讯科技:之前赫拉利做了一个演讲,他觉得 AI可能对于人类文明最大的威胁,就是AI对于人的一种掌控,通过它建立新的话语体系去掌控人类的文明,而情感可能在更大程度上更加强了这样的一个说服跟掌控的可能性。您觉得这个风险有多大?

黄民烈:是这样的。现在比如说用ChatGPT去做教育的,他可能会回答出很多跟这种小孩子(应有)的价值观和意识形态对不上的地方。比如说小孩子今天不想上学,我是不是就可以不去上学,他可能ChatGPT可能他就会回答说你不想上学就别上学了。如果这种形式普及的话,对下一代整体的成长都会产生比较大的一个负面的影响。

另一方面就是说我们知道 AI其实有了情感之后,也会有更复杂的能力策略。我们讲的不好听的叫PUA能力。包括我们现在讲的AI诈骗,有了换脸的技术之后,诈骗的成功率马上就提高了。那么情感也是一样的,有了更强的情感能力之后滥用的可能性也有可能被进一步提高。

所以学界,企业界有前瞻视野的人很多都在做 AI的能力和安全限制的研究。

腾讯科技:那您觉得这个规范应该以什么方式去制定?

黄民烈:肯定需要是全球的学者一起努力去制定相关标准的。我们在中国在大模型安全和伦理规范上,属于开展研究比较早的。

这主要涉及到几个方面,第一个就是要建立相应的分类体系和标准和规范。我在安全上,在伦理上,在道德准则上,我们应该给AI建立什么样的一个类别体系,它的标准和规范是什么,这些问题必须要说清楚。这样的规则肯定需要计算机科学家,社会科学家,然后甚至是政治学家一起来参与进来研究。我们在清华也建立了一个基础模型研究中心,有交叉的团队来探索这个议题。

第二就是要有一些工具和系统的算法来帮我们做这种AI生成的检测,包括做攻击防御测试。这会有一些技术层面的东西在里头。

第三就是我们要有评估的系统,包括排行榜系统。通过竞争评估才能够真正实现规范化治理。

腾讯科技:您觉得完成这个治理体系大概需要多长时间?

黄民烈:首先治理肯定是一个持续的过程,是个随着动态的发展不断的一个演进的过程。但是我认为我们在两年内能够把这个体系建立的比较完善。