对话面壁智能曾国洋:25岁大模型公司CTO眼中人工智能的未来

转载
365 天前
9266
AGIing

文章转载来源:AGIing

原文来源:未来科技力

图片来源:由无界 AI生成

从一个方面说,面壁是一个典型的大模型公司。它脱胎于清华大学NLP实验室,联合创始人刘知远是清华基础模型研究中心的副主任,这样的背景让面壁在略显冷清的创投市场被另眼相待——就如同其它所有的清华系大模型公司一样。

甚至,面壁还有着主流而前沿的技术路线选择——全力提升基础模型的能力,甚至在这个基础上,开发了被称为“三驾马车”的三个AI Agent 产品。

但从另一个角度上说,面壁又是一家“另类”的公司。从起名字上就能看出一些端倪:面壁这个名字来自小说《三体》,多模态大模型应用Luca,原意则是地球生命的共同祖先(The Last Universal Common Ancestor)。这些命名无不充斥着某种文艺、乐观的理想主义情绪,和一般人心目中严谨而规训的理工科思维风格截然不同。

CTO曾国洋也是面壁“另类”的地方。1998年出生的他今年才25岁,但已经带领着面壁的核心技术团队走过了3年,面壁的基础大模型CPM的开发从最开始就由曾国洋主导,那个时候面壁这家公司甚至还没有成立。

现在曾国洋负责面壁所有的技术业务,作为一家成长期公司的CTO(面壁的公司规模和业务正随着大模型能力不断迭代而迅猛扩张),曾国洋在对话中表现出了一种让人惊讶的镇定与自信,对关键问题信手拈来侃侃而谈,丝毫不见任何迟滞,甚至连如何应对一些事涉敏感的话题他也心中有数。

只有这时候我们才感到,这是这位年轻的CTO第一次正式接受科技内容平台的对话。

根据我们了解到的情况,周围熟悉曾国洋的人都对他的能力赞不绝口——不仅仅是聪明程度。虽然曾国洋也是竞赛保送的清华,在大二就进了清华NLP,也就是刘知远教授所在实验室的天才,但这样的人在清华并不罕见。

更让人印象深刻的是曾国洋的工程化能力,这牵扯到了商业公司的实质:不仅仅是钻研尖端技术,还要带领团队把技术规模化落地,曾国洋在这方面得到周围人的广泛好评,尽管对话中他自己没有过多谈论这部分,但根据我们了解的情况,不止有一个人评价,曾国洋是NLP实验室里公认在个人技术上让人服气,又能带团队的人。

实际上就在对话中,他身旁的工作人员就举了个小但很能说明问题的例子,面壁位于清华科技园的办公楼里的wifi是曾国洋亲自装的。

我们对话结束的时间比预计更快,在对话结束后曾国洋干脆利落地起身,旋即奔赴下一个会议,留给我们的是一个有关面壁这家年轻公司完整而独到的有关大模型世界的愿景。

以下内容经过不改变原意的编辑整理:

曾国洋


模型结构已经来到瓶颈


问:首先我们想要知道,面壁在基础模型领域的进展是什么样的?

我们的CPM大模型,在我们内部的评测集上已经初步达到了 GPT 3.5 的水平,比较有信心今年内完全实现追赶上。

问:这是不是意味着今年还会有一次大模型的发布?

可以这么说,我们还在规划。

问:面壁的模型迭代速度看起来是很快的。目前我们观察,市场上的大模型大家基本上3-6个月就会迭代一次,面壁也是这样吗?

从内部来说会更频繁一些。包括我们在内,其实OpenAI也是,都以两周为单位做内部迭代。

问:年内追上ChatGPT3.5这个目标你是怎么看的?或者说我们与OpenAI的差距你是怎么评价的?

这个看法其实一直都在变。去年底ChatGPT刚出来的时候,大家普遍还比较悲观,感觉会落后两年以上。但是随着大家的探索实践,还有开源工作的出现,追赶速度是大大加快了。

国内最头部的这些公司,我想大家普遍都觉得 GPT 3.5 是一个短期可达到的状态,GPT4则算是一年左右的目标。

问:但GPT4本身也在进化。

它主要是功能上的进化,但根据我们的了解,包括和开发者交流,大家反馈是随着模型更新其实GPT4能力有些退化了。

我想,OpenAI这样迭代下去,模型的能力还是会慢慢提升上去的,但速度不会特别快,不会有那种突然跃迁的感觉。同时我们作为追赶者,相当于沿着人家已经走过的路向前走,这让我们少走了很多弯路,所以至少我们目前的水平不会是一个被越拉越开的状态。

问:也就是说,尽管OpenAI没有开源GPT4,但你们对它的能力和架构是有一些判断和了解的。

外界不清楚比较正常,但对于大模型训练这个圈子来说,内部还是有很多信息可以供交流的。另外开源社区也提供了很多的帮助。

基础模型能力,第一取决于架构,第二是数据。模型架构在过去的一两年里,整个业界探索的比较多,应该说在如何训练更好的单体模型方面,大家是比较有共识的,每家其实都差不多,效果也不会差的特别多,换而言之目前对结构的探索已经遇到一些瓶颈了。

模型优化现在更多落到第二点上了,也就是数据的利用。

问:相比模型架构,这是我们和OpenAI差距更大的地方?

对,我的理解是这样的,一方面是数据质量,一方面是数据能力。

问:什么是数据能力?

产生数据的能力。举个例子,今年二月份我们也尝试掏钱让人去像ChatGPT一样标注数据,但其实国内的数据团队没有办法达到那样的质量。你能很明显感觉到,OpenAI在数据上有非常多的积累,在创造产生新数据上也有比较强大的能力。

我觉得国内在这方面的能力还有相当欠缺,据我了解大家其实都很难把这个事情搞好,或者说如果要搞好的话成本会变得非常高,但OpenAI显然不是用这么高的成本在做数据方面的工作的,它在方法上应该有深层的东西外界不知道。

问:这是面壁和知乎进行密切合作的原因吗?

对模型训练来说,高质量数据确实能得到更好的效果,我们在数据建设上也做了比较多的投入。我可以分享的一个感受就是,我们目前模型能力的增长,更多是依靠我们在数据上的积累和投入带来的。

问:这个回答非常官方(笑),我们换个问法,就数据能力来说,面壁有什么独特优势?毕竟大厂在这方面,至少是资金和资源方面看上去更有优势。

大家很容易陷入一个误区就是过度关注数据的绝对量,但其实数据的质量,如何利用数据,以及对数据的认知才是更重要的事。

方向不对,量再大也体现不出什么效果。面壁在大模型上的经验很多就体现在数据的认知上。大模型需要什么样的数据,哪种类型的数据能更好增益大模型,某个能力不足时我们应该如何去挖掘对应的数据,在这些领域面壁是有很多经验积累的,我们从2020年底就开始做大模型了。

做大模型是不会因为算力把自己憋死的

问:作为技术团队的负责人,你怎么看目前最热点的大模型算力卡脖子问题,面壁对国产化算力适配是怎么布局的?

对于比较早开展大模型研发的团队来说,国产化适配基本上都已经完成了,因为做的早嘛。

其实国产化算力的差距没有想象的那么大,特别是像华为昇腾这些设备,目前已经达到了大规模商用的水平。卡脖子问题短期会有影响,但长期来说大家总是能找到方法的,这实际上是对国产化算力的利好,做大模型是不会因为算力把自己憋死的。

除了基础算力,面壁也在如何高效利用算力这方面下了很多功夫,包括高效并行计算、推理方面有很多我们自己的技术,我们也发布了像BMTrain这样的高效训练框架。

问:一个长久的传言是,同样的卡,不同的团队、不同的模型会发挥截然不同的效果。

这个我体会还挺深的。21年我们做CPM2的时候,用的还是旧技术,当时40台V100跑了20天,训练了一个百亿模型,后来随着技术升级,同样的训练我们用4台V100训了30天就完成了。

对于在大模型火起来之后进入这个领域的公司来说,这是一个比较高的技术壁垒,因为算力、底层技术上的东西,你不去亲自做的话是不知道这里会出现什么样的问题的。

问:另一个传言是,集群调度也非常考验大模型公司的能力,中国拥有数千乃至上万张卡集群调度经验的公司是非常非常少的。

卡数增加后,整个集群的稳定性会极速下降,这是真的。OpenAI训练GPT3的时候,集群利用率在60%左右,GPT4就只有30%多了。

面壁在这方面同样还是有一定经验的,另外我们也和比如清华的高性能实验室有广泛合作,对于攻克这个问题我们还是比较有信心的。


通往AGI的路有点长


问:相比其它公司,面壁有非常多的AI Agent产品,包括AgentVerse、XAgent和ChatDev,从技术角度讲,面壁对Agent是怎么看的?为什么花这么大力气来做这些产品?

对做技术的人来说,方向是非常重要的。坦率地说,2021年到2022年那段时间,国内大模型的方向其实是不太对的。ChatGPT最重要的意义就是告诉所有人,大模型必须能为人提供价值,它得有用,而不是无谓去卷更大的参数,而Agent这个技术就是能让大模型变得更有用的技术,这个判断我们是比较确定的:Agent能够让大模型更好落地和应用。

Agent技术本身也经过了好几轮的变迁,最早是一步步地做推理,然后加上了ReAct(反应)机制,再到AutoGPT,我们最新的一个工作叫XAgent,它用了更新一代的Agent技术, 也就是说它思考-观测-反应-行动的这个链条不再是单循环的,而是双循环,一层是像人一样做宏观的判断规划,另一个层则更关注具体的事。

问:Agent能力是不是和基础模型本身的能力有强关联?

会有一些关系,Agent技术有点像是模型能力放大器,它把你能做的事情往外扩大好几倍。基础模型能力的提升,Agent能做的事情的边界也会有提升。

问:另一个大家比较关心的概念是垂直大模型,或者说行业大模型,你是怎么看的?

它可能更偏离一些行业上具体的落地,我感觉它属于一种折中方案,因为大模型本身推崇的通用技术,也就是用一个模型搞定所有的事,但在AGI到来之前,行业上想要用可能就需要稍微折中一下,这实际上是一个妥协的方案,因为通往AGI的路有点长,赚钱的路则在它旁边,你要做行业大模型你得稍微绕一下。

问:应用层呢?有人说基础模型不需要那么多,与其卷模型,不如卷应用。

现有的大模型数量确实有点太多了(笑),对于一个通用性技术来说,大模型的应用确实也是我们考虑的一个关键问题,未来大模型本身的概念会越来越淡化,因为大家更多看到的是应用,而不是应用背后的模型。

问:面壁有应用相关的规划吗?

我们在C端应用上也在布局。可以说的是,大模型一定得落到实际应用中去,有了应用才能更好指引大模型迭代更新的方向。

问:这意味着面壁分别有技术导向、产品导向的东西在做,从科研到工程化能力,作为CTO你是怎么平衡这些的?

我觉得方向本质上是一致的,就是为了让它更好发挥价值。所谓的技术导向、产品导向,它不是两条分岔路,它是一步、两步、三步的区别,我们做产品是要往前一步的,但尖端技术需要我们往前再迈第二步,但这不是说我们要把最尖端的技术立刻用到产品上去,而是第二步、第三步在为产品打基础,为我们在未来创造更多的应用空间。

在我看来它不是一种矛盾或者互斥的关系。


我不担心中国没有人才


问:这么年轻就成为CTO,你是怎么看待你的职位的。

我目前在面壁,主要还是负责和大模型技术研发相关的工作,这个职位其实有一些时机、运气的成分在里面。

我是国内最早第一批接触大模型的人之一,然后在技术上,我相对来说比较全面一些,包括算法、底层架构开发以及机器方面的运维管理等等我都有相关的经验。

CTO这个位置还是有一些压力的,我也感到我还有很多需要成长的空间,和在学校相比最明显的就是在节奏上。学校还是一个比较偏学习和科研的环境,公司的竞争力度以及工作强度还是挺不一样的。

问:清华的节奏是什么?

学校的节奏肯定是更自由随意一点。

问:接这个位置的时候你有挣扎吗?

没有,我还挺高兴的。我特别喜欢计算机领域有挑战性的事情,所以我就挺高兴的接下来了。

大模型包含了非常多高精尖跨领域的计算机技术,要把它支撑起来对我来说是一个很大的挑战,有很多东西也是边学边想的。另外大模型需要有一个很大的团队,包括算法、数据等,要把它组织好的话,对我来说同样也是个挑战。今年年初我们才十几个人,现在已经快一百人了。

问:你谈到了团队的扩张,中国在大模型人才储备上的表现你怎么看?

你看,为啥大模型公司都在清华门口(指清华科技园),这是有原因的,就是离人才近。当然不止清华,还有周边很多高校等等,大家的能力从我个人感受上来看都还是蛮强的。

所以其实我没有比较明显的缺人的感觉。当然,如果你想要直接找有大模型经验的人,那说实话没有人招得到,因为市面上根本就没有。但是从总体人才储备来看,国内还是相当充分的,我不担心中国没有人才这件事。