8个月238个大模型,中国AI奔向何处?

转载
410 天前
10105
光锥智能

文章转载来源:光锥智能

原文来源:光锥智能

图片来源:由无界 AI生成

2022年11月30日,是ChatGPT面世的第一天。

至今整整一年的时间,“人类与AI的未来”撕开科幻的外衣,正式踏入现实。

在商业世界,新技术一路狂奔,引发百模大战,一批创业公司如雨后春笋,退入幕后的大佬们纷纷下场,激烈的竞争中兴奋、迷茫、挫败相互交织;

而在普通人的生活中,既有AI模特、AI画师等“新职业”引发下岗潮的恐慌,也有靠AI知识培训月入一套房的弄潮儿,就连萧山丈母娘,也知道该瞄准大模型工程师。

然而,伴随着OpenAI的宫斗闹剧,摆在所有人面前的是当AI作为新物种出现,生而为人数千年,巨变之下,何为我们?

美国物理学家费曼曾说,“我们每个人都有一把开启通往天堂的钥匙,很不幸,这把钥匙同时能够开启地狱之门。”

害怕AI不够强大,又害怕AI太过强大,是人类心中一道永远在摇摆的天平。

在《流浪地球》的电影中,在极度不稳定的现实中,人们依赖于从MOSS身上得到确定性,而后又因恐惧MOSS失控,启动“隔离计划”,将其封存在北极与空间站。

人工智能究竟如何改变了人类社会?有哪些具体而又深刻的影响?是否将重塑我们的世界?巨变之中有哪些机遇与风险?在全球的科技竞赛中,中国的位置在哪?优势又在哪?一个个看似遥远而又宏大的问题,突然迫在眉睫。

炒作与机遇齐飞,理智与理想并存,关于大模型的答案之书,需要每个人的回答。

2023年,大模型完成三级跳

八个月内就诞生了238个大模型,每隔一天中国就会官宣一个新的大模型,这是2023年的中国速度。

回顾这一年,ChatGPT火爆后不到一个月的时间,阿里、华为、腾讯、京东、字节、360、商汤、科大讯飞等一众大厂纷纷下场,或官宣入场或亮相大模型。

百模大战一触即发,数据显示,战事最胶着之际,国内一个月就能冒出30多个大模型。截至2023年10月,我国拥有10亿参数规模以上大模型的厂商及高校院所达到了254家,从“一百模”升级至了“二百模”。

但混战只是短暂性的阶段,仅三个月后,大模型行业就迎来了过滤分层,泥沙俱下过后,行业格局也逐渐变得明朗起来。

“高校和研究者关注基础研究,培养人才;大厂提供算力支撑、基础设施建设和MaaS服务;创业公司做大模型应用开发”,复旦大学计算机学院教授、Moss系统负责人邱锡鹏在2023腾讯ConTech大会上总结道。

底层是高校,中间层是大厂,最上面一层是大模型创业公司,分工清晰,各司其职,构成了当下的中国大模型版图。

IDEA研究院、智源研究院、中科院自动化研究所、上海人工智能实验室、复旦大学、清华大学等高校和研究所,最早在技术路径发展上关注、跟随OpenAI的步伐。基于先一步市场的洞察,这些研究院所发布的论文、开源大模型、数据集和工具,都为中国大模型的诞生、迭代打下了基础。

此外,这些高校也在源源不断地向市场上输送人才。清华系创业团队撑起了国内大模型创业的“半壁江山”,王慧文、王小川等互联网大佬高调入局,智谱AI、面壁智能、月之暗面等公司创始人师出同门。据不完全统计,近期活跃的AI大模型创企中,拥有清华背景的创始人至少有17位,涉及11家企业。

中间层的大厂,进一步划分有两类。一类是腾讯、百度、阿里、华为、字节等互联网大厂,凭借着在云计算和技术方面的积累,一方面可以自研通用大模和行业大模型,把现有的产品全部重做一遍,结合已经打透的行业,落地大模型解决方案;另一方面也可以给企业客户和创业公司提供模型训练的算力支撑,以MaaS的形式提供一站式的大模型服务。

第二类是AI1.0时代的科技公司,如商汤、云知声、科大讯飞等。结合在语音、CV方面的优势,在此基础之上研发大模型,商汤继承在CV方面的优势,发布了“日日新”大模型;云知声延续其在语言方面的优势,发布了山海大模型,展现在医疗问诊方面的能力。

随着大模型地基的进一步稳固,基础能力走向成熟,今年下半年,创业从想法落实到了行动,开始涌现出一批“黑马”创业公司。

名校、技术、行业经验三重背景拉满,一出道就奔驰在了大模型的快车道上。

百川智能以平均28天的速度迭代大模型,探索医疗问诊,预计明年推出第一款AI应用,剑指超级App;智谱AI今年累计获得融资25亿元人民币,一举成为国内公开融资最高的大模型创业企业之一;MiniMax海外推出的AI角色扮演类应用Talkie,增速一度跑赢国外同期明星产品Character AI;月之暗面从长文本技术切入,未来瞄准C端应用,正在探索AI角色扮演、对话等场景。

各类黑客马拉松和路演现场,座无虚席、人声鼎沸,创业者、投资人、观众挤破头只为拿到一张入场券。创业者们激情澎湃,“超越字节”,“打造下一个抖音”,“我就是下一个张一鸣”,一番豪言壮志响彻路演大厅。

最小00后,普遍95、90后,几个搞技术、产品的人想法一碰,临时组个小团队就开始了创业之路。大模型俨然成为了香饽饽,奇绩创坛刚结束的路演数据显示,在AI方向,就有51家大模型公司,更有超过一半集中在应用层面。

至此,中国大模型已经完成了从基础能力到应用层的三连跳,在近一年的摸索中,大模型创业者们逐渐意识到了一个事实:中国大模型“先天体弱”,中国创业机会不在基础能力层,而在应用层。


中国大模型核心竞争力在哪儿?


中国大模型的“体弱”之症,还要追溯到“根”上,构成大模型有四要素,分别为数据、模型、算力和场景,根基打得不牢,大模型自然也就走得慢。

目前,大模型训练数据主要来自于公开的文档、资料和数据。从数据总量来看,公开的粗加工数据仍以英文居多,占主导优势,中文数据开放得还远远不够;从数据质量来看,由于国内在数据产业的投入和精细化程度不足,导致了中文语料不仅少且能用得也不多的现状。数据质量直接与模型训练效果挂钩,比如ChatGPT虽然只有1.5%的中文语料,也能达到比较好的效果,但国内却恰恰相反。

在模型层面的积累,短时间内,中国有着无法跨越的鸿沟。OpenAI自2015年成立,在大模型领域的技术积累和投入,已长达七年之久,而国内才仅仅一年的时间。而在中国马不停蹄追赶过程中,OpenAI还在加速度,百亿美金、顶尖人才、超级计算都在源源不断地输送进名为“GPT”的大模型引擎中。

在算力层面也不容乐观,一面要面临着算力资源短缺的共同问题,一面还要活在美国的层层封锁之下。

在2023腾讯ConTech大会上,百川智能创始人、CEO王小川在硅谷调研中了解到,OpenAI正在尝试把1000万块GPU连在一起训练一个大规模的模型。

王小川对此感到十分震惊,“英伟达一年大概生产100万块GPU,训练GPT-4要2.5万块,国内对标GPT-3.5训练需要4000块。要中国拿出1000万块GPU去训练大模型,目前从资源层面还远远达不到”。

据邱锡鹏判断:“我们离OpenAI算力的差距太大,能保持紧密跟随已是不易,但要谈到赶超,还是得结合当前我国具体的实际情况。”

有经验、有方向,更要正视差距和不足,正如王小川所言,当下大模型公司需要思考的问题是,如何用一个稍弱的大模型做出一个好的AI原生应用。

“国外会做大模型,但并不代表着会做应用”,不少创业者向光锥智能反馈道,在应用方向,国内与国外目前处于同一起跑线上。

国外AI应用起步虽早,但发展仍处于早期,类型主要集中在效率对话助手、情感类对话助手、绘画、照片、游戏几个领域。

以美区苹果商店为例,大热的效率工具中,OpenAI的ChatGPT有47万个评分;微软的Bing Chat有18万个评分;大火的C端应用代表,Character AI有14万个评价,Pi有1336个评价;风靡一时的AI生成相机Lensa AI有39万个评价。作为参考,TikTok在美区苹果商店有1634万个评分;YouTube有3370万个评分;Snapchat有196万个评分。

(图源:美区苹果商店截图)

大模型的技术能力再强,也要落在产品中被实际应用起来,而这恰恰是中国最核心的优势。

“理想上慢一步,落地上快三步。”

这是王小川对当前中国大模型机会的诠释,“理想”对应着大模型基础技术能力,“落地”则对应着场景应用,“我们中国大模型的机会,不在技术科研,应用才是我们跑得更快的地方”。

回顾互联网时代,中国曾经诞生了淘宝、微信、抖音等超级App,在产品体验、市场运营、用户需求洞察等方面都积累了大量的经验,与此同时,繁荣的互联网产品生态还培养起了一批产品经理。如今,上个时代的积累将沉淀为大模型应用诞生的肥料。

王小川认为这里面有两个核心的难点需要去解决,如果能解决好两个问题,中国的应用或许就能走在美国的前面。

首先是要有大模型,模型效果差一点也没关系,可以通过开源技术、端到端的模式、人的聪明才智,与做应用公司共同研发等途径来弥补大模型本身的缺陷。

重要的是要把大模型用起来,有大模型应用创业者告诉光锥智能:“实际做AI应用,对大模型能力的要求远没有想象中那么高,GPT-3.5基本就能达到一个还可以的效果。”

其次是,传统意义上的产品经理需要转型和提升。王小川指出,大模型创业跟互联网创业最大的区别在于,大模型是科技创业,以技术为主要驱动,故而进入壁垒极高;而互联网是创意创业,几乎不存在卡技术的环节,换而言之,只要有好的想法就能实现。

”大模型创业的特性,就要求产品经理,需要懂得什么样的AI产品需要匹配什么样的技术,甚至更进一步还能以产品需求为导向引领技术的发展。这里面可能涉及一些具体的问题,比如产品经理对技术的评测标准是什么,怎么去评价技术的好坏,怎么才能让算法工程师跟上产品迭代的步伐等等”,总而言之,王小川认为产品经理要对自己的技术有判断和评价。

漫长的技术发展经验告诉我们,这已经不是中国第一天面对基础科技能力不如国外的棘手问题。暂时的技术领先也并不代表什么,中国之所以能做大模型,一是因为本身市场就足够大和复杂,若大模型企业能占据一席之地,或许就已经拥有了十分可观的增长空间。

OpenAI的先进放在中国的环境中也会出现“水土不服”,一如多年前数据库行业,Oracle虽然先进,但数字化程度滞后的国内根本用不上,全靠中国数据库企业揽下脏活和累活,从搬运账本切入数据库赛道。

大模型亦是如此,国内企业生怕掉队,迫切想赶紧用上大模型,但远水解不了近渴,私有化部署、安全、价值观对齐、场景落地等诸多现实问题更适合中国大模型企业发挥。


人与AI的未来,在变革中共生


过去不可被改变,但是未来可以被创造。

每当新技术出现,都会有一部分人积极占据先机,获得技术红利。任何技术革命带来的技术变革都是由此开始的。

如今,在百模大战的比赛场上,所有人都试图寻找最终的天选之子,究竟是存量的竞争还是增量出奇迹,大厂和创业公司们,都不肯放过任何一个机会。

“从信息时代走向智能时代,一个大的时代,就像之前工业时代一样,会有新的公司起来。”正如王小川所说,尽管,大厂们有在互联网时代积累了数十年的资本,但普遍观点认为,小创新靠大厂,大创新仍然要靠小厂。

而在激烈的竞争之下,新公司又是否会像互联网时代的巨头们一样,创造一个新的时代,甚至取代目前的科技巨头,引领新的商业生态呢?

技术的变革总是周期性的,我们或许可以从历史的长河中寻找答案。

正如互联网时代,催生出了线上零售模式,成长出了阿里巴巴、京东等一批巨头企业,产业链上也有无数网店、工厂抓住机会,踩上了暴富的快车道。在这个过程中,没有谁取代谁,只有电商形态颠覆、重构了线下零售,同时也形成了线下、线上一体化的供应链、数字化云仓、新零售等物种。

相比新旧之间的取代关系,更多的是业态模式的创新、重构。

不过,新的AI业态究竟如何展开,仍在朦胧之中。正如曾经字节跳动给BAT的震动,在快手、抖音、秒拍、美拍、微视等一片短视频App之中,没有人知道,谁是最大的那匹黑马。因此无论大厂还是小厂,都在积极探索AI与业务的结合,等待爆发的奇点、为明天押注。

与此同时,不同于以往高新技术突破的漂浮感,AI的变革已经渗透进了社会中每一个人的生活之中。

“用孙正义的话讲,会用AI和不会用AI的人就是像人和猴子区别一样。”王小川说道,“我把ChatGPT放在我手机页面的底部,每天都会使用。在未来两三年内,我们工作方式、生活方式会有天翻地覆的变化,智能体到来之后,跟你工作的可能不只是人,也有机器。”

“虽然大模型成长速度快于年轻人,但年轻人是快于非年轻人的。在时代变革的时候,年轻人更有机会。”他补充道。

机会固然存在,但难题也随之而来——在畅想AI带来社会进步之时,我们又该如何规避AI带来的风险?

事实上,在几百年的文学创作中,人类就不断探讨着人与非人物种之间的关系,AI作为人造智能,更是游离在伦理的边缘。

要让AI与人和平相处,基于一个先决条件,价值观的对齐。正如《流量地球》里,MOSS被要求“保卫人类文明”,却认为“保卫人类文明的唯一办法,是毁灭人类”一样,AI强大的计算、判断能力与非人的认知,是恐惧的源头之一。

也正是如此,在今年大模型狂奔以来,安全性始终都是根本宗旨,正如OpenAI早在年初,就曾发布过《我们保障AI安全的方法》,回应外界对其AI模型安全性的质疑。

想要实现AI与人类价值观的对齐,一方面,依赖于技术,但更重要的是,人类自己先要形成一套一致的价值观体系。

然而问题是,自人类社会诞生之时,偏见就根植于思想、行为,如今自然也藏匿在AI训练的数据之中。换言之,当我们在探讨AI伦理之时,我们也在审视着自己。

AI的发展推着人类文明的车轮滚滚向前,当我们站在一个新周期的门外,门缝已经打开。

2024,或将是一个崭新的世界。