7个月了,中国AI大模型学不来ChatGPT

转载
503 天前
2031
智能派

文章转载来源:智能派

来源:钛媒体

作者:林志佳

图片来源:由无界 AI生成

与此前几周的人工智能(AI)相关会议情况类似,2023全球数字经济大会人工智能高峰论坛上,企业家、学术界纷纷探讨大模型、生成式 AI 技术对于社会和产业界的影响。

“前几个月大家都在讨论OpenAI和中国什么时候能够做出自己的大模型,这几个月大模型层出不穷,我看到很多投资人开始急了。”360公司董事长周鸿祎在论坛演讲中表示,大模型真正的机会在中国,尤其是企业级市场,包括政府和城市,而中国做大模型最应该抓住产业互联网发展的机会。

旷视科技联合创始人唐文斌,智谱AI CEO张鹏,衔远科技创始人、清华大学惠妍讲席教授周伯文等嘉宾也在现场表示认同这一看法,他们普遍认为,大模型不应该再消耗大量资金做ChatGPT这类千亿级参数的通用大模型,而是应该打造十亿级行业大模型,深入To B行业解决方案,解决垂直领域的实际问题。

事实上,随着ChatGPT掀起中国 AI 大模型的投资、产业发展热潮,企业纷纷效仿ChatGPT争做“中国版OpenAI”,现在已有超过80个大模型公开内测。

但问题在于,“卷”了七个月后很多投资人、企业家发现,大模型技术门槛并不高,同时算力价格持续攀升,成本高居不下,企业急需盈利,需要寻找大模型的商业化方案,而ChatGPT的“每月20美元”Plus会员服务在国内只能变“免费”,OpenAI那种持续性 AI 技术投入在国内行不通。

最终发现,能给“大模型”买单的只有政务、金融、医疗等几个垂直领域客户。

钛媒体App编辑统计国内AI大模型数据最新信息


企业不再拼AI大模型技术,而是回归商业化


过去半年多时间,以ChatGPT、GPT-4为代表的大模型技术,引领了新一轮全球 AI 创新热潮。国内外大模型科研高速迭代,各类模型层出不穷,模型性能不断提升。

在国内,从百度文心一言、阿里通义千问、华为盘古大模型,再到360智慧大脑、智谱AI ChatGLM等,各行各业都在打造大模型。据北京市经济和信息化局局长姜广智最新透露,迄今中国已有80余个大模型公开发布,其中北京约占一半(超40个)。

“我们好像爬了很长时间的山,终于见到了新的高峰、见到了新的曙光。”姜广智在致辞时表示,过去二十多年,经历了互联网、智能手机、云计算、大数据、物联网这一系列IT技术的重大变化,深刻地改变了我们的生产生活等各个方面,现在我们又迎来了通用 AI 的新时代。

不过,相比ChatGPT这类消费级平台的付费模式,中国 AI 大模型普遍免费内测使用,用户只要在平台申请内测就能得到使用许可。不仅如此,“百模大战”下人人都做大模型,很难形成企业自身和产业壁垒,加上 AI 算力成本高昂,大模型的商业化没有想象当中那么容易。

简单来说,国内 AI 大模型与OpenAI的商业模式、技术成本相距甚远。OpenAI 能投入数亿美元的算力训练成本,国内中小 AI 公司无法达到,尤其大部分都集中于应用端。

“参数量其实是一个辩证的问题。千亿万亿参数只是代表你最高的能力,但高参数意味着思维能力要求更高、算力高,而客户场景不一定需要这么高的算力要求,因为不是所有场景都能接受千亿参数量成本。”第四范式创始人、CEO戴文渊今年5月对钛媒体App表示,在各种条件制约以及企业寻找盈利下,To B客户均开始选择成本可控的垂直 AI 大模型。

在2023全球数字经济大会人工智能高峰论坛上,周鸿祎、张鹏、周伯文等嘉宾都普遍提到大模型的“行业化”、“垂直化”,深入政务、金融、文创、医疗等行业拓展,同时也围绕模型安全、可信、可控进行讨论。

周鸿祎认为,大模型真正的机会在企业级市场,中国做大模型,最应该抓住产业发展的机会。但目前的公有大模型用在政府、城市、行业等企业级场景时,存在四点不足,包括缺乏行业深度、数据安全隐患、无法保障内容可信、训练和部署成本过高等。

“公有大模型存在很多数据安全隐患。每个企业自己内部的Know-how是核心资产,肯定不会训练到公域大模型;公有大模型使用会有数据泄露的问题,因为很多想法和计划都要告诉它,它才能写出一篇好的文章;公有大模型是生成式AI,本身算法的特点就是会胡说八道,而且是一本正经、理直气壮地胡说八道,这个特点用来做小说、写剧本,作为聊天机器人逗闷子效果很不错,但放在企业级场景问题就很大,要是真的拿医疗大模型开的药方,你敢不敢相信、敢不敢吃;公有大模型无法实现成本可控,因为大模型成本之高也被渲染得很厉害,训练一次要一千万美金,需要多少算力、多少显卡,企业内部做垂直大模型不用追求知识的全面,也不用追求能力面面俱到,百亿模型可能就足够了,千亿到百亿看起来参数做小了十倍,节省的训练和部署成本可远远不止十倍。”

周鸿祎直言,未来企业级市场真正需要的大模型要符合行业化、企业化、垂直化、小型化、专有化等特点。不仅如此,在他看来,构建企业级大模型要坚持以下三个原则:

1、安全:首先是安全原则,大模型存在网络安全、数据安全、算法安全等风险,特别在生成内容安全方面,目前已经有人利用AIGC生成各种以假乱真的内容用于诈骗,且治理起来比搜索引擎要复杂很多。因此人工智能安全的问题需要从现在开始着手研究。
2、可信:其次是可信原则,可通过企业知识库和搜索的校正解决大模型的“幻觉”问题,以及知识不能及时更新问题。“如何解决输出内容准确的问题?现在可以通过向量数据库、企业搜索和外部知识库进行校正。”
3、可控:最后是可控原则,周鸿祎认为,大模型目前还有点不靠谱的情况下,建议企业和政府使用大模型时,一开始步子可以小一点,不要向它开放API、插件和函数模式,还是要坚持它是一个助手,最后人是在决策的“回路”上。他在PPT中提到,要采取监控审计手段,把大橫型“关在笼子里”。

对于企业如何使用大模型,周鸿祎强调,企业大模型首先要用好通用能力,充分发挥大模型最擅长、最成熟的能力;着眼企业痛点和刚需,小切口,大纵深,比如信息分析和决策、企业知识搜索和管理、办公协作和智能客服等办公场景,都是最合适的切入点。

同时,周鸿祎还建议企业在使用大模型时先开启“助手”和“副驾驶”模式,让大模型与现有的业务系统保持相对独立,保持隔离度,对企业来说也更安全可控。此外,企业大模型应当领导、员工都能用,做到AI普惠。

“老是有人渲染应用大模型就要大裁员,搞得很多员工对大模型很抵触。我坚决反对这个观点,大模型目前想独立完成一项工作还是很难的,更多的定位是人类很好的工具、知识的助手,所以大模型的发展要以人为本。”周鸿祎提到,易用好用是大模型发展的第一原则。

周鸿祎判断,数字人将成为企业级大模型的重要入口和承载形式。此前360智脑发布的“有灵魂”的数字助理,可解决大模型的易用性难题。此次现场,周鸿祎还展示了定制化的“北京客服问不倒”和“北京城市招商宝”,为北京市训练的两个大模型数字人,解决一些政企领域的核心需求。

不仅是周鸿祎,智谱 AI CEO张鹏提到,从商业落地角度来说,智谱 AI 提出MaaS(Model As A Service)大模型服务理念,是希望让千亿级、高精度的大模型被更多个人和企业使用,享受AI赋能。

“我们有三个版本,一是有端到端模型训练服务,已经在自建算力平台上帮助大家完成若干模型迁移训练;二是提供模型搭建服务,提供License;三是和云计算厂商合作,提出API调用以及Model Instance服务,帮助大家能够快速构建强大的基础设施能力。”张鹏表示。

钛媒体App了解到,智谱AI正在研发新的ChatGLM2大模型产品,参数量减少但数据质量提升,相比于初代模型,ChatGLM2-6B在数理逻辑、知识推理、长文档理解等多个维度的能力上,都取得了巨大的提升。在多个评测中,ChatGLM2得分要超过GPT-4和ChatGPT。

衔远科技创始人、清华大学惠妍讲席教授周伯文则表示,Al能否与业务充分结合,是决定Al能否实现经济价值的关键因素。只有紧贴业务的Al战路设计、完善的配套架构、充足的Al人才,以及健全的内部培养机制,才能使AI与业务发展需求充分融合,最大化经济收益。

昆仑万维CEO方汉则认为,目前来看大模型处于B端降本,C端增效状态。

他认为,中国的B端服务企业,可以看到很难有一家企业能够垄断整个B端服务。由于大模型对行业数据的需求,B端必然会出现每家大模型企业都能够在一两个行业中取得先发成功,没有一家企业能够在所有行业取得成功,而且很难有企业能拿到全行业的数据;而C端必然碎片化,由于中国市场的付费习惯,其实同海外有非常大的差别,中国用户的免费习惯是非常明显的,所有给C端用户提供服务的企业必然是以免费模式为主,VIP模式为辅。

“大潮将起,落地为王。我们希望这一波通用人工智能的创业浪潮、投资浪潮能够和上一波不太一样,可以更快地落地、产生用户和收入。”方汉的理论依然偏向大模型的商业化。他提到,昆仑万维研发的AI 生成音乐产品已经落地文旅场景,今年4月与北京东城区签署协议。

中国电信集团大数据和AI中心副总经理张鑫,则在现场公布了其研发的TeleChat大模型,支持输出代码、写演讲稿等。张鑫提到,电信数科公司研发目标是打造万级AI算法舱,以成为百亿级AI服务商,产品涵盖AI算法、平台、应用、硬件、大模型等。

这是中国电信首次对外公布其大模型产品。张鑫还称,相对于其他大模型,TeleChat产品使用的大部分是国内中文大数据,数据90%都是国内为主,而且基于中国电信天翼云和云网融合底座,TeleChat做模型训练参数的时候,能力能够达到47%,而且模型训练的效率、模型算法能力还在不断提升。

在应用场景中,中国电信的TeleChat大模型已经开始厂商智能化,解决一些语音接线员的人才紧缺和覆盖不足问题。通过AI技术提升,实现社会治理能力的现代化,减少成本消耗。

云知声创新事业部副总裁郭凡曾提到,由云知声和北京友谊医院共同开发的基于山海大模型的门诊病历生成系统示范应用,在智慧医疗领域,基于云知声700亿参数规模的自研“山海”大模型,结合前端声音信号处理、声纹识别、语音识别、语音合成等全栈式智能语音交互技术,预计可提升医生的电子病历录入效率超过400%,节约单个患者问诊时间超过40%,提升医生门诊效率超过66%。

实际上,大模型是典型赢家通吃领域。需要更多的钱,需要更多的算力,以及更优秀人才。因为更好的算力意味着更多人用,更多人用意味着更多数据,更多数据意味着更好的算力结果。大模型必然是巨头必争之地,巨头有钱,有技术,更重要是有数据。

而创业公司项目太多,资金过于分散,尤其在企业端最终都变成了消耗资金买英伟达 A100卡、买云服务,没有一个量化的企业发展流程。尤其在AI 公司、SaaS公司普遍盈利难、造血难之下,初创公司需要进行大模型商业化、盈利化。

所以,目前国内 AI 大模型正在形成的是以阿里、腾讯、百度、华为、商汤等大公司建立的通用大模型基座以及算力中心,以及包括毫末智行、天眼查、云知声、中科闻歌、旷视等公司建立的垂直或行业领域大模型,只专注于一两个领域解决核心问题。


政府支撑大模型场景落地


本次论坛上,北京市经信局再次公布了北京市通用人工智能产业创新伙伴计划第二批成员,有63家企业入选。

据了解,截至6月30日,共有416家京内外大模型研发和应用企业申请加入第二批“伙伴计划”。最终,包括北京百度网讯科技有限公司、中电数据服务有限公司、北京集智未来人工智能产业创新基地有限公司等63家企业入选并公布。其中,算力伙伴10家,数据伙伴10家,模型伙伴10家,应用伙伴24家、投资伙伴9家。此外,评估出模型观察员30家。

据钛媒体App估算,截至目前已经有超过80家公司和机构,入选到了北京市通用人工智能产业创新伙伴计划当中。

目前,北京正快速推进 AI 大模型建设和产业布局工作。

5月21日,北京市人民政府印发《北京市加快建设具有全球影响力的人工智能创新策源地实施方案(2023-2025年)》的通知,到2025年,北京人工智能技术创新与产业发展进入新阶段,基础理论研究取得突破,原始创新成果影响力不断提升,而且人工智能产业规模持续提升,形成具有国际竞争力和技术主导权的产业集群。

5月23日,北京市人民政府办公厅印发《北京市促进通用人工智能创新发展的若干措施》的通知,要求充分发挥政府引导作用和创新平台催化作用,整合创新资源,加强要素配置,营造创新生态,重视风险防范,推动北京市通用人工智能实现创新引领和理性健康发展。

钛媒体App在现场注意到,关于 AI 大模型在政务领域的落地案例和企业参与者越来越多,阿里、华为、汽车之家、值得买科技等公司均在参与。

北京市政务服务管理局一位负责人在现场演讲中提到,为了支撑平台“京策”建设,政府需要在场景领域进行通用大模型技术落地,从而提升政策规范管理和精准服务能力。“对海量市民诉求数据进行深度挖掘分析,为领导决策、基层治理、城市治理提供更有力支撑。”

上述负责人提到,场景推进方面,先期会使用开放的小接口模式,后续会开展私有化的深度应用。长期来看,他们将在数据安全可控的条件下,通过建立数字保护机制和技术评价,来开放高质量可信的政务数据集。

中科闻歌交付中心负责人王璋盛在和钛媒体App交流中提到,政府类客户对于 AI 大模型的诉求是很高的,该领域在大模型应用中也需要数据安全、数据治理等条件,尤其进行高质量数据训练,从而更好解决该领域的实际应用问题。

蜜度CTO刘益东对钛媒体App表示,公司去年开始使用华为云基础设施产品展开政务、媒体等领域的业务落地,如今该公司即将发布专注于网络舆论的垂直行业大模型产品。

“政府开始买单‘大模型’,一方面是政策引导和实际应用场景诉求,另一方面是企业自身需要通过大模型来解决成本问题、商业化问题。”一位行业人士向钛媒体App分析,国内大模型行业正在回到 AI 企业与政府结合形成商业化、拿政府补助的时期。

姜广智表示,当前,北京正加快推进国家新一代人工智能创新发展试验区和国家人工智能创新应用先导区建设,打造具有全球影响力的人工智能创新策源地,具体措施包括以下三点:

一是加强政策创新和标准引领。解决数据数量相对匮乏、质量难以保证、采集标注成本高及合规使用等问题。筹划出台“算力券”政策,支持基于落地应用场景的中小企业获取多元化、低成本优质算力,支持本市人工智能企业与相关行业组织在人工智能国家标准、行业标准、地方标准制定中发挥引领作用,参与模型性能、数据安全、隐私保护等方面的技术标准制定。
二是加大场景开放力度、率先落地标杆应用。推动本市政府机关、事业单位、国有企业等具有管理公共事务职能的组织积极采购和使用安全、可靠的大模型相关产品和服务,在政务服务、智慧城市等领域率先落地应用,提升城市治理能力现代化水平。
三是推动伙伴计划走深走实。目前伙伴计划中,有10余家算力伙伴计划提供不少于4000P低成本优质算力,供北京市人工智能中小企业开展大模型训练和推理。10个数据伙伴开放18个、近500T高质量数据集供大模型企业训练使用。同时,也将加快推动大模型行业应用落地,深入发挥伙伴计划这一市场化对接合作平台的作用,营造北京市大模型创新合作、应用落地的良好生态。

姜广智强调,北京市经信局将不断加强优质资源要素配置,有效整合创新资源,积极营造创新生态,夯实人工智能产业发展基础。

“大模型不是一家企业能够做出来的,最好是大家在算力、模型、数据这些层面形成几个大的生态,尤其是在政府部门的指导下,企业能够在生态中形成伙伴关系,这样大家更多是合作而不是竞争。未来,大模型可能会形成有生态,有伙伴,大家一起共赢的关系。”君联资本执行董事纪海泉表示。