科大讯飞能靠大模型起飞吗?

转载
504 天前
8441
AI梦工厂

文章转载来源:AI梦工厂

原文来源:海克财经

作者:许俊浩

图片来源:由无界 AI‌ 生成

自2022年12月ChatGPT石破天惊般异军突起,大模型便迅速成为国内热门项目,赛道风起云涌,同时变数日增。

因个人健康原因而不得不退隐静养的美团联合创始人王慧文,时下已不仅辞去美团非执行董事职务,而且由他创立并在国内大模型创业方向点了一把大火的光年之外,备受关注之下也已寻得看起来还算不错的处置方案——美团以约20.65亿元总代价买入了光年之外100%股权,好兄弟王兴由此替代王慧文成为光年之外操盘手。

回溯过去这半年,在百度跟进ChatGPT脚步率先于国内推出大模型文心一言之后,头部科技大厂多有动作,阿里通义千问、腾讯混元、华为盘古等均在此列。据科技部新一代人工智能发展研究中心发布的《中国人工智能大模型地图研究报告》,截至2023年5月28日,国内10亿级参数规模以上大模型已发布了79个。

在层出不穷的大模型中,老牌AI公司科大讯飞的入局故事也颇值得一说。

科大讯飞2023年5月6日发布了星火认知大模型,1个月后又发布了新的v1.5版本。科大讯飞创始人兼董事长刘庆峰表示,等到10月24日科大讯飞全球开发者大会时,星火大模型要实现中文超越ChatGPT、英文达到ChatGPT水平。

这些举措和表达有力推动了科大讯飞股价的上涨。2023年6月,科大讯飞股价达到了上市以来最高点每股82元,对应总市值超过了1500亿元。要知道,2023年1月时,科大讯飞市值尚不足800亿元。

奈何星火大模型发布后争议四起。

其中一个争议来自一个名为SuperCLUE的国内机构。该机构5月9日发布的中文通用大模型综合性评测基准榜单,将科大讯飞的星火大模型排在人类、ChatGPT 4、ChatGPT 3.5之后的第四位。网友发现,SuperCLUE仿照了国际NLP即自然语言处理权威数据集GLUE及SuperGLUE,实际上却是国内民间组织自评。GLUE与CLUE,状若李逵与李鬼,不细看,还真分不清楚。据公开信息,SuperGLUE榜单题目一般超过2万道,国内SuperCLUE题目却仅有100道。

榜单发布当日,SuperCLUE官网显示,中文基准测评成员顾问排名第一位的是哈工大讯飞联合实验室资深级研究员崔一鸣。第二天即5月10日,网站就删除了相关信息。而在2023年6月的中文大模型排行榜中,该机构将人类排在0位,第一、二位仍是ChatGPT,三、四位则变成了360智脑(4.0)和文心一言(v2.0.4),讯飞星火(v1.5)排至第六。

话题并未就此终结。

5月24日,科大讯飞股价猛跌,盘中一度跌超9%。科大讯飞官方回应称,股价下跌系某生成式AI产品写作虚假小作文导致,而小作文中提到的科大讯飞被曝涉嫌大量采集用户隐私数据并将其用于人工智能研究为不实信息,公司法务部如查实有恶意造谣情况,将采取法律措施。

明眼人一望便知,这是把矛头指向了百度文心一言。

文心一言市场负责人张全文当天发表朋友圈称,友商把股价大跌归咎于文心一言的命题小作文是碰瓷,对于无端恶意抹黑污蔑,百度方面也将采取法律措施,“来而不往非礼也”。

据实讲述也好,碰瓷营销也罢,国内大模型刚刚上路,难言孰强孰弱,而星火大模型距离科大讯飞宣称的赶超ChatGPT的距离则有目共睹。在全年营收增幅从2021年的40.61%下滑至2022年的2.77%的背景下,大模型能为科大讯飞的业务走向带来什么仍未可知。


从语音到AI


科大讯飞在国内智能语音领域曾具先发优势。

这家成立逾23年的公司在2004年销售额就已突破1亿元,与联想、华为等公司的合作更使其成为语音交互领域的巨头。

2008年5月,科大讯飞在深圳交易所上市,是年公司营收2.57亿元,同比增长25.14%。这2.57亿元是由三大块主营业务构成,它们分别是收入5458万元的语音支撑软件、收入7631万元的语音行业应用/系统、收入1.26亿元的信息工程与运维服务。特别值得注意的是,占总营收比例高达49.17%的信息工程与运维服务业务主要靠科大讯飞公司所在地安徽力撑,后者贡献了科大讯飞该项业务收入的99.49%。

在智能手机兴起的2010年前后,科大讯飞迅速抓住机会推出了讯飞语音云,2011年即上线首款入门级语音合成芯片,这也使讯飞输入法走入移动互联网用户的视野。如今讯飞输入法已支持包括粤语、客家话、闽南语在内的23种方言和藏语等5种少数民族语言的语音识别。

到了2014年,科大讯飞推出了讯飞超脑计划,由NLP转向AI。2015年全年,科大讯飞营收25亿元,其中占比最高的仍是信息工程与运维服务,收入达7.2亿元(28.83%);往后依次是教育应用产品,收入6.6亿元(26.4%);电信语音增值产品,收入3.13亿元(12.52%);语音支撑软件,收入3.03亿元(12.12%);行业应用产品IFLYTEK-C3,收入2.47亿元(9.91%);其余占比较小的还有音视频监控、通信数据分析应用、学院教育教学和其他业务收入。也就是说,支撑科大讯飞营收的主要是软件和信息技术服务。

随着互联网的高速发展,诸多大厂也切入到了语音交互领域,这使科大讯飞的地位渐趋不甚稳固。中国语音产业联盟数据显示,2012年科大讯飞在中国智能语音市场占比54.3%,到2015年时下降为44.2%,百度以27.8%位居第二,第三则是占比6.9%的苹果公司。百度、网易等大厂各有建树,对科大讯飞必然造成冲击。

外界对科大讯飞的AI产品也颇有质疑,如同声传译产品。2018年有人在网络上发表文章,认为科大讯飞产品在翻译时实际上有人工翻译成分。科大讯飞回应,产品使用的是“人机耦合翻译助手”模式,即由机器向同传翻译者提供语音识别和机器翻译的结果,辅助同传工作。这也等于客观承认“讯飞听见”远达不到同声传译的水准,无法以AI代替同传人员。

尽管存在短板,科大讯飞的业务仍表现良好,连续10年营收平均增长率超过25%。但越是新兴技术,领域内部迭代越快,包括语音交互和AI。据华经产业研究院发布的《2023-2028年中国智能语音行业市场发展现状及投资方向研究报告》,中国智能语音市场规模自2017年的100亿元左右增长至2022年的341亿美元,预计2023年能达382亿美元;而2022年占据国内市场份额较高的是科大讯飞(44.2%)、百度(37.8%)、苹果(15.4%)、Nuance(6.9%)和小i机器人(3%)。

语音领域承压,广义AI更为不易。

调研机构艾瑞咨询《中国人工智能产业研究报告》显示,中国AI产业市场规模2020年已达1546亿元,2022年为1958亿元,预计2027年可达6122亿元,2022-2027年的相关CAGR即复合年均增长率为25.6%。

市场向好,竞争激烈。在整个AI产业图谱中,包括计算机视觉、大数据智能、对话式AI、内容审核、智能驾驶等不同领域,科大讯飞所在的技术层和具体应用层均需直面国内的百度、阿里、腾讯及国外的谷歌、微软等大厂的攻城略地。

财报显示,科大讯飞2022年营收188.2亿元,增幅仅2.77%;2023年第一季度营收28.87亿元,同比下滑17.64%。科大讯飞官方将第一季度的业绩问题归因于2022年12月与202年1月的特殊环境和其后的春节假期,认为这属于短期冲击,不影响长期经营基本面。官方还表示,2019年被列入美国实体清单后又在2022年10月再次承压;2022年第四季度和2023年第一季度处于调整中,加之大模型的推出,预计从第二季度起,收入和毛利会正向增长。


模型成色几何?


据财报,2022年全年,科大讯飞的主营业务仍是软件和信息技术服务,占总营收的98.41%;其中占比最大的是教育产品和服务,占总营收的32.74%;其次是开放平台及消费者业务(24.66%),再次是智慧城市(23.63%)以及运营商相关业务(11.14%);智慧汽车、智慧医疗和智慧金融相加占比为6.2%。

AI业务的迅猛发展需要科大讯飞跟进技术潮流,大模型的重要性不言而喻。

由研发投入可见科大讯飞对大模型的重视。财报显示,科大讯飞2021年研发投入29.36亿元,2022年增长至33.55亿元,同比增长14.28%;研发人员数量已从2021年的8367人增加到了2022年的9281人,同比增长10.92%,在整体员工中的占比提升到了61.68%。

但实际上,除去算法,大模型训练的难点和重点在于需要庞大数据和巨大算力,包括CPU(中央处理器)、GPU(图形处理器)、ASIC(专用集成芯片)等硬件设备以及支持大规模并行计算的软件平台和框架,此外还涉及大量数据存储、传输以及相关人力维护和升级。NVIDIA即英伟达研究数据显示,ChatGPT 3最大规模的模型需要使用175 Billions的参数量,需要512颗V100显卡训练7个月时间或使用1024颗A100芯片训练长达一个月的时间,每个月成本在百万美元以上量级。

这意味着资金实力雄厚的大厂更有烧钱的底气,一般企业很难参与竞争。2022年全年,阿里、腾讯的研发投入均超过500亿元,而百度在研发投入214亿元的情况下,旗下文心一言仍与ChatGPT差距较大,遑论同期研发投入仅约30亿元的科大讯飞。

即便如此,仍有不少人对科大讯飞寄予厚望。这不仅因为其在语音和AI上有一定先发优势,更因为这家公司多少带有些国家队色彩。最新财报即2023年第一季度财报显示,国有法人中国移动通信有限公司和中科大资产经营有限责任公司在科大讯飞前十大股东中分别排在第一和第四位,持股比例分别为10.66%和3.59%,作为创始人兼董事长的刘庆峰以7.24%的持股比例位列第二。

这被认为科大讯飞更易打造从To G到To B的商业闭环。财报对此亦有提及。举例来说,财报显示,截至2022年底,科大讯飞智能评卷技术已累计在14个省市高考中实现正式交付应用;司法业务领域已接入466个子平台,涉及26个省市区,累计覆盖1800多家法院。

但G端与B端的发展很难与大模型研发和应用直接挂钩,也无法全然打消市场质疑。5月星火大模型发布后不久,就有网友发现在后者的回答中会出现“我是由OpenAI开发的”等内容,由此怀疑星火大模型套壳OpenAI开发的ChatGPT。科大讯飞表示,这是由于ChatGPT热度较高,训练数据中出现较多OpenAI、ChatGPT等词汇造成的回答错误。

大模型的常见考察标准包括多风格、多任务长文本生成,多层次跨语言理解,泛领域开放式知识问答,情境式思维逻辑推理等。据海克财经观察,目前已有相当数量的网友对星火大模型进行了测试。面对一些人类视角不算复杂的逻辑推理题目和部分高考语文、数学题目时,星火大模型未能给出正确答案。

正因大模型开发成本高昂,应用和商业化想要覆盖成本也还需要时间。OpenAI在2023年3月宣布开放API(应用程序接口),价格为每1000 tokens 0.002美元,还表示开放人工智能驱动的语音转文本模型Whisper的API,开发者使用的价格为每分钟0.006美元。有外媒报道,2022年OpenAI亏损超过5.4亿美元,全靠背后的微软输血。

对标ChatGPT的星火大模型无疑更难短期直接为科大讯飞带来利润,而科大讯飞如今还需部分依靠政府补助。财报显示,自2018年至2022年,科大讯飞获得的政府补助分别为2.76亿元、4.12亿元、4.25亿元、4.38亿元、4.73亿元。


如何构筑壁垒


大模型的发展对科大讯飞的裨益直接体现在产品中。

科大讯飞近5年教育领域业务营收增速超过30%,大模型能够在数据和应用层面协同的基础上推动教育、办公、医疗等下游领域产品的发展和销售,扩大智能产品的影响力和市占率。民生证券2023年5月的一份研报得出判断,在政策全面支持下,科大讯飞以G-B-C构建教育正向闭环,全面加速渗透全国市场。

科大讯飞已将大模型先行落地到了既有AI学习产品上,如讯飞AI学习机T20、T20Pro等。科大讯飞6月19日发布了618战报,宣称销售额同比增长125%,AI学习机系列、翻译机、智能录音笔、智能办公本等分别获得所属品类京东、天猫双平台销售额冠军。但官方并未公布具体销售额数字。

单就教育平板而言,该领域玩家众多,已是一片红海,这当中既有以步步高、读书郎等为代表的老牌学习机厂商,还有百度、网易有道等互联网势力参与竞争。据IDC数据,2021年下半年至2022年上半年,百度的小度学习机市场份额位列学习机平板市场第一,其后是步步高和科大讯飞。

若以娱乐产品市场情况类比,微软Xbox销量处于索尼PS4的阴影之下,远不占优;但微软保有人机交互界面等核心技术及微软云、微软操作系统等匹配的软硬件生态,使Xbox具有一定不可替代性。

相较之下,目前科大讯飞AI及大模型水准很难构筑技术壁垒,在同样排名靠后的情况下难以稳固地位,即便市场仍有需求潜力,想在其中实现爆发式增长也殊为不易。

科大讯飞在部分AI细分领域亦颇具优势,但这些还远远不是营收大头,比如AI医疗产品智医助理。财报提到,智医助理是业内唯一通过国家执业医师资格测试的智能辅助诊断系统;截至2022年底,该系统已累计覆盖全国30个省、380个区县并常态化应用,累计为基层医生提供了超过5.3亿次AI辅助诊疗建议。这项业务2022年全年收入4.67亿元,在科大讯飞同期总营收中仅占比2.48%。

更重要的是,2018年时,科大讯飞销售费用17.26亿元,超过了同期研发投入,而2022年销售费用已增至31.64亿元。

官宣发力AI的同时,科大讯飞还进行了多元化探索。举例来说,2019年2月,科大讯飞旗下的讯飞云创投资华南脑控智能科技,涉足脑机接口研发;2022年9月,科大讯飞从平安集团手上收购了北京环球保险经纪有限公司,将之更名为北京科讯保险经纪有限公司;2022年10月,科大讯飞注册了讯飞甄选相关商标。

这些涉及不同领域、投入不同程度的布局,究竟能为科大讯飞主营业务分散多少压力、提供多少新意不得而知,可知的是科大讯飞营收目标的自我缩减。

在2021年2月的年度计划大会上,科大讯飞曾提出未来5年营收千亿元的目标,这代表着复合年均增长率要达到50%。2021年的40.61%显然还有差距,2022年的2.77%则已越来越远。2023年1月,营收千亿被更新为未来5年实现500亿元以上目标。两相比照,已然腰斩。

成本深似海,玩家多如云,大模型或将还有大机会。截至海克财经本文发稿,距离科大讯飞宣称的赶超ChatGPT已仅剩113天。当然,横看营收目标变化,赶超ChatGPT最终结果如何倒也没那么重要,重要的是科大讯飞能否由此装上强劲增长新引擎。市场在观望,投票即将开始。