数据即资产:DataFi正在开启新蓝海

转载
13 小时前
2855
Biteye

文章转载来源: Biteye

作者:Biteye核心贡献者 @anci_hu49074

“我们正处于全球竞相构建最佳基础模型的时代。计算能力和模型架构虽然重要,但真正的护城河是训练数据”

——Sandeep Chinchali,Story首席AI官

从Scale AI谈起,聊聊AI Data赛道的潜力

要说本月AI圈最大的八卦,莫过于Meta展现钞能力,扎克伯格四处招募人才,组建了一支以华人科研人才为主的豪华 Meta AI 团队。领队正是年仅 28 岁、创建了 Scale AI 的 Alexander Wang。他一手创建了Scale AI,目前估值290亿美金, 服务对象既包括美国军方,也覆盖OpenAI、Anthropic、Meta等等的多家有竞争关系的AI巨头,都要依靠Scale AI提供的数据服务,而Scale AI的核心业务便是提供大量准确的标注数据(labeled data)。

为什么Scale AI可以从一众独角兽中脱颖而出?

原因就在于它早早发现了数据在AI产业中的重要性。

算力、模型、数据是AI模型的三大支柱。如果把大模型比成一个人的话,那么模型是身体、算力是食物,而数据,就是知识/信息。

在LLM拔地而起发展至今的岁月里,业界的发展重点也经历了从模型到算力的转移,如今大多数模型都已确立了transformer作为模型框架,偶尔创新MoE或MoRe等;各大巨头或者是自建Super Clusters完成算力长城,或者是和AWS等实力雄厚的云服务签订长期协议;搞定了算力的基础温饱,数据的重要性就逐渐凸显了。

与 Palantir 等二级市场声名显赫的传统 To B 大数据公司不同,Scale AI公司如其名,致力于为AI模型打造坚实的数据基础,其业务不止于对现有数据等挖掘,还将眼光投向更长远的数据生成业务,并试图通过不同领域的人工专家组成AI trainer团队,为AI模型的训练提供更加优质的训练数据。

如果你对这个业务不以为然,那么我们不妨先看看模型是如何训练的。

模型的训练分为两个部分——预训练和微调。

预训练的部分,有点像人类的婴儿逐渐学会说话的过程,我们通常需要的是喂给AI模型大量从网上爬虫获取的文本、代码等信息,模型通过自我学习这些内容,学会说人话(学术上叫做自然语言),具备基础的沟通能力。

微调的部分,就类似去学校读书,通常有明确的对错、答案和方向。学校会根据各自的定位,把学生们培养成不同的人才。而我们也会通过一些事先处理好的、有针对的数据集,把模型训练得具备我们期待的能力。

至此,聪明的你可能已经明了,我们需要的数据也分为两部分。

  • 一部分数据不需要经过太多处理,足够多就好,通常来自例如Reddit、Twitter、Github等大型UGC平台的爬虫数据、公开文献数据库、企业私有数据库等。
  • 另一部分,就像专业的课本,需要精细的设计和筛选,确保能够培养模型特定的优良品质,这就需要我们进行一些必要的数据清洗、筛选、打标签、人工反馈等工作。

这两部分数据集,就构成了AI Data赛道的主体。不要小看这些看似没什么科技含量的数据集,目前主流观点认为,随着Scaling laws中算力优势的逐渐失效,数据将成为不同大模型厂商保持竞争优势的最重要支柱。

随着模型能力的进一步提升,各种更加精细、专业的训练数据将成为模型能力的关键影响变量。如果我们更进一步把模型的训练比作武林高手的养成,那么优质的数据集,就是最上乘的武功秘籍(要想把这个比喻补充完整,也可以说算力是灵丹妙药、模型是本身资质)。

纵向来看,AI Data也是一个具备滚雪球能力的长期主义赛道,随着前期工作的积累,数据资产也将具备复利能力,越老越吃香。

Web3 DataFi:天选AI Data沃土

相比Scale AI在菲律宾、委内瑞拉等地组建的几十万人的远程人工标记团队,Web3在进行AI 数据领域上有天然的优势,DataFi的新名词也随之诞生。

在理想情况下,Web3 DataFi的优势如下:

1. 智能合约保障的数据主权、安全和隐私

在现存公开数据即将被开发用尽的阶段,如何进一步挖掘未公开数据、甚至是隐私数据,是获取拓展数据源的一个重要方向。这就面临一个重要的信任选择的问题——你是选择中心化大公司的一纸合同买断制,出卖自己手上的数据;还是选择区块链上的方式,继续把数据IP握在手中的同时,还能够通过智能合约清晰明了的明白:自己的数据被何人何时何事使用。

同时,对于敏感信息,还有可以通zk、TEE等方式,保证你的隐私数据只有守口如瓶的机器经手,而不会被泄露。

2. 天然的地理套利优势:自由的分布式架构,吸引最适合的劳动力

或许是时候挑战一下传统的劳动生产关系了。与其像Scale AI这样全世界寻找低价劳动力,不如发挥区块链的分布式特点,并通过由智能合约保障的公开、透明的激励措施,让分散在全世界的劳动力都能够参与到数据贡献中去。

对于数据打标、模型评估等人力密集工作,相比于中心化的建立数据工厂的方式,使用Web3 DataFi的方式还有利于参与者的多样性,这对避免数据的偏见也有长远意义。

3. 区块链明确的激励和结算优势

如何避免“江南皮革厂”式的悲剧?自然是用智能合约明码标价的激励制度,取代人性的阴暗。

在不可避免的去全球化背景下,如何继续实现低成本的地理套利?满世界开公司显然已经更难了,那不如绕过旧世界的藩篱,拥抱链上结算的方式吧。

4. 有利于构建更加高效、开放的“一条龙”数据市场

“中间商赚差价”是供需双方永远的痛,与其让一个中心化的数据公司充当中间商,不如在链上创建平台,通过像淘宝一样公开的市场,让数据的供求双方能够更加透明、高效的对接。

随着链上AI生态的发展,链上的数据需求将更加旺盛、细分和多样,只有去中心化的市场能够高效的消化这种需求,并转化成生态的繁荣。

对于散户而言,DataFi也是最有利于普通散户参与的去中心化AI项目。

虽然AI工具的出现一定程度降低了学习门槛,去中心化AI的初衷也是打破当下巨头垄断AI生意的格局;但不得不承认,当前的许多项目对于毫无技术背景的散户而言,可参与性并不强——参与去中心化算力网络挖矿往往伴随着昂贵的前期硬件投入,模型市场的技术门槛又总能轻易让普通参与者望而却步。

相比之下,是普通用户可以在AI革命中抓住的为数不多的机会——Web3让你不需要签下一份数据血工厂的合同,只需要鼠标一点登录下钱包,就可以通过完成各种简单的任务参与其中,包括:提供数据、根据人脑的直觉和本能对模型进行打标、评估等简单工作、或者进一步利用AI工具进行一些简单的创作、参与数据交易等。对于撸毛党老司机们,难度值基本为零。

Web3 DataFi的潜力项目

钱流向了哪里,方向就在哪里。除了Web2世界中 Scale AI获Meta投资143亿美金、Palantir一年内股票狂飙5倍+以外,Web3融资中,DataFi赛道的表现也十分优秀。这里我们对这些项目做一个简单的介绍。

Sahara AI, @SaharaLabsAI,融资4900万美金

Sahara AI的最终目标是打造一个去中心化AI的超级基础设施和交易市场,试水的第一个板块就是AI Data,其DSP (Data Services Platform,数据服务平台)公测版将于7月22日上线,用户可以通过贡献数据、参与数据打标等任务获得代币奖励。

链接:app.saharaai.com

Yupp, @yupp_ai ,融资3300万美金

Yupp是一个AI模型的反馈平台,主要收集用户对模型输出内容的反馈。当前的主要任务是用户可以对比不同模型对同一个prompt的输出,然后评选出个人认为更好的那一个。完成任务可以获取Yupp积分,Yupp积分可以进一步兑换成USDC等法币稳定币。

链接:https://yupp.ai/

Vana, @vana,融资2300万美金

Vana的重点在于将用户的个人数据(如社交媒体活动、浏览记录等)转化为可货币化的数字资产。用户可以授权将个人数据上传到DataDAOs中相应的数据流动性池(DLP)中,这些数据将会被汇集起来,用于参与AI模型训练等任务,用户也将获得相应的代币奖励。

链接:https://www.vana.org/collectives

Chainbase, @ChainbaseHQ,融资1650万美金

Chainbase 的业务聚焦在链上数据,目前已覆盖200多条区块链,将链上活动化为结构化、可验证且可货币化的数据资产,供dApp开发使用。Chainbase的业务主要通过多链索引等方式获得,并通过其Manuscript 系统和 Theia AI 模型对数据加工,普通用户目前可参与度不高。

Sapien, @JoinSapien,融资1550万美金

Sapien的目标是将人类知识大规模转化为高质量的 AI 训练数据,任何人都可以在平台上进行数据标注工作,并通过同伴验证的方式,保证数据的质量。同时鼓励用户建立长期信誉、或通过质押的方式做出承诺,赚取更多奖励。

链接:https://earn.sapien.io/#hiw

Prisma X, @PrismaXai , 融资1100万美金

Prisma X想做机器人的开放协调层,其中物理数据收集是关键。这个项目目前处于早期阶段,根据近期刚发布的白皮书推测,参与方式可能有投资机器人收集数据、远程操作机器人数据等方式。目前开放基于白皮书的quiz活动,可以参与赚积分。

链接:https://app.prismax.ai/whitepaper

Masa,@getmasafi,融资890万美金

Masa是Bittensor生态的头部子网项目之一,目前运营有42号数据子网和59号Agent子网。数据子网致力于提供实时访问数据,目前主要是矿工通过TEE硬件爬取X/Twitter上的实时数据,对于普通用户来说,参与难度和成本都比较大。

Irys, @irys_xyz,融资870万美金

Irys专注于可编程数据存储和计算,旨在为 AI、去中心化应用(dApps)和其他数据密集型应用提供高效、低成本的解决方案。数据贡献方面目前看普通用户可以参与的不多,但当前测试网阶段有多重活动可以参与。

链接:https://bitomokx.irys.xyz/

ORO, @getoro_xyz,融资600万美金

ORO想做的是赋能普通人参与AI贡献。支持的方式有:1. 链接自己的个人账号贡献个人数据,包括社交账号、健康数据、电商金融等账号;2.完成数据任务。目前测试网已上线,可以参与。

链接:app.getoro.xyz

Gata, @Gata_xyz, 融资400万美金

定位为去中心化数据层,Gata目前推出了三个产品key参与:1. Data Agent:一系列只要用户打开网页就可以自动运行处理数据的AI Agent;2. AII-in-one Chat:类似与Yupp的模型评估赚取奖励的机制;3. GPT-to-Earn:浏览器插件,收集用户在 ChatGPT 上的对话数据。

链接:https://app.gata.xyz/dataAgent

https://chromewebstore.google.com/detail/hhibbomloleicghkgmldapmghagagfao?utm_source=item-share-cb

怎样看当下的这些项目?

目前看这些项目壁垒普遍不高,但要承认的是,一旦积累了用户和生态粘性,平台优势会迅速累积,因此早期的应在激励措施、用户体验上着重发力,只有吸引到足够的用户才能做成数据这单大生意。

不过,作为人力密集型的项目,这些数据平台在吸引人工的同时,也要考虑如何管理人工、保障数据产出的质量。毕竟Web3许多项目的通病——平台上大部分用户都只是无情的撸毛党——他们为了获得短期的利益往往牺牲质量,如果放任他们成为平台主力用户,势必会劣币驱逐良币,最终使数据质量得不到保障,也无法吸引来买家。目前我们看到Sahara、 Sapien等项目都已在数据质量上有所强调,努力与平台上的人工建立长期健康的合作关系。

另外,透明度不够,是当下链上项目的又一问题所在。诚然,区块链的不可能三角,让许多项目在启动阶段都只能走一条“中心化带动去中心化”的道路。但如今越来越多的链上项目给人的感观,更像“披着Web3皮的Web2旧项目”——公开的可链上追踪的数据寥寥无几,甚至路线图上也很难看出公开、透明的长期决心。这对于Web3 DataFi的长期健康发展无疑是有毒的,我们也期待更多项目常怀初心,加快开放、透明的步伐。

最后,DataFi的mass adoption路径也要分为两个部分看:一部分是吸引到足够多toC参与者加入到这个网络,形成数据采集/生成工程的生力军、AI经济的消费者,组成生态闭环;另一部分则是得到目前主流to B大公司的认可,毕竟短期看财大气粗的他们才是数据大单的主要来源。这方面我们也看到Sahara AI、Vana等都取得了不错的进展。

结尾

宿命论一点说,DataFi是用人类智能长期哺育机器智能,同时以智能合约为契约,保障人类智能的劳动有所收益,并最终享受机器智能的反哺。

如果你在为AI时代的不确定性焦虑,如果你在币圈的沉浮中依然怀有区块链理想,那么跟随一众资本大佬的脚步,加入DataFi不失为一个顺势而为的好选择。