数据即资产：DataFi正在开启新蓝海

转载

128 天前

3598

Biteye

文章转载来源： Biteye

作者：Biteye核心贡献者 @anci_hu49074

“我们正处于全球竞相构建最佳基础模型的时代。计算能力和模型架构虽然重要，但真正的护城河是训练数据”

——Sandeep Chinchali，Story首席AI官

从Scale AI谈起，聊聊AI Data赛道的潜力

要说本月AI圈最大的八卦，莫过于Meta展现钞能力，扎克伯格四处招募人才，组建了一支以华人科研人才为主的豪华 Meta AI 团队。领队正是年仅 28 岁、创建了 Scale AI 的 Alexander Wang。他一手创建了Scale AI，目前估值290亿美金，服务对象既包括美国军方，也覆盖OpenAI、Anthropic、Meta等等的多家有竞争关系的AI巨头，都要依靠Scale AI提供的数据服务，而Scale AI的核心业务便是提供大量准确的标注数据（labeled data）。

为什么Scale AI可以从一众独角兽中脱颖而出？

原因就在于它早早发现了数据在AI产业中的重要性。

算力、模型、数据是AI模型的三大支柱。如果把大模型比成一个人的话，那么模型是身体、算力是食物，而数据，就是知识/信息。

在LLM拔地而起发展至今的岁月里，业界的发展重点也经历了从模型到算力的转移，如今大多数模型都已确立了transformer作为模型框架，偶尔创新MoE或MoRe等；各大巨头或者是自建Super Clusters完成算力长城，或者是和AWS等实力雄厚的云服务签订长期协议；搞定了算力的基础温饱，数据的重要性就逐渐凸显了。

与 Palantir 等二级市场声名显赫的传统 To B 大数据公司不同，Scale AI公司如其名，致力于为AI模型打造坚实的数据基础，其业务不止于对现有数据等挖掘，还将眼光投向更长远的数据生成业务，并试图通过不同领域的人工专家组成AI trainer团队，为AI模型的训练提供更加优质的训练数据。

如果你对这个业务不以为然，那么我们不妨先看看模型是如何训练的。

模型的训练分为两个部分——预训练和微调。

预训练的部分，有点像人类的婴儿逐渐学会说话的过程，我们通常需要的是喂给AI模型大量从网上爬虫获取的文本、代码等信息，模型通过自我学习这些内容，学会说人话（学术上叫做自然语言），具备基础的沟通能力。

微调的部分，就类似去学校读书，通常有明确的对错、答案和方向。学校会根据各自的定位，把学生们培养成不同的人才。而我们也会通过一些事先处理好的、有针对的数据集，把模型训练得具备我们期待的能力。

至此，聪明的你可能已经明了，我们需要的数据也分为两部分。

一部分数据不需要经过太多处理，足够多就好，通常来自例如Reddit、Twitter、Github等大型UGC平台的爬虫数据、公开文献数据库、企业私有数据库等。
另一部分，就像专业的课本，需要精细的设计和筛选，确保能够培养模型特定的优良品质，这就需要我们进行一些必要的数据清洗、筛选、打标签、人工反馈等工作。

这两部分数据集，就构成了AI Data赛道的主体。不要小看这些看似没什么科技含量的数据集，目前主流观点认为，随着Scaling laws中算力优势的逐渐失效，数据将成为不同大模型厂商保持竞争优势的最重要支柱。

随着模型能力的进一步提升，各种更加精细、专业的训练数据将成为模型能力的关键影响变量。如果我们更进一步把模型的训练比作武林高手的养成，那么优质的数据集，就是最上乘的武功秘籍（要想把这个比喻补充完整，也可以说算力是灵丹妙药、模型是本身资质)。

纵向来看，AI Data也是一个具备滚雪球能力的长期主义赛道，随着前期工作的积累，数据资产也将具备复利能力，越老越吃香。

Web3 DataFi：天选AI Data沃土

相比Scale AI在菲律宾、委内瑞拉等地组建的几十万人的远程人工标记团队，Web3在进行AI 数据领域上有天然的优势，DataFi的新名词也随之诞生。

在理想情况下，Web3 DataFi的优势如下：

1. 智能合约保障的数据主权、安全和隐私

在现存公开数据即将被开发用尽的阶段，如何进一步挖掘未公开数据、甚至是隐私数据，是获取拓展数据源的一个重要方向。这就面临一个重要的信任选择的问题——你是选择中心化大公司的一纸合同买断制，出卖自己手上的数据；还是选择区块链上的方式，继续把数据IP握在手中的同时，还能够通过智能合约清晰明了的明白：自己的数据被何人何时何事使用。

同时，对于敏感信息，还有可以通zk、TEE等方式，保证你的隐私数据只有守口如瓶的机器经手，而不会被泄露。

2. 天然的地理套利优势：自由的分布式架构，吸引最适合的劳动力

或许是时候挑战一下传统的劳动生产关系了。与其像Scale AI这样全世界寻找低价劳动力，不如发挥区块链的分布式特点，并通过由智能合约保障的公开、透明的激励措施，让分散在全世界的劳动力都能够参与到数据贡献中去。

对于数据打标、模型评估等人力密集工作，相比于中心化的建立数据工厂的方式，使用Web3 DataFi的方式还有利于参与者的多样性，这对避免数据的偏见也有长远意义。

3. 区块链明确的激励和结算优势

如何避免“江南皮革厂”式的悲剧？自然是用智能合约明码标价的激励制度，取代人性的阴暗。

在不可避免的去全球化背景下，如何继续实现低成本的地理套利？满世界开公司显然已经更难了，那不如绕过旧世界的藩篱，拥抱链上结算的方式吧。

4. 有利于构建更加高效、开放的“一条龙”数据市场

“中间商赚差价”是供需双方永远的痛，与其让一个中心化的数据公司充当中间商，不如在链上创建平台，通过像淘宝一样公开的市场，让数据的供求双方能够更加透明、高效的对接。

随着链上AI生态的发展，链上的数据需求将更加旺盛、细分和多样，只有去中心化的市场能够高效的消化这种需求，并转化成生态的繁荣。

对于散户而言，DataFi也是最有利于普通散户参与的去中心化AI项目。

虽然AI工具的出现一定程度降低了学习门槛，去中心化AI的初衷也是打破当下巨头垄断AI生意的格局；但不得不承认，当前的许多项目对于毫无技术背景的散户而言，可参与性并不强——参与去中心化算力网络挖矿往往伴随着昂贵的前期硬件投入，模型市场的技术门槛又总能轻易让普通参与者望而却步。

相比之下，是普通用户可以在AI革命中抓住的为数不多的机会——Web3让你不需要签下一份数据血工厂的合同，只需要鼠标一点登录下钱包，就可以通过完成各种简单的任务参与其中，包括：提供数据、根据人脑的直觉和本能对模型进行打标、评估等简单工作、或者进一步利用AI工具进行一些简单的创作、参与数据交易等。对于撸毛党老司机们，难度值基本为零。

Web3 DataFi的潜力项目

钱流向了哪里，方向就在哪里。除了Web2世界中 Scale AI获Meta投资143亿美金、Palantir一年内股票狂飙5倍+以外，Web3融资中，DataFi赛道的表现也十分优秀。这里我们对这些项目做一个简单的介绍。

Sahara AI， @SaharaLabsAI，融资4900万美金

Sahara AI的最终目标是打造一个去中心化AI的超级基础设施和交易市场，试水的第一个板块就是AI Data，其DSP （Data Services Platform，数据服务平台）公测版将于7月22日上线，用户可以通过贡献数据、参与数据打标等任务获得代币奖励。

链接：app.saharaai.com

Yupp， @yupp_ai ，融资3300万美金

Yupp是一个AI模型的反馈平台，主要收集用户对模型输出内容的反馈。当前的主要任务是用户可以对比不同模型对同一个prompt的输出，然后评选出个人认为更好的那一个。完成任务可以获取Yupp积分，Yupp积分可以进一步兑换成USDC等法币稳定币。

链接：https://yupp.ai/

Vana， @vana，融资2300万美金

Vana的重点在于将用户的个人数据（如社交媒体活动、浏览记录等）转化为可货币化的数字资产。用户可以授权将个人数据上传到DataDAOs中相应的数据流动性池（DLP）中，这些数据将会被汇集起来，用于参与AI模型训练等任务，用户也将获得相应的代币奖励。

链接：https://www.vana.org/collectives

Chainbase， @ChainbaseHQ，融资1650万美金

Chainbase 的业务聚焦在链上数据，目前已覆盖200多条区块链，将链上活动化为结构化、可验证且可货币化的数据资产，供dApp开发使用。Chainbase的业务主要通过多链索引等方式获得，并通过其Manuscript 系统和 Theia AI 模型对数据加工，普通用户目前可参与度不高。

Sapien， @JoinSapien，融资1550万美金

Sapien的目标是将人类知识大规模转化为高质量的 AI 训练数据，任何人都可以在平台上进行数据标注工作，并通过同伴验证的方式，保证数据的质量。同时鼓励用户建立长期信誉、或通过质押的方式做出承诺，赚取更多奖励。

链接：https://earn.sapien.io/#hiw

Prisma X， @PrismaXai ，融资1100万美金

Prisma X想做机器人的开放协调层，其中物理数据收集是关键。这个项目目前处于早期阶段，根据近期刚发布的白皮书推测，参与方式可能有投资机器人收集数据、远程操作机器人数据等方式。目前开放基于白皮书的quiz活动，可以参与赚积分。

链接：https://app.prismax.ai/whitepaper

Masa，@getmasafi，融资890万美金

Masa是Bittensor生态的头部子网项目之一，目前运营有42号数据子网和59号Agent子网。数据子网致力于提供实时访问数据，目前主要是矿工通过TEE硬件爬取X/Twitter上的实时数据，对于普通用户来说，参与难度和成本都比较大。

Irys， @irys_xyz，融资870万美金

Irys专注于可编程数据存储和计算，旨在为 AI、去中心化应用（dApps）和其他数据密集型应用提供高效、低成本的解决方案。数据贡献方面目前看普通用户可以参与的不多，但当前测试网阶段有多重活动可以参与。

链接：https://bitomokx.irys.xyz/

ORO， @getoro_xyz，融资600万美金

ORO想做的是赋能普通人参与AI贡献。支持的方式有：1. 链接自己的个人账号贡献个人数据，包括社交账号、健康数据、电商金融等账号；2.完成数据任务。目前测试网已上线，可以参与。

链接：app.getoro.xyz

Gata， @Gata_xyz，融资400万美金

定位为去中心化数据层，Gata目前推出了三个产品key参与：1. Data Agent：一系列只要用户打开网页就可以自动运行处理数据的AI Agent；2. AII-in-one Chat：类似与Yupp的模型评估赚取奖励的机制；3. GPT-to-Earn：浏览器插件，收集用户在 ChatGPT 上的对话数据。

链接：https://app.gata.xyz/dataAgent

https://chromewebstore.google.com/detail/hhibbomloleicghkgmldapmghagagfao?utm_source=item-share-cb

怎样看当下的这些项目？

目前看这些项目壁垒普遍不高，但要承认的是，一旦积累了用户和生态粘性，平台优势会迅速累积，因此早期的应在激励措施、用户体验上着重发力，只有吸引到足够的用户才能做成数据这单大生意。

不过，作为人力密集型的项目，这些数据平台在吸引人工的同时，也要考虑如何管理人工、保障数据产出的质量。毕竟Web3许多项目的通病——平台上大部分用户都只是无情的撸毛党——他们为了获得短期的利益往往牺牲质量，如果放任他们成为平台主力用户，势必会劣币驱逐良币，最终使数据质量得不到保障，也无法吸引来买家。目前我们看到Sahara、 Sapien等项目都已在数据质量上有所强调，努力与平台上的人工建立长期健康的合作关系。

另外，透明度不够，是当下链上项目的又一问题所在。诚然，区块链的不可能三角，让许多项目在启动阶段都只能走一条“中心化带动去中心化”的道路。但如今越来越多的链上项目给人的感观，更像“披着Web3皮的Web2旧项目”——公开的可链上追踪的数据寥寥无几，甚至路线图上也很难看出公开、透明的长期决心。这对于Web3 DataFi的长期健康发展无疑是有毒的，我们也期待更多项目常怀初心，加快开放、透明的步伐。

最后，DataFi的mass adoption路径也要分为两个部分看：一部分是吸引到足够多toC参与者加入到这个网络，形成数据采集/生成工程的生力军、AI经济的消费者，组成生态闭环；另一部分则是得到目前主流to B大公司的认可，毕竟短期看财大气粗的他们才是数据大单的主要来源。这方面我们也看到Sahara AI、Vana等都取得了不错的进展。

结尾

宿命论一点说，DataFi是用人类智能长期哺育机器智能，同时以智能合约为契约，保障人类智能的劳动有所收益，并最终享受机器智能的反哺。

如果你在为AI时代的不确定性焦虑，如果你在币圈的沉浮中依然怀有区块链理想，那么跟随一众资本大佬的脚步，加入DataFi不失为一个顺势而为的好选择。

关键词：

来源：Biteye

发布人：暖色

声明：该文观点仅代表作者本人，不代表火讯财经立场。火讯财经系信息发布平台，仅提供信息存储空间服务。

如文章涉及侵权，请及时致函告之，本站将第⼀时间删除⽂章。邮箱：840034348@qq.com

上一篇：如何用NAV评估你的加密股票值多少钱？

下一篇：前脚并购后脚被盗：Upbit再陷安全危机，朝鲜黑客干的？

数据即资产：DataFi正在开启新蓝海

从Scale AI谈起，聊聊AI Data赛道的潜力

为什么Scale AI可以从一众独角兽中脱颖而出？

如果你对这个业务不以为然，那么我们不妨先看看模型是如何训练的。

Web3 DataFi：天选AI Data沃土

对于散户而言，DataFi也是最有利于普通散户参与的去中心化AI项目。

Web3 DataFi的潜力项目

Sahara AI， @SaharaLabsAI，融资4900万美金

Yupp， @yupp_ai ，融资3300万美金

Vana， @vana，融资2300万美金

Chainbase， @ChainbaseHQ，融资1650万美金

Sapien， @JoinSapien，融资1550万美金

Prisma X， @PrismaXai ，融资1100万美金

Masa，@getmasafi，融资890万美金

Irys， @irys_xyz，融资870万美金

ORO， @getoro_xyz，融资600万美金

Gata， @Gata_xyz，融资400万美金

怎样看当下的这些项目？

结尾

16737篇

109641740

新闻排行

Zama如何为区块链披上“量子隐形战衣”？

没有AgentOracle，AI经济就是空中楼阁

香港RWA战况升级：EnsembleTX开启“实战”模式，万亿央企抢跑入局

梳理Tether近期投资的20家公司，“数字金融帝国”的三大战略浮现

比特币暴跌30%，真的进入熊市了吗？用5种分析框架综合评估

股价跌去八成之后，BitMine还有投资价值吗？

5张图表看懂当前比特币市场现状：我们处于哪个阶段？

全球银行“上链潮”？星展、摩根大通、花旗角逐下一个前沿

友情链接：

数据即资产：DataFi正在开启新蓝海

从Scale AI谈起，聊聊AI Data赛道的潜力

为什么Scale AI可以从一众独角兽中脱颖而出？

如果你对这个业务不以为然，那么我们不妨先看看模型是如何训练的。

Web3 DataFi：天选AI Data沃土

对于散户而言，DataFi也是最有利于普通散户参与的去中心化AI项目。

Web3 DataFi的潜力项目

Sahara AI， @SaharaLabsAI，融资4900万美金

Yupp， @yupp_ai ，融资3300万美金

Vana， @vana，融资2300万美金

Chainbase， @ChainbaseHQ，融资1650万美金

Sapien， @JoinSapien，融资1550万美金

Prisma X， @PrismaXai ， 融资1100万美金

Masa，@getmasafi，融资890万美金

Irys， @irys_xyz，融资870万美金

ORO， @getoro_xyz，融资600万美金

Gata， @Gata_xyz， 融资400万美金

怎样看当下的这些项目？

结尾

16737篇

109641740

新闻排行

友情链接：

Prisma X， @PrismaXai ，融资1100万美金

Gata， @Gata_xyz，融资400万美金