Web3Caff Research
  • 发现
  • 研报与市场分析
    • 研究报告
    • 融资解密
    • 市场洞察
    • 会员周报
  • 数据工具
    • Web3 项目融资数据库
    • Web3 市场风向数据库
  • 学习 Web3
    • 入门破冰手册
    • 精进指南
  • 开通会员
  • 登录
  • 更多
    • 成员伙伴
    • 会员社群
    • 申请成为研究员
    • 机构研究者入驻
    • 解决方案
      • 企业账号采购
      • 推荐返佣 (联盟计划)
      • 定制化研究报告
      • 区块链咨询服务
    • 社交渠道
      • Twitter
      • 微信公众号
    • 人才招募
    • 与我们联络
    • 语言
      • 简体中文
      • 繁體中文
PRO

去中心化 AI 数据网络 Sahara AI 万字研报:Web3 时代的数据金矿守门人?全景式拆解其发展背景、技术原理、生态现状、利弊风险与未来前景

2025/04/09 预计补能(阅读)20 分钟

当硅谷的生成式 AI 巨头们将 Scaling Law 奉为圭臬并疯狂燃烧算力预算时,人们很快意识到这个游戏中唯一的战略资产形成了:高质量的训练数据成为了每个模型厂商都渴望的 “数字石油”。而这 “新石油” 的供应商、华裔天才 Alexandr Wang 与他一手创建的数据标注公司 Scale AI 一时间也风光无两。他不仅成为了微软、Meta、OpenAI 等大手笔投入模型训练的公司指定的数据服务商,还登堂入室成为了美国国防部的座上宾。市场对高质量数据短缺的预期让 Scale AI 这种靠加工数据赚钱的公司成为公认的好公司,在 2024 年完成 10 亿美金 F 轮融资后,公司的估值也相较上一轮翻倍来到了 138 亿美金。这位 1997 年出生的年轻 CEO 借助机器学习以及生成式 AI 的浪潮,带领 Scale AI 在 2024 年突破 10 亿美金年化收入的门槛,相较于 2023 年之前翻了 4 倍。不仅是 Scale AI,Encord、Label Box、Snorkel AI 等厂商也凭借自己的独特技术快速成长为了这个朝阳市场中的重要玩家。

但这场盛宴并非不会结束,根据研究人员判断,网络上公开语料数据将很快被用尽,AI 巨头迫切的需要各领域的专业人士贡献自己的标注数据以及垂直领域知识来打造更好的 AI。这些专家存储在私域中的数据无法被巨头们从网络上随意抓取,这意味着他们有机会凭借这些数据的控制权为自己获取更大的利益,而不是让数据白白流失。这或许是 Web3 介入的好机会。

作者:Hendrix,Web3Caff Research 研究员

封面:Logo and background photo by Sahara,Typography by Web3Caff Research

字数:全文共计 10400+ 字

目录

  • Sahara AI:Web3 数据工厂
  • 数据&AI 101:Web2 & Web3 视角
  • 第一步:Sahara Data Service Platform 重塑生产关系
    • 平台功能介绍
    • Sahara Legend
    • 标注案例:Myshell
    • 同类数据标注平台对比
  • 第二步:AI Studio 完成数据商品化
    • 平台功能解读
    • 与竞品对比
  • 第三步:资产上链 + 生态运营
    • 多层架构
    • 生态补充
  • Sahara 的机遇与挑战
    • 机遇:利基市场带来更好的财务表现
    • 挑战:AI 挑战数据标注
  • 总结
  • 要点结构图

Sahara AI:Web3 数据工厂

来自南加大计算机系的副教授 Sean Ren 和他的同伴 Tyler Zhou 是最早一批意识到这个机会并发掘的团队之一。在经历了 2022 年底的 ChatGPT 时刻后,他们清楚看到了即将到来的数据缺口以及 AI 带来的数据生产关系变化,并在 2023 年初构建了 Sahara AI。他们希望能在保护用户隐私以及数据所有权的前提下,让 AI 生态中的参与者相互协作,构建更智能的 AI,并获得合理的回报。最初他们设想为不同领域的专家都打造专属的 “知识代理(Knowledge Agent)”,为基础模型引入个人经验数据,微调后对外提供服务并获取回报。但这个愿景对于不同领域的专家来说,开发门槛太高,他们便抽出了其中最重要的成分:“数据”,围绕数据以及它包含的专家技能/知识,利用 Web3 激励机制优化出了一个由数据贡献者、模型开发者、节点验证者、应用开发者以及下游用户的精密的生态系统。Sahara 通过为各专业领域的专家提供知识变现的机会将其纳入自己的社区,利用数据标注服务平台对垂直领域数据进行标注,并将这些数据提供给 AI 进行学习。由于目前市场上的 AI 公司很难拿到网络公开数据之外的、依靠人类经验以及行为传递的细分行业数据,Sahara 平台推出后迅速获得了市场认可,Sahara Labs 获得了包括微软、亚马逊等大公司的订单。公司在短短两年内完成了两轮融资,包括由 Polychain Capital 领投的 600 万美金种子轮以及由 Pantera,Binance Labs 和 Polychain Capital 领投的 4300 万美金豪华阵容 A 轮融资。

去中心化 AI 数据网络 Sahara AI 万字研报:Web3 时代的数据金矿守门人?全景式拆解其发展背景、技术原理、生态现状、利弊风险与未来前景-Web3Caff Research
Sahara AI 融资信息,图源:官方博客

巨额融资不仅是基金对 Sahara Labs 独特生态位的集体买单,同时也是对公司创始团队技术与商业能力的认可。Sean Ren 博士毕业于 UIUC 计算机系,主要研究方向是当时热门的自然语言处理(NLP),毕业后加入南加大任教,目前担任计算机系副教授、智能与知识挖掘实验室(INK)负责人、信息科学研究所(ISI)研究团队负责人。他研究成果众多,所发表论文在 Google Scholar 上有超过 23000 次引用。Sean Ren 过往的研究方向包括但不限于:人机合作、模型持续学习、分布式训练、分布式推理以及 AI Agent 构建,他在这些领域的研究通过有机的结合,共同构建了 Sahara Labs 的技术理论基石。联合创始人 Tyler 毕业于 UC Berkeley,并曾在 Binance Labs 担任投资总监,负责投资与孵化工作,拥有一线的 Web3 视野。两位创始人在技术和商业上相互配合,为 Web3 领域打造了社区共同建设、共同拥有的 AI 资产平台。

数据&AI 101:Web2 & Web3 视角

当我们为 AI 提供有标注的数据时,其实是人类向模型神经网络制定标准的过程,鼓励神经网络在推理中按照人类提供的标准进行判断。目前来看,大模型的预训练中很少会用到标注数据,它更多使用在模型的微调环节,让获得通用能力的大模型向某个细分领域能力要求靠拢。此外一些传统小参数模型的训练是直接通过学习标注进行的,比如自动驾驶、金融风控等领域也需要大规模采购数据标注服务。由于细分领域的相关数据通常都来自于相应行业的企业,而企业自身都对数据保密有比较严格的要求,以防自己花费巨大成本搜集积累的数据集落入竞争对手手中。因此,传统 Web2 公司在人手不足需要外包数据标注业务时,首先他们会寻找有严格数据保密制度的标注公司,向其交付任务,数据以及任务要求。标注公司通常有自己自建的标注团队,由于任务相对简单(比如标明图中是什么物体,或者给自动驾驶场景数据分辨物体),标注公司可以快速招聘足够的员工执行任务。自建标注团队可以保证标注过程严格按照企业数据保密要求进行。如果遇到某些小众专业领域数据需求,标注公司还会代表客户对外进行合同工招聘,以保证任务按时完成。为了保护客户的隐私,Web2 的标注企业通常会构建一整套数据流转工具,包括数据库接口、标注平台、人工审核平台以及 AI 辅助审核平台,让企业与外包团队之间尽可能顺畅的沟通并快速完成任务。由于数据标注流程同质化较高,我们可以看到 LabelBox、Scale AI 这些公司的标注平台与功能都较为类似,主要通过品牌信誉获取客户的信任。从这个角度来看,Web3 本身去中心化的组织形式其实很难在这些传统细分场景内与传统数据标注公司竞争。

但是生成式 AI 的后训练过程(Post-Training)中却产生了大量非常规的数据标注需求。如下图所示,有监督微调(SFT)、人类反馈强化学习(RLHF)、偏好优化(DPO)以及最近被 Deepseek R1 带火的有组相对策略优化(GRPO)这些让模型表现更贴近专家人类的任务中,基本上都是模型给出数据(比如模型针对某些问题给出答案,等待专家打分),数据本身收集的成本无限接近于模型推理过程中消耗的算力成本(因为数据大部分靠机器生成,部分需要人工参与),但能够评测这些数据的专家却相对稀缺。这对于任何市场参与者都是相对较新的任务形式,数据标注商手中的标注团队也不能满足用户的需求。比如大家都在关注的模型数学推理能力、编程能力,当模型给出答案需要人工判断对错以及生成质量时,这并不是原来负责 “请分辨图中物体” 任务的低薪团队可以完成的。所以目前阶段,所有的数据标注承包商都需要通过众包的方式,向外搜索合适的专家。

去中心化 AI 数据网络 Sahara AI 万字研报:Web3 时代的数据金矿守门人?全景式拆解其发展背景、技术原理、生态现状、利弊风险与未来前景-Web3Caff Research
AI 预训练与后训练,图源:公开博客

但是对于能够执行任务的专家来说,他们不再满足于承包商给出的卑微时薪。他们通常是教授、博士生、律师、医生等高薪职业群体,他们本身在执业过程中进行的数据判断能够创造巨大的效益,如果让他们给数据标注商打工是一件很难的事情。通常,律师判断一份简单合同是否有风险会收费几千元,但是在数据标签收集过程中,厂商最多为单条数据付 1 元。于是矛盾产生了,专家为什么不自己持有这些数据呢?这恰好也是 Web3 能够加入的部分:保护个人数据主权,为个人数据获取相应的收益。

但过去在 Web3 数据领域的项目并不能满足当前 AI 发展带来的需求。明星项目 Vana 解决数据主权问题的办法是让个人把数据交给某个垂直领域的 DAO,并获得 DAO 的一部分股权,等到 DAO 把所有人的数据聚合后出售给开发者或者有相应业务的公司,个人才会拿到一些报酬。这其实符合的还是小模型时代数据收集的业务逻辑,个人专家知识无法发挥作用。另外一个数据类的明星项目 Masa 也是类似思路,个人向网络交出未处理的数据,等待商用并获得收益。他们构建的思路还是大数据时代做数据 “大炼钢” 的方式,收集足够多数据,抽取统计特征支持客户的应用,这并不适合当前生成式 AI 发展的需求。

各个领域专家每做一个决定,生成的都是一个有价值的数据点,这些数据可以让 AI 学习并将专家的决策影响扩大化、程序化,相当于将专家本身的能力无限复制,这毫无疑问会让数据本身以及数据支持的模型成为有价值的资产。Web3 行业需要构建一个基础设施帮助专家生成、管理、应用这些资产并从中获取收益。这便是 Sahara 想要构建的产品。

解锁剩余隐藏硬核内容,即刻订阅 PRO 会员(24h 无理由退款)

去中心化 AI 数据网络 Sahara AI 万字研报:Web3 时代的数据金矿守门人?全景式拆解其发展背景、技术原理、生态现状、利弊风险与未来前景-Web3Caff Research 去中心化 AI 数据网络 Sahara AI 万字研报:Web3 时代的数据金矿守门人?全景式拆解其发展背景、技术原理、生态现状、利弊风险与未来前景-Web3Caff Research
相关研报
会员周报:zkTLS 赛道 1.5 万字研报、Solana 推出原生身份验证服务 SAS、Catena Labs 正向 Web3 AI 原生金融系统发起挑战、Freysa 斩获 3000 万美元融资
融资项目解密:斩获 3000 万美元融资!Freysa 正通过去中心化理念赋能 AI Agent 不作恶与自主决策能力
zkTLS 赛道 1.5 万字研报:风口已至,能否成为 Web3 可信计算时代的大规模采用基石?全景式拆解其技术原理、主要方案、生态项目、风险挑战及未来潜力
市场风向洞察:将链下 KYC 直接绑定 Solana 地址!Solana 推出原生身份验证服务 SAS 能否使其成为全新链上信任层
融资项目解密:乘稳定币政策欲将落地东风,获 a16z Crypto 领投且斩获 1800 万美元融资的 Catena Labs 正向 Web3 AI 原生金融系统发起挑战
会员周报:以太坊 vs Solana 万字研报、中国香港与美国纷纷迎来稳定币法案重要进展、Succinct 推出下一代 zkVM SP1 Hypercube …
研报聚合
PRO
会员周报:zkTLS 赛道 1.5 万字研报、Solana 推出原生身份验证服务 SAS、Catena Labs 正向 Web3 AI 原生金融系统发起挑战、Freysa 斩获 3000 万美元融资
PRO
融资项目解密:斩获 3000 万美元融资!Freysa 正通过去中心化理念赋能 AI Agent 不作恶与自主决策能力
本期重磅
zkTLS 赛道 1.5 万字研报:风口已至,能否成为 Web3 可信计算时代的大规模采用基石?全景式拆解其技术原理、主要方案、生态项目、风险挑战及未来潜力
PRO
市场风向洞察:将链下 KYC 直接绑定 Solana 地址!Solana 推出原生身份验证服务 SAS 能否使其成为全新链上信任层
PRO
融资项目解密:乘稳定币政策欲将落地东风,获 a16z Crypto 领投且斩获 1800 万美元融资的 Catena Labs 正向 Web3 AI 原生金融系统发起挑战
PRO
会员周报:以太坊 vs Solana 万字研报、中国香港与美国纷纷迎来稳定币法案重要进展、Succinct 推出下一代 zkVM SP1 Hypercube …
更新提醒
邮箱订阅,不错过每一篇精彩内容报告
分享报告
Copyright © 2022-2025 Web3Caff Research. All Rights Reserved 海南外浦联动科技有限公司 增值电信业务经营许可证:琼B2-20230077 琼ICP备2022015754号 琼公网安备46902302000732号丨研究员申请丨机构研究者入驻丨企业账号采购丨定制化报告丨推荐返佣丨人才招募丨服务协议丨隐私政策丨联络我们
搜索
以太坊生态 Layer2 Layer1 跨链 ZKP
  • 发现
  • 研报与市场分析
    • 研究报告
    • 融资解密
    • 市场洞察
    • 会员周报
  • 数据工具
    • Web3 项目融资数据库
    • Web3 市场风向数据库
  • 学习 Web3
    • 入门破冰手册
    • 精进指南
  • 开通会员
  • 登录
  • 更多
    • 成员伙伴
    • 会员社群
    • 申请成为研究员
    • 机构研究者入驻
    • 解决方案
      • 企业账号采购
      • 推荐返佣 (联盟计划)
      • 定制化研究报告
      • 区块链咨询服务
    • 社交渠道
      • Twitter
      • 微信公众号
    • 人才招募
    • 与我们联络
    • 语言
      • 简体中文
      • 繁體中文

您无法复制该页面的内容