当硅谷的生成式 AI 巨头们将 Scaling Law 奉为圭臬并疯狂燃烧算力预算时,人们很快意识到这个游戏中唯一的战略资产形成了:高质量的训练数据成为了每个模型厂商都渴望的 “数字石油”。而这 “新石油” 的供应商、华裔天才 Alexandr Wang 与他一手创建的数据标注公司 Scale AI 一时间也风光无两。他不仅成为了微软、Meta、OpenAI 等大手笔投入模型训练的公司指定的数据服务商,还登堂入室成为了美国国防部的座上宾。市场对高质量数据短缺的预期让 Scale AI 这种靠加工数据赚钱的公司成为公认的好公司,在 2024 年完成 10 亿美金 F 轮融资后,公司的估值也相较上一轮翻倍来到了 138 亿美金。这位 1997 年出生的年轻 CEO 借助机器学习以及生成式 AI 的浪潮,带领 Scale AI 在 2024 年突破 10 亿美金年化收入的门槛,相较于 2023 年之前翻了 4 倍。不仅是 Scale AI,Encord、Label Box、Snorkel AI 等厂商也凭借自己的独特技术快速成长为了这个朝阳市场中的重要玩家。
但这场盛宴并非不会结束,根据研究人员判断,网络上公开语料数据将很快被用尽,AI 巨头迫切的需要各领域的专业人士贡献自己的标注数据以及垂直领域知识来打造更好的 AI。这些专家存储在私域中的数据无法被巨头们从网络上随意抓取,这意味着他们有机会凭借这些数据的控制权为自己获取更大的利益,而不是让数据白白流失。这或许是 Web3 介入的好机会。
作者:Hendrix,Web3Caff Research 研究员
封面:Logo and background photo by Sahara,Typography by Web3Caff Research
字数:全文共计 10400+ 字
目录
- Sahara AI:Web3 数据工厂
- 数据&AI 101:Web2 & Web3 视角
- 第一步:Sahara Data Service Platform 重塑生产关系
- 平台功能介绍
- Sahara Legend
- 标注案例:Myshell
- 同类数据标注平台对比
- 第二步:AI Studio 完成数据商品化
- 平台功能解读
- 与竞品对比
- 第三步:资产上链 + 生态运营
- 多层架构
- 生态补充
- Sahara 的机遇与挑战
- 机遇:利基市场带来更好的财务表现
- 挑战:AI 挑战数据标注
- 总结
- 要点结构图