當矽谷的生成式 AI 巨頭們將 Scaling Law 奉為圭臬並瘋狂燃燒算力預算時,人們很快意識到這個遊戲中唯一的戰略資產形成了:高品質的訓練數據成為了每個模型廠商都渴望的「數位石油」。而這「新石油」的供應商、華裔天才 Alexandr Wang 與他一手創建的數據標註公司 Scale AI 一時間也風光無兩。他不僅成為了微軟、Meta、OpenAI 等大手筆投入模型訓練的公司指定的數據服務商,還登堂入室成為了美國國防部的座上賓。市場對高品質數據短缺的預期讓 Scale AI 這種靠加工數據賺錢的公司成為公認的好公司,在 2024 年完成 10 億美金 F 輪融資後,公司的估值也相較上一輪翻倍來到了 138 億美金。這位 1997 年出生的年輕 CEO 借助機器學習以及生成式 AI 的浪潮,帶領 Scale AI 在 2024 年突破 10 億美金年化收入的門檻,相較於 2023 年之前翻了 4 倍。不只是 Scale AI,Encord、Label Box、Snorkel AI 等廠商也以自己的獨特技術快速成長為了這個朝陽市場中的重要玩家。
但這場盛宴並非不會結束,根據研究人員判斷,網路上公開語料數據將很快被用盡,AI 巨頭迫切的需要各領域的專業人士貢獻自己的標註數據以及垂直領域知識來打造更好的 AI。這些專家儲存在私域的資料無法被巨頭們從網路上隨意抓取,這意味著他們有機會憑藉這些資料的控制權為自己獲取更大的利益,而不是讓資料白白流失。這或許是 Web3 介入的好機會。
作者:Hendrix,Web3Caff Research 研究員
封面:Logo and background photo by Sahara,Typography by Web3Caff Research
字數:全文共 10400+ 字
目錄
- Sahara AI:Web3 資料工廠
- 資料&AI 101:Web2 & Web3 視角
- 第一步:Sahara Data Service Platform 重塑生產關係
- 平台功能介紹
- Sahara Legend
- 標註案例:Myshell
- 同類數據標註平台對比
- 第二步:AI Studio 完成資料商品化
- 平台功能解讀
- 與競品對比
- 第三步:資產上鏈+ 生態運營
- 多層架構
- 生態補充
- Sahara 的機會與挑戰
- 機會:利基市場帶來更好的財務表現
- 挑戰:AI 挑戰資料標註
- 總結
- 要點結構圖