如何輕鬆掌握 Web3 產業正在發生的市場熱點、技術動向、生態進展、治理態勢…? Web3Caff Research 推出的「市場風向洞察」專欄將深入第一線探尋並篩選當前發生的熱點事件,並進行價值解讀、評論與原則分析。透過現像看本質,即刻跟隨我們快速捕捉 Web3 一線市場風向。
作者:Hendrix,Web3Caff Research 研究員
封面:Logo from this project,Typography by Web3Caff Research
字數:全文共 2900+ 字
在 AI 模型效能不斷改進的過程中,最重要的一環是要提供模型的效能評估,評估模型產生能力與準確答案之間的差距並給 AI 模型找到提升的方向。但提供具有廣泛代表意義以及多領域泛化的評估往往是困難且昂貴的。在中心化 AI 領域,AI 性能評估通常有三種方式,一種是邀請領域專家來對模型生成結果進行人工打分;一種是在某一個專業領域設定標準的測試數據集,判定模型生成結果的準確性;再有就是基於中心化的 AI 模型評估,例如 GPT-5 等能力強大的模型來判定被測試模型生成的質量。這三種方法推動了中心化 AI 模式的進步,但都有各自無法避免的弊端。人工專家評估成本高週期長,且能處理的資料集比較小;測試資料集由於不具有多領域任務泛化能力,很容易導致模型在改進後出現在某些特定領域任務上過擬合,但在其他領域任務上能力退化的問題;基於中心化模型的評估由於模型不透明,很難復現評估結果,而且很容易由於評估模型的性能缺陷導致被評估模型的性能缺陷導致被評估結果。去中心化 AI 模型的迭代毫無疑問與這種評估機制是不匹配的,在去中心化環境中,任何主體都有可能攻擊中心化的評估機制,例如透過篡改測試集、篡改專家反饋以及「資料投毒」等方式,挾持去中心化模型的發展方向。為此,Gensyn 近期依賴自己的去中心化可驗證推理工具推出了可驗證的 AI 評估工具 Judge,意在為去中心化 AI 補全推理訓練中的關鍵一環。