如何轻松掌握 Web3 行业正在发生的市场热点、技术动向、生态进展、治理态势…? Web3Caff Research 推出的「市场风向洞察」栏目将深入一线探寻并筛选当前发生的热点事件,并进行价值解读、点评与原理分析。透过现象看本质,即刻跟随我们快速捕获 Web3 一线市场风向。
作者:Hendrix,Web3Caff Research 研究员
封面:Logo from this project,Typography by Web3Caff Research
字数:全文共计 2900+ 字
在 AI 模型性能不断改进的过程中,最重要的一环是要提供模型的性能评估,评估模型生成能力与准确答案之间的差距并给 AI 模型找到提升的方向。但提供具有广泛代表意义以及多领域泛化的评估往往是困难且昂贵的。在中心化 AI 领域,AI 性能评估通常有三种方式,一种是邀请领域专家来对模型生成结果进行人工打分;一种是在某一个专业领域设定标准的测试数据集,判定模型生成结果的准确性;再有就是基于中心化的 AI 模型评估,比如 GPT-5 等能力强大的模型来判定被测试模型生成的质量。这三种方法推动了中心化 AI 模型的进步,但都有各自无法避免的弊端。人工专家评估成本高周期长,且能处理的数据集比较小;测试数据集由于不具有多领域任务泛化能力,很容易导致模型在改进后出现在某些特定领域任务上过拟合,但在其他领域任务上能力退化的问题;基于中心化模型的评估由于模型不透明,很难复现评估结果,而且很容易由于评估模型的性能缺陷导致被评估模型出现同样的缺陷。去中心化 AI 模型的迭代毫无疑问与这种评估机制是不匹配的,在去中心化环境中,任何主体都有可能攻击中心化的评估机制,比如通过篡改测试集、篡改专家反馈以及 “数据投毒” 等方式,挟持去中心化模型的发展方向。为此,Gensyn 近期依托于自己的去中心化可验证推理工具推出了可验证的 AI 评估工具 Judge,意在为去中心化 AI 补全推理训练中的关键一环。