建模世界偏好:偏好建模中的Scaling Laws

简介: 本文探讨了人类偏好建模的可扩展性,揭示其遵循Scaling Law。通过大规模训练(1.5B-72B参数)Qwen 2.5模型,使用1500万对论坛偏好数据,发现测试损失随规模指数增长而线性下降。研究提出WorldPM(Modeling World Preference),作为统一的人类偏好表征方法,在客观与主观评估中展现优势。实验表明,WorldPM可显著提升样本效率和多维度性能,成为高效的人类偏好微调基座。同时,文章反思主观评估复杂性,建议放弃简单预设,让模型自主发现人类偏好的深层规律,推动AI对齐新方向。论文与代码已开源。

Scaling Law最早在语言建模当中被发现,在下一个词预测任务当中,研究者们发现测试损失随着训练规模和模型规模的指数增长而线性下降。这一发现迄今促成了一系列强大的语言模型,他们对人类语言和知识展现出深刻的洞察,同时也引领着未来语言模型的发展方向。

在语言建模阶段,模型还只是学习语言的本质规律,基于人类反馈的强化学习则进一步将语言模型转化为符合人类偏好和能够为人类所用的助手,其中人类反馈一般由模型学习如何与人类偏好选择保持一致。

强化学习的潜力已经被近期基于规则验证的强化学习所验证,并且在代码、数学等任务上取得了超越性的成就。整个语言模型的主要算法模块只剩下人类反馈建模(偏好建模)的扩展性仍然未被验证。

人类反馈由于其信号稀疏(仅有01标签表示是否偏好)、监督噪音(偏好复杂多样、人类可能错误标注)似乎难以扩展,许多研究给予更丰富的监督信号(文本反馈、制定偏好标注原则等)、或者从偏好数据集中去噪等方式来增强偏好建模。

然而,这些人类的先验知识和对人类偏好的某种主观假设,是否只是重复如Rich Sutton说的 苦涩的教训

我们首次揭示人类偏好建模遵循Scaling Law。通过从论坛收集1500W规模的人类偏好对,在不同规模(1.5B-72B)的Qwen 2.5模型上进行大规模训练,我们发现模型在识别回复缺陷和判断客观正确性任务上,测试损失随着训练规模指数增长而线性下降。

这种扩展趋势暗示着人类偏好建模可能存在统一表征,那些表面的差异将在统一建模中被扬弃,各种似乎互相矛盾的人类偏好能够得到统一的理解。为此,我们提出建模世界偏好(Modeling World Preference,简称WorldPM),其中世界偏好意指人类偏好的统一表征。

我们在《WorldPM: Scaling Human Preference Modeling》中详细讨论了这种扩展趋势,进一步实验表明训练得到的模型是一个很好的偏好微调起点,在广泛的任务上有显著提升。论文和模型都已经开源。


640 (28).png


论文和代码已开源:

?论文

??GitHub

?模型已上线 Hugging Face


人类偏好建模的Scaling Law

在一般论坛上,同一个帖子下常常有多个回答,而这些回答获得的点赞数不同。这种差异恰好反映了人们的自然偏好。为了让AI学习人类的偏好,我们从同一个帖子下抽取两个点赞数不同的回答,要求模型给出与人类偏好一致的判断(我们的训练损失仍然是BT Loss)。

为了全面评估模型效果,我们使用了三类测试:

  1. 对抗性测试:通过构造"貌似合理但实际有缺陷"的回答来考验模型。比如,在正确答案中故意加入错误信息,或者给出看似专业但实际离题的回答。这能测试模型识别细微缺陷的能力。
  2. 客观性测试:在有标准答案的问题中,同时给出正确和错误的回答,考察模型是否能分辨出更好的答案。
  3. 主观性测试:使用人类或AI标注的主观偏好数据,检验模型与人类判断的一致程度。


640 (29).png


我们发现,随着模型规模和训练数据量的增加,模型在识别细微错误方面的能力持续提升。特别有趣的是,在客观评估中出现了"涌现"现象 —— 只有更大规模的模型如(72B)才能持续扩展,而小模型则较难突破瓶颈。

然而在主观评估上却没有观察到扩展的趋势,我们对这一意外现象进行深入研究发现,主观评估在某些评价维度上与WorldPM所学习到的偏好存在冲突。


为什么偏好建模是可扩展的

“偏好建模是可扩展的” 这个结论初看令人难以置信。我们在得出这个结论之前也曾面临两大质疑:

  1. 任务形式过于简单,偏好建模只有0和1两种监督信号(表示哪个回答更好),而预测下一个词(next-token prediction)任务有数百万倍的监督信号密度。这样简单的任务,模型真能学到深层特征吗?
  2. 数据质量似乎不够理想,论坛的偏好数据充满噪音,这种嘈杂的数据如何支持模型的持续进步?相比之下,可验证奖励的强化学习虽然奖励信号稀疏,但至少是准确的。

但深入思考后,我们提出了新的见解:

首先,让我们思考为什么预测下一个词能帮助模型理解语言?正如Ilya Sutskeve所说,要准确预测下一个词,模型必须理解语言产生背后的深层规律。同理,要在偏好预测上达到高准确率(比如90%),模型就必须找到一种能够统一解释绝大多数人类偏好的深层模式。

其次,什么是"噪音"?从技术角度看,它指的是那些看似无规律的标签或监督信号。但所谓的"噪音"可能只是源于人类视角的局限。就像我们每天使用语言却未必理解语言产生的规律一样,人类在表达偏好时也未必清楚自己为什么会做出这样的选择。而模型恰恰可能发现在这些噪音当中隐藏的,人类个体难以理解的深层规律。

这些想法促使我们产生一个大胆的推测:人工智能的可扩展性既不依赖密集的监督信号(next token prediction),也不取决于信号的准确性(RLVR)。真正重要的是这个信号是否合理(与人类目标相关)且具有挑战性(避免过快收敛)。尽管高质量的监督信号确实能加速这个过程。


主观评估的复杂性:当AI开始超越表面特征

当我们放弃对人类偏好的某种主观假设,并且反思主观评估究竟在评估什么的时候,我们或许能够对于主观评估为何不能扩展提出一个可能的猜想。

主观评估涉及多个维度 —— 例如有用性、相关性、表达风格等,这些维度往往很难有统一的标准,这与有标准答案的客观评估有着本质区别。而正如前文所说,主观评估的标注者们往往对人类偏好做了预先规定,即在某个维度上"人类应该偏好什么"。当这些预设与模型实际学习到的偏好不一致时,就会出现有趣的现象:模型可能在某些维度上与主观评估一致,在其他维度上却相反,最终导致评估分数呈现出平衡状态甚至变差。


640 (30).png


我们特别关注了风格这一维度:普通用户和AI评估者往往会偏好特定的回答风格,比如更长的答案或更多的格式标记。但随着训练规模增加,模型逐渐摆脱了这种表面特征的依赖,转而关注更本质的内容。这种"进步"反而导致模型在带有风格偏好的评估中得分降低。

我们揭示了模型如何超越表面特征:它先是快速掌握简单的规律(比如"更长的回答更好"),这让他能够在最短的时间内很好地预测符合这一偏好的数据。但在继续学习更多数据时,模型发现这个规律并不总是成立。为了统一解释这些看似矛盾的现象,模型被迫深入挖掘,最终发现了更本质的人类偏好模式。

我们需要重新思考人类主观评估——这一评估领域很大程度上延续了客观评估的思路,计算二元标注的正确率、使用LLM充当评估者等。然而这两个领域截然不同,客观评估具有公认的答案,而主观评估并非如此,包含噪音、错误以及混合了非常丰富维度的偏好数据可能适合于训练(让模型发现内在的规律),但作为评估来说,将让结果变得混乱。


640 (31).png


这些发现揭示了一个深刻的问题:当AI真正开始"理解"人类偏好时,它可能会与我们既有的评估标准产生冲突。这提醒我们需要重新思考:如何更准确地评估AI对人类偏好的理解?


WorldPM:打造高效的人类偏好微调基座

进一步研究表明,WorldPM不仅在预训练阶段表现出色,更是一个理想的人类偏好微调起点。

我们通过在多个数据规模(从7K到800K样本)的人类偏好数据集上进行实验,在7个benchmark的20个评估维度上,WorldPM展现出显著优势:

客观评估维度:许多关键子项的性能提升超过5%。

主观评估指标:稳定且明显的提升,说明了WorldPM学习到了有效的主观表征。

样本效率大幅提高:减少人工标注成本。


640 (32).png


这一发现具有重要的实践意义:人类偏好数据的标注往往需要大量人力投入,而有了WorldPM这个强大的预训练基座,我们可以用更少的标注数据达到更好的效果。这不仅节省了资源,更为AI模型的对齐开辟了新的可能。


未来展望


传统的偏好建模往往"预设"了人类的偏好——比如认为人们喜欢"有用的"或"诚实的"回答。但这种规定似乎始终无法完全描述清楚人类偏好,有时,一个不那么"有用"但充满趣味的回答可能更受欢迎,一个善意的"美化"可能比赤裸裸的真相更让人暖心。

人类的精神世界或许远比我们想象的更加丰富多彩。我们其实并不理解人类偏好是什么,正如我们也并不理解语言是什么。然而这并不妨碍我们使用语言或者表达偏好,也并不妨碍强大的语言模型比我们更理解语言或者偏好。

回想苦涩的教训揭示的第二个观点:思维的实际内容实际上是极其复杂,不可理解的。我们应该放弃寻找思考人类偏好的简单方法,例如思考人类偏好包含若干原则、或者把偏好多样性看作是噪音并加以去除。反之,我们应该相信人类偏好的复杂性,专注于能够发现和捕捉偏好复杂性的元方法,让模型而不是我们去发现广泛人群的普遍偏好。将我们对人类偏好的思考内置于模型最终只会偏离人类偏好。