大模型強(qiáng)化學(xué)習(xí)總是「用力過(guò)猛」?Scale AI聯(lián)合UCLA、芝加哥大學(xué)的研究團(tuán)隊(duì)提出了一種基于評(píng)分準(zhǔn)則(rubric)的獎(jiǎng)勵(lì)建模新方法,從理論和實(shí)驗(yàn)兩個(gè)維度證明:要想讓大模型對(duì)齊效果好,關(guān)鍵在于準(zhǔn)確區(qū)分「優(yōu)秀」和「卓越」的回答。這項(xiàng)研究不僅揭示了獎(jiǎng)勵(lì)過(guò)度優(yōu)化的根源,還提供了實(shí)用的解決方案。
讓大模型按照人類意圖行事,一直是AI領(lǐng)域的核心挑戰(zhàn)。目前主流的強(qiáng)化學(xué)習(xí)微調(diào)(RFT)方法雖然有效,但存在一個(gè)致命弱點(diǎn):獎(jiǎng)勵(lì)過(guò)度優(yōu)化(reward over-optimization)。
獎(jiǎng)勵(lì)過(guò)度優(yōu)化是大模型對(duì)齊的「阿喀琉斯之踵」。
簡(jiǎn)單來(lái)說(shuō),就是模型學(xué)會(huì)了「鉆空子」——它們不是真正變得更好,而是學(xué)會(huì)了如何在獎(jiǎng)勵(lì)模型上刷高分,實(shí)際輸出質(zhì)量反而下降。這就像考試時(shí)學(xué)生死記硬背標(biāo)準(zhǔn)答案來(lái)應(yīng)付老師,而不是真正理解知識(shí)。
Scale AI的最新研究直擊這一痛點(diǎn),從理論層面揭示了問(wèn)題的根源,并提出了創(chuàng)新的解決方案。