近日,實(shí)驗(yàn)室博士生周健魁作為第一作者的論文"Disentangling Consensus and Value-Specific Representations for Controllable Pluralistic Value Alignment in LLMs" 被Forty-Third International Conference on Machine Learning (ICML 2026) 會(huì)議錄用。
大模型不同價(jià)值維度通常彼此相關(guān)、同時(shí)存在,導(dǎo)致各“價(jià)值專家”的表征高度相似、相互糾纏。結(jié)果是,調(diào)整某一種價(jià)值專家的作用時(shí),可能會(huì)無意中影響其他價(jià)值,限制了精細(xì)化控制能力。為解決這一問題,提出了 DisAlign,一種模型合并框架。它從信息幾何的視角,將價(jià)值表征顯式拆分為共識(shí)部分和價(jià)值特定部分:先提取不同價(jià)值之間共享的共識(shí)錨點(diǎn)與子空間,再對(duì)剩余表征做譜分解,構(gòu)造彼此解耦的價(jià)值子空間。這樣可以更準(zhǔn)確、獨(dú)立地調(diào)節(jié)多種價(jià)值。在涵蓋三種不同價(jià)值框架的數(shù)據(jù)集實(shí)驗(yàn)中,DisAlign 相比現(xiàn)有基線方法,持續(xù)提升了價(jià)值解耦效果,并實(shí)現(xiàn)了更準(zhǔn)確的多元價(jià)值控制。
會(huì)議簡(jiǎn)介

ICML (International Conference on Machine Learning) 是機(jī)器學(xué)習(xí)頂級(jí)國(guó)際學(xué)術(shù)會(huì)議,是中國(guó)計(jì)算機(jī)學(xué)會(huì)推薦的A類國(guó)際學(xué)術(shù)會(huì)議。ICML匯集了來自學(xué)術(shù)界和工業(yè)界的研究人員,共同探討機(jī)器學(xué)習(xí)理論,優(yōu)化、統(tǒng)計(jì)算法等領(lǐng)域的前沿研究。今年,該會(huì)議計(jì)劃于2026年7月6日至10日在韓國(guó)首爾召開。本屆ICML會(huì)議共收到超過3萬(wàn)篇投稿,其中6352篇論文被接受,錄用率26.6%
論文簡(jiǎn)介
大語(yǔ)言模型中可控多元價(jià)值對(duì)齊的
共識(shí)表征與價(jià)值特定表征解耦

論文鏈接:https://icml.cc/virtual/2026/poster/66729
代碼倉(cāng)庫(kù):https://github.com/erzhoujk/DisAlign
隨著大語(yǔ)言模型被廣泛應(yīng)用到真實(shí)場(chǎng)景中,傳統(tǒng)只追求“平均偏好”或單一價(jià)值取向的對(duì)齊方法,已經(jīng)難以滿足現(xiàn)實(shí)需求,因?yàn)椴煌脩?、文化和任?wù)場(chǎng)景往往對(duì)應(yīng)著不同且可組合的人類價(jià)值觀。因此,“多元價(jià)值對(duì)齊”變得越來越重要,模型應(yīng)當(dāng)能夠根據(jù)不同價(jià)值維度及其權(quán)重,實(shí)現(xiàn)可控的行為調(diào)節(jié)。現(xiàn)有方法雖然已經(jīng)嘗試通過提示、單獨(dú)訓(xùn)練價(jià)值專家模型,或通過參數(shù)合并來實(shí)現(xiàn)多價(jià)值對(duì)齊,但在真實(shí)數(shù)據(jù)中,不同價(jià)值通常不是孤立出現(xiàn)的,而是彼此相關(guān)、共同表達(dá)的,這使得模型內(nèi)部學(xué)到的價(jià)值表示往往高度相似并相互糾纏。
要想實(shí)現(xiàn)上述的這種精準(zhǔn)對(duì)齊,面對(duì)的核心挑戰(zhàn)在于:如何把多種價(jià)值中“共享的共識(shí)部分”和“各價(jià)值獨(dú)有的特定部分”有效分離出來。由于不同價(jià)值專家在訓(xùn)練時(shí)會(huì)受到混合價(jià)值信號(hào)的共同影響,調(diào)整某一個(gè)價(jià)值維度的強(qiáng)度時(shí),往往會(huì)連帶影響其他價(jià)值維度,導(dǎo)致控制不夠精細(xì)、獨(dú)立性不足。此外,如果直接做參數(shù)干預(yù),還可能破壞模型原有的通用能力,出現(xiàn)所謂的“對(duì)齊稅”。我們通過去除共識(shí)部分實(shí)現(xiàn)多價(jià)值觀表征的解耦,實(shí)現(xiàn)對(duì)多個(gè)價(jià)值維度更精準(zhǔn)、低干擾、可獨(dú)立調(diào)節(jié)的控制。

方法概述
本文提出了 DisAlign,一種面向大語(yǔ)言模型可控多元價(jià)值對(duì)齊的模型合并框架。其核心思想是將不同價(jià)值專家中混雜在一起的表征,顯式拆分為兩部分:一部分是多個(gè)價(jià)值共享的“共識(shí)成分”,另一部分是各個(gè)價(jià)值獨(dú)有的“價(jià)值特定成分”。具體來說,DisAlign首先從信息幾何視角出發(fā),通過專家分布的乘積形式提取一個(gè)能夠刻畫多價(jià)值共同結(jié)構(gòu)的共識(shí)錨點(diǎn)與共識(shí)子空間。
其次,對(duì)去除共識(shí)后的剩余表示進(jìn)行分解和正交化,構(gòu)造彼此解耦的價(jià)值特定子空間。最終,模型可以通過線性組合共識(shí)部分和用戶指定權(quán)重的價(jià)值特定部分,實(shí)現(xiàn)對(duì)多種價(jià)值維度更精確、獨(dú)立的調(diào)節(jié)。相比現(xiàn)有直接合并價(jià)值專家的方法,該方法減少了不同價(jià)值之間的相互干擾,同時(shí)盡可能保留了模型原有的通用能力。

實(shí)驗(yàn)結(jié)果
我們?cè)谌齻€(gè)價(jià)值觀真實(shí)數(shù)據(jù)集(MIC, Daily Dilemmas, ValuePrism)上,使用兩種代表性LLM backbone(Llama3.2-3B和Qwen3.5-4b)進(jìn)行了廣泛實(shí)驗(yàn),結(jié)果展示在表1中:

可以發(fā)現(xiàn): DisAlign的表現(xiàn)優(yōu)于其他方法,尤其是在隨機(jī)組合的多元價(jià)值觀對(duì)齊場(chǎng)景,實(shí)現(xiàn)了多元化對(duì)齊的精準(zhǔn)調(diào)控。另外我們的方法相比多目標(biāo)優(yōu)化和其他模型合并方法可以取到更大的帕累托邊界

并且我們首先通過POE理論,只通過一次數(shù)據(jù)遍歷計(jì)算費(fèi)舍爾信息矩陣就可以識(shí)別共識(shí)表征部分,

在對(duì)去除共識(shí)部分后價(jià)值觀表征正交化處理,不僅實(shí)現(xiàn)了多元價(jià)值觀的解耦,還避免了對(duì)齊稅的產(chǎn)生,實(shí)現(xiàn)持續(xù)價(jià)值對(duì)齊:


討論
1. 實(shí)際應(yīng)用價(jià)值
這項(xiàng)研究的實(shí)用價(jià)值主要體現(xiàn)在,它讓大語(yǔ)言模型的價(jià)值對(duì)齊從“整體調(diào)一個(gè)大方向”提升到“按具體價(jià)值維度精細(xì)調(diào)節(jié)”。在真實(shí)應(yīng)用中,用戶、機(jī)構(gòu)和文化背景的價(jià)值偏好往往并不相同,而且這些偏好還需要?jiǎng)討B(tài)組合,因此一個(gè)能夠獨(dú)立控制“關(guān)懷、公平、忠誠(chéng)、真實(shí)”等不同價(jià)值權(quán)重的模型,比只適配單一價(jià)值標(biāo)準(zhǔn)的模型更有落地意義。DisAlign 提供了一種更可控的技術(shù)路徑,使系統(tǒng)能夠根據(jù)場(chǎng)景需求靈活調(diào)整輸出風(fēng)格和決策傾向,適用于智能助手、教育、醫(yī)療、公共服務(wù)等對(duì)價(jià)值表達(dá)較敏感的場(chǎng)景。此外,這項(xiàng)工作還有很強(qiáng)的工程意義。它不是每次都重新訓(xùn)練一個(gè)新模型,而是通過對(duì)多個(gè)價(jià)值專家進(jìn)行結(jié)構(gòu)化合并來實(shí)現(xiàn)控制,因此更有擴(kuò)展性和部署效率。更重要的是,它試圖減少價(jià)值調(diào)節(jié)過程中的“串?dāng)_”和“對(duì)齊稅”問題,也就是避免在加強(qiáng)某一價(jià)值時(shí)誤傷其他價(jià)值,或明顯損害模型原有的通用能力。這意味著該方法更有希望被用于構(gòu)建既安全、又靈活、還能保持性能穩(wěn)定的實(shí)際大模型系統(tǒng)。
2. 研究的局限性和未來方向
首先,DisAlign 依賴“局部二次近似”和“局部度量同質(zhì)性”等假設(shè),即默認(rèn)各個(gè)價(jià)值專家都分布在基座模型附近,并且它們?cè)诰植烤哂邢鄬?duì)一致的信息幾何結(jié)構(gòu)。 如果模型經(jīng)過非常強(qiáng)的優(yōu)化、與基座模型偏移過大,這種近似可能失效,影響共識(shí)錨點(diǎn)和價(jià)值子空間分解的準(zhǔn)確性。其次,該方法主要適用于“預(yù)先定義好價(jià)值維度、且已有對(duì)應(yīng)偏好數(shù)據(jù)”的場(chǎng)景,因此對(duì)開放世界中更動(dòng)態(tài)、更模糊、甚至不斷演化的價(jià)值需求,適應(yīng)性仍然有限。
未來的研究方向可以從幾個(gè)方面展開:一是放寬當(dāng)前的局部幾何假設(shè),使方法能夠適應(yīng)更大幅度的模型偏移和更復(fù)雜的對(duì)齊訓(xùn)練過程;二是將該框架推廣到更開放、動(dòng)態(tài)的價(jià)值體系中,而不只依賴固定的價(jià)值標(biāo)簽和靜態(tài)偏好數(shù)據(jù);三是進(jìn)一步研究?jī)r(jià)值控制與模型通用能力保持之間的平衡,降低“對(duì)齊稅”在更復(fù)雜任務(wù)中的風(fēng)險(xiǎn);四是加強(qiáng)在人類真實(shí)使用場(chǎng)景中的評(píng)測(cè),例如多輪對(duì)話、群體差異、文化遷移和長(zhǎng)期行為一致性等問題??傮w來說,這篇工作為“精細(xì)可控的多元價(jià)值對(duì)齊”提供了一個(gè)有力起點(diǎn),但要真正走向大規(guī)模實(shí)際應(yīng)用,還需要在泛化性、魯棒性和開放環(huán)境適應(yīng)性上繼續(xù)推進(jìn)。
總結(jié)
本研究的主要貢獻(xiàn)如下:
(1) 我們識(shí)別出多元價(jià)值對(duì)齊中“精確權(quán)重控制”的關(guān)鍵挑戰(zhàn),并提出了 DisAlign,這一新框架能夠顯式地將價(jià)值共享的共識(shí)成分與價(jià)值特定成分分解開來,從而實(shí)現(xiàn)解耦且精確的價(jià)值控制。
(2) 我們?cè)谛畔缀慰蚣芟聦?duì)這種分解進(jìn)行建模,以捕捉語(yǔ)義層面的價(jià)值共識(shí),并保證不同價(jià)值調(diào)節(jié)過程中的低干擾性。
(3) 大量實(shí)驗(yàn)結(jié)果表明,DisAlign 能夠?qū)W習(xí)到更加解耦的價(jià)值表征,并顯著提升多元價(jià)值對(duì)齊的可控性。
如果您對(duì)本文內(nèi)容感興趣,可與通訊作者聯(lián)系: zhangpeng_@fudan.edu.cn
實(shí)驗(yàn)室相關(guān)論文
[1] Shitong Duan, Xiaoyuan Yi, Peng Zhang, Tun Lu, Xing Xie, Ning Gu Denevil: Towards Deciphering and Navigating the Ethical Values of Large Language Models via Instruction Learning (ICLR'24)
[2] Shitong Duan, Xiaoyuan Yi, Peng Zhang, Tun Lu, Xing Xie, Ning Gu Negating Negatives: Alignment with Human Negative Samples via Distributional Dispreference Optimization (EMNLP‘24)
如果您對(duì)我們實(shí)驗(yàn)室的相關(guān)工作感興趣,歡迎訪問我們的網(wǎng)站:
協(xié)同信息與系統(tǒng)實(shí)驗(yàn)室(CISL)
實(shí)驗(yàn)室網(wǎng)站主頁(yè):https://cscw.fudan.edu.cn/
實(shí)驗(yàn)室Github主頁(yè):https://github.com/FudanCISL

評(píng)論 0