麻豆精品无码av,欧美1区2区,久久中文字幕乱码人妻,亚洲欧美另类少妇精品,在线看黄射,69pao高清,九九九久久久国产精品,子操大逼1234区,九九爱99热精品

1
點(diǎn)贊
0
評論
0
轉(zhuǎn)載
我要入駐

論文聚焦|ICML’26|大語言模型中可控多元價值對齊的共識表征與價值特定表征解耦

收錄于合集: # 快訊

近日,實(shí)驗(yàn)室博士生周健魁作為第一作者的論文"Disentangling Consensus and Value-Specific Representations for Controllable Pluralistic Value Alignment in LLMs" 被Forty-Third International Conference on Machine Learning (ICML 2026) 會議錄用。

大模型不同價值維度通常彼此相關(guān)、同時存在,導(dǎo)致各“價值專家”的表征高度相似、相互糾纏。結(jié)果是,調(diào)整某一種價值專家的作用時,可能會無意中影響其他價值,限制了精細(xì)化控制能力。為解決這一問題,提出了 DisAlign,一種模型合并框架。它從信息幾何的視角,將價值表征顯式拆分為共識部分和價值特定部分:先提取不同價值之間共享的共識錨點(diǎn)與子空間,再對剩余表征做譜分解,構(gòu)造彼此解耦的價值子空間。這樣可以更準(zhǔn)確、獨(dú)立地調(diào)節(jié)多種價值。在涵蓋三種不同價值框架的數(shù)據(jù)集實(shí)驗(yàn)中,DisAlign 相比現(xiàn)有基線方法,持續(xù)提升了價值解耦效果,并實(shí)現(xiàn)了更準(zhǔn)確的多元價值控制。

 

會議簡介

圖片

ICML (International Conference on Machine Learning) 是機(jī)器學(xué)習(xí)頂級國際學(xué)術(shù)會議,是中國計算機(jī)學(xué)會推薦的A類國際學(xué)術(shù)會議。ICML匯集了來自學(xué)術(shù)界和工業(yè)界的研究人員,共同探討機(jī)器學(xué)習(xí)理論,優(yōu)化、統(tǒng)計算法等領(lǐng)域的前沿研究。今年,該會議計劃于2026年7月6日至10日在韓國首爾召開。本屆ICML會議共收到超過3萬篇投稿,其中6352篇論文被接受,錄用率26.6%

論文簡介
大語言模型中可控多元價值對齊的
共識表征與價值特定表征解耦

圖片

論文鏈接:https://icml.cc/virtual/2026/poster/66729

代碼倉庫:https://github.com/erzhoujk/DisAlign

隨著大語言模型被廣泛應(yīng)用到真實(shí)場景中,傳統(tǒng)只追求“平均偏好”或單一價值取向的對齊方法,已經(jīng)難以滿足現(xiàn)實(shí)需求,因?yàn)椴煌脩?、文化和任?wù)場景往往對應(yīng)著不同且可組合的人類價值觀。因此,“多元價值對齊”變得越來越重要,模型應(yīng)當(dāng)能夠根據(jù)不同價值維度及其權(quán)重,實(shí)現(xiàn)可控的行為調(diào)節(jié)。現(xiàn)有方法雖然已經(jīng)嘗試通過提示、單獨(dú)訓(xùn)練價值專家模型,或通過參數(shù)合并來實(shí)現(xiàn)多價值對齊,但在真實(shí)數(shù)據(jù)中,不同價值通常不是孤立出現(xiàn)的,而是彼此相關(guān)、共同表達(dá)的,這使得模型內(nèi)部學(xué)到的價值表示往往高度相似并相互糾纏。

要想實(shí)現(xiàn)上述的這種精準(zhǔn)對齊,面對的核心挑戰(zhàn)在于:如何把多種價值中“共享的共識部分”和“各價值獨(dú)有的特定部分”有效分離出來。由于不同價值專家在訓(xùn)練時會受到混合價值信號的共同影響,調(diào)整某一個價值維度的強(qiáng)度時,往往會連帶影響其他價值維度,導(dǎo)致控制不夠精細(xì)、獨(dú)立性不足。此外,如果直接做參數(shù)干預(yù),還可能破壞模型原有的通用能力,出現(xiàn)所謂的“對齊稅”。我們通過去除共識部分實(shí)現(xiàn)多價值觀表征的解耦,實(shí)現(xiàn)對多個價值維度更精準(zhǔn)、低干擾、可獨(dú)立調(diào)節(jié)的控制。

圖片

 

方法概述

本文提出了 DisAlign,一種面向大語言模型可控多元價值對齊的模型合并框架。其核心思想是將不同價值專家中混雜在一起的表征,顯式拆分為兩部分:一部分是多個價值共享的“共識成分”,另一部分是各個價值獨(dú)有的“價值特定成分”。具體來說,DisAlign首先從信息幾何視角出發(fā),通過專家分布的乘積形式提取一個能夠刻畫多價值共同結(jié)構(gòu)的共識錨點(diǎn)與共識子空間。

其次,對去除共識后的剩余表示進(jìn)行分解和正交化,構(gòu)造彼此解耦的價值特定子空間。最終,模型可以通過線性組合共識部分和用戶指定權(quán)重的價值特定部分,實(shí)現(xiàn)對多種價值維度更精確、獨(dú)立的調(diào)節(jié)。相比現(xiàn)有直接合并價值專家的方法,該方法減少了不同價值之間的相互干擾,同時盡可能保留了模型原有的通用能力。

圖片

實(shí)驗(yàn)結(jié)果

我們在三個價值觀真實(shí)數(shù)據(jù)集(MIC, Daily Dilemmas, ValuePrism)上,使用兩種代表性LLM backbone(Llama3.2-3B和Qwen3.5-4b)進(jìn)行了廣泛實(shí)驗(yàn),結(jié)果展示在表1中:

可以發(fā)現(xiàn): DisAlign的表現(xiàn)優(yōu)于其他方法,尤其是在隨機(jī)組合的多元價值觀對齊場景,實(shí)現(xiàn)了多元化對齊的精準(zhǔn)調(diào)控。另外我們的方法相比多目標(biāo)優(yōu)化和其他模型合并方法可以取到更大的帕累托邊界

圖片

 

并且我們首先通過POE理論,只通過一次數(shù)據(jù)遍歷計算費(fèi)舍爾信息矩陣就可以識別共識表征部分,

圖片

 

在對去除共識部分后價值觀表征正交化處理,不僅實(shí)現(xiàn)了多元價值觀的解耦,還避免了對齊稅的產(chǎn)生,實(shí)現(xiàn)持續(xù)價值對齊:

圖片

 

討論

1. 實(shí)際應(yīng)用價值

這項(xiàng)研究的實(shí)用價值主要體現(xiàn)在,它讓大語言模型的價值對齊從“整體調(diào)一個大方向”提升到“按具體價值維度精細(xì)調(diào)節(jié)”。在真實(shí)應(yīng)用中,用戶、機(jī)構(gòu)和文化背景的價值偏好往往并不相同,而且這些偏好還需要動態(tài)組合,因此一個能夠獨(dú)立控制“關(guān)懷、公平、忠誠、真實(shí)”等不同價值權(quán)重的模型,比只適配單一價值標(biāo)準(zhǔn)的模型更有落地意義。DisAlign 提供了一種更可控的技術(shù)路徑,使系統(tǒng)能夠根據(jù)場景需求靈活調(diào)整輸出風(fēng)格和決策傾向,適用于智能助手、教育、醫(yī)療、公共服務(wù)等對價值表達(dá)較敏感的場景。此外,這項(xiàng)工作還有很強(qiáng)的工程意義。它不是每次都重新訓(xùn)練一個新模型,而是通過對多個價值專家進(jìn)行結(jié)構(gòu)化合并來實(shí)現(xiàn)控制,因此更有擴(kuò)展性和部署效率。更重要的是,它試圖減少價值調(diào)節(jié)過程中的“串?dāng)_”和“對齊稅”問題,也就是避免在加強(qiáng)某一價值時誤傷其他價值,或明顯損害模型原有的通用能力。這意味著該方法更有希望被用于構(gòu)建既安全、又靈活、還能保持性能穩(wěn)定的實(shí)際大模型系統(tǒng)。

2. 研究的局限性和未來方向

首先,DisAlign 依賴“局部二次近似”和“局部度量同質(zhì)性”等假設(shè),即默認(rèn)各個價值專家都分布在基座模型附近,并且它們在局部具有相對一致的信息幾何結(jié)構(gòu)。 如果模型經(jīng)過非常強(qiáng)的優(yōu)化、與基座模型偏移過大,這種近似可能失效,影響共識錨點(diǎn)和價值子空間分解的準(zhǔn)確性。其次,該方法主要適用于“預(yù)先定義好價值維度、且已有對應(yīng)偏好數(shù)據(jù)”的場景,因此對開放世界中更動態(tài)、更模糊、甚至不斷演化的價值需求,適應(yīng)性仍然有限。

未來的研究方向可以從幾個方面展開:一是放寬當(dāng)前的局部幾何假設(shè),使方法能夠適應(yīng)更大幅度的模型偏移和更復(fù)雜的對齊訓(xùn)練過程;二是將該框架推廣到更開放、動態(tài)的價值體系中,而不只依賴固定的價值標(biāo)簽和靜態(tài)偏好數(shù)據(jù);三是進(jìn)一步研究價值控制與模型通用能力保持之間的平衡,降低“對齊稅”在更復(fù)雜任務(wù)中的風(fēng)險;四是加強(qiáng)在人類真實(shí)使用場景中的評測,例如多輪對話、群體差異、文化遷移和長期行為一致性等問題??傮w來說,這篇工作為“精細(xì)可控的多元價值對齊”提供了一個有力起點(diǎn),但要真正走向大規(guī)模實(shí)際應(yīng)用,還需要在泛化性、魯棒性和開放環(huán)境適應(yīng)性上繼續(xù)推進(jìn)。

總結(jié)

本研究的主要貢獻(xiàn)如下:

(1) 我們識別出多元價值對齊中“精確權(quán)重控制”的關(guān)鍵挑戰(zhàn),并提出了 DisAlign,這一新框架能夠顯式地將價值共享的共識成分與價值特定成分分解開來,從而實(shí)現(xiàn)解耦且精確的價值控制。

(2) 我們在信息幾何框架下對這種分解進(jìn)行建模,以捕捉語義層面的價值共識,并保證不同價值調(diào)節(jié)過程中的低干擾性。

(3) 大量實(shí)驗(yàn)結(jié)果表明,DisAlign 能夠?qū)W習(xí)到更加解耦的價值表征,并顯著提升多元價值對齊的可控性。

 

如果您對本文內(nèi)容感興趣,可與通訊作者聯(lián)系: zhangpeng_@fudan.edu.cn

 

實(shí)驗(yàn)室相關(guān)論文

[1] Shitong Duan, Xiaoyuan Yi, Peng Zhang, Tun Lu, Xing Xie, Ning Gu Denevil: Towards Deciphering and Navigating the Ethical Values of Large Language Models via Instruction Learning (ICLR'24)

[2] Shitong Duan, Xiaoyuan Yi, Peng Zhang, Tun Lu, Xing Xie, Ning Gu Negating Negatives: Alignment with Human Negative Samples via Distributional Dispreference Optimization (EMNLP‘24)

 

如果您對我們實(shí)驗(yàn)室的相關(guān)工作感興趣,歡迎訪問我們的網(wǎng)站:

協(xié)同信息與系統(tǒng)實(shí)驗(yàn)室(CISL)

實(shí)驗(yàn)室網(wǎng)站主頁:https://cscw.fudan.edu.cn/

實(shí)驗(yàn)室Github主頁:https://github.com/FudanCISL

學(xué)者網(wǎng)機(jī)構(gòu)號是學(xué)者網(wǎng)提供的學(xué)術(shù)"公眾號"平臺,為學(xué)者團(tuán)隊、學(xué)術(shù)機(jī)構(gòu)、企業(yè)等提供官方媒體賬號服務(wù),支持發(fā)布動態(tài)、活動、通知與招生招聘信息等內(nèi)容,支持多人協(xié)作維護(hù),助力機(jī)構(gòu)鏈接學(xué)界資源、擴(kuò)大學(xué)術(shù)影響力。

返回頂部
阳高县| 太原市| 云浮市| 和田县| 昭通市| 合作市| 全州县| 华容县| 襄樊市| 若尔盖县| 曲阜市| 南丰县| 卢湾区| 禄劝| 揭西县| 玉环县| 辉南县| 乌鲁木齐县| 邯郸市| 吉木乃县| 巨野县| 通辽市| 白朗县| 福州市| 锦州市| 景东| 界首市| 嘉义市| 霸州市| 富源县| 莱西市| 昌江| 铜山县| 东方市| 河间市| 团风县| 浪卡子县| 环江| 沁水县| 闻喜县| 麻阳|