97热公开,久草精品视频,亚洲人妻中文字幕在线

近日，實(shí)驗(yàn)室博士生周健魁作為第一作者的論文"Disentangling Consensus and Value-Specific Representations for Controllable Pluralistic Value Alignment in LLMs" 被Forty-Third International Conference on Machine Learning (ICML 2026) 會(huì)議錄用。

大模型不同價(jià)值維度通常彼此相關(guān)、同時(shí)存在，導(dǎo)致各“價(jià)值專家”的表征高度相似、相互糾纏。結(jié)果是，調(diào)整某一種價(jià)值專家的作用時(shí)，可能會(huì)無意中影響其他價(jià)值，限制了精細(xì)化控制能力。為解決這一問題，提出了 DisAlign，一種模型合并框架。它從信息幾何的視角，將價(jià)值表征顯式拆分為共識(shí)部分和價(jià)值特定部分：先提取不同價(jià)值之間共享的共識(shí)錨點(diǎn)與子空間，再對(duì)剩余表征做譜分解，構(gòu)造彼此解耦的價(jià)值子空間。這樣可以更準(zhǔn)確、獨(dú)立地調(diào)節(jié)多種價(jià)值。在涵蓋三種不同價(jià)值框架的數(shù)據(jù)集實(shí)驗(yàn)中，DisAlign 相比現(xiàn)有基線方法，持續(xù)提升了價(jià)值解耦效果，并實(shí)現(xiàn)了更準(zhǔn)確的多元價(jià)值控制。

會(huì)議簡(jiǎn)介

ICML (International Conference on Machine Learning) 是機(jī)器學(xué)習(xí)頂級(jí)國(guó)際學(xué)術(shù)會(huì)議，是中國(guó)計(jì)算機(jī)學(xué)會(huì)推薦的A類國(guó)際學(xué)術(shù)會(huì)議。ICML匯集了來自學(xué)術(shù)界和工業(yè)界的研究人員，共同探討機(jī)器學(xué)習(xí)理論，優(yōu)化、統(tǒng)計(jì)算法等領(lǐng)域的前沿研究。今年，該會(huì)議計(jì)劃于2026年7月6日至10日在韓國(guó)首爾召開。本屆ICML會(huì)議共收到超過3萬(wàn)篇投稿，其中6352篇論文被接受，錄用率26.6%

論文簡(jiǎn)介
大語(yǔ)言模型中可控多元價(jià)值對(duì)齊的
共識(shí)表征與價(jià)值特定表征解耦

論文鏈接：https://icml.cc/virtual/2026/poster/66729

代碼倉(cāng)庫(kù)：https://github.com/erzhoujk/DisAlign

隨著大語(yǔ)言模型被廣泛應(yīng)用到真實(shí)場(chǎng)景中，傳統(tǒng)只追求“平均偏好”或單一價(jià)值取向的對(duì)齊方法，已經(jīng)難以滿足現(xiàn)實(shí)需求，因?yàn)椴煌脩?、文化和任?wù)場(chǎng)景往往對(duì)應(yīng)著不同且可組合的人類價(jià)值觀。因此，“多元價(jià)值對(duì)齊”變得越來越重要，模型應(yīng)當(dāng)能夠根據(jù)不同價(jià)值維度及其權(quán)重，實(shí)現(xiàn)可控的行為調(diào)節(jié)。現(xiàn)有方法雖然已經(jīng)嘗試通過提示、單獨(dú)訓(xùn)練價(jià)值專家模型，或通過參數(shù)合并來實(shí)現(xiàn)多價(jià)值對(duì)齊，但在真實(shí)數(shù)據(jù)中，不同價(jià)值通常不是孤立出現(xiàn)的，而是彼此相關(guān)、共同表達(dá)的，這使得模型內(nèi)部學(xué)到的價(jià)值表示往往高度相似并相互糾纏。

要想實(shí)現(xiàn)上述的這種精準(zhǔn)對(duì)齊，面對(duì)的核心挑戰(zhàn)在于：如何把多種價(jià)值中“共享的共識(shí)部分”和“各價(jià)值獨(dú)有的特定部分”有效分離出來。由于不同價(jià)值專家在訓(xùn)練時(shí)會(huì)受到混合價(jià)值信號(hào)的共同影響，調(diào)整某一個(gè)價(jià)值維度的強(qiáng)度時(shí)，往往會(huì)連帶影響其他價(jià)值維度，導(dǎo)致控制不夠精細(xì)、獨(dú)立性不足。此外，如果直接做參數(shù)干預(yù)，還可能破壞模型原有的通用能力，出現(xiàn)所謂的“對(duì)齊稅”。我們通過去除共識(shí)部分實(shí)現(xiàn)多價(jià)值觀表征的解耦，實(shí)現(xiàn)對(duì)多個(gè)價(jià)值維度更精準(zhǔn)、低干擾、可獨(dú)立調(diào)節(jié)的控制。

方法概述

本文提出了 DisAlign，一種面向大語(yǔ)言模型可控多元價(jià)值對(duì)齊的模型合并框架。其核心思想是將不同價(jià)值專家中混雜在一起的表征，顯式拆分為兩部分：一部分是多個(gè)價(jià)值共享的“共識(shí)成分”，另一部分是各個(gè)價(jià)值獨(dú)有的“價(jià)值特定成分”。具體來說，DisAlign首先從信息幾何視角出發(fā)，通過專家分布的乘積形式提取一個(gè)能夠刻畫多價(jià)值共同結(jié)構(gòu)的共識(shí)錨點(diǎn)與共識(shí)子空間。

其次，對(duì)去除共識(shí)后的剩余表示進(jìn)行分解和正交化，構(gòu)造彼此解耦的價(jià)值特定子空間。最終，模型可以通過線性組合共識(shí)部分和用戶指定權(quán)重的價(jià)值特定部分，實(shí)現(xiàn)對(duì)多種價(jià)值維度更精確、獨(dú)立的調(diào)節(jié)。相比現(xiàn)有直接合并價(jià)值專家的方法，該方法減少了不同價(jià)值之間的相互干擾，同時(shí)盡可能保留了模型原有的通用能力。

實(shí)驗(yàn)結(jié)果

我們?cè)谌齻€(gè)價(jià)值觀真實(shí)數(shù)據(jù)集（MIC, Daily Dilemmas, ValuePrism）上，使用兩種代表性LLM backbone（Llama3.2-3B和Qwen3.5-4b）進(jìn)行了廣泛實(shí)驗(yàn)，結(jié)果展示在表1中:

可以發(fā)現(xiàn): DisAlign的表現(xiàn)優(yōu)于其他方法，尤其是在隨機(jī)組合的多元價(jià)值觀對(duì)齊場(chǎng)景，實(shí)現(xiàn)了多元化對(duì)齊的精準(zhǔn)調(diào)控。另外我們的方法相比多目標(biāo)優(yōu)化和其他模型合并方法可以取到更大的帕累托邊界

并且我們首先通過POE理論，只通過一次數(shù)據(jù)遍歷計(jì)算費(fèi)舍爾信息矩陣就可以識(shí)別共識(shí)表征部分，

在對(duì)去除共識(shí)部分后價(jià)值觀表征正交化處理，不僅實(shí)現(xiàn)了多元價(jià)值觀的解耦，還避免了對(duì)齊稅的產(chǎn)生，實(shí)現(xiàn)持續(xù)價(jià)值對(duì)齊：

討論

1. 實(shí)際應(yīng)用價(jià)值

這項(xiàng)研究的實(shí)用價(jià)值主要體現(xiàn)在，它讓大語(yǔ)言模型的價(jià)值對(duì)齊從“整體調(diào)一個(gè)大方向”提升到“按具體價(jià)值維度精細(xì)調(diào)節(jié)”。在真實(shí)應(yīng)用中，用戶、機(jī)構(gòu)和文化背景的價(jià)值偏好往往并不相同，而且這些偏好還需要?jiǎng)討B(tài)組合，因此一個(gè)能夠獨(dú)立控制“關(guān)懷、公平、忠誠(chéng)、真實(shí)”等不同價(jià)值權(quán)重的模型，比只適配單一價(jià)值標(biāo)準(zhǔn)的模型更有落地意義。DisAlign 提供了一種更可控的技術(shù)路徑，使系統(tǒng)能夠根據(jù)場(chǎng)景需求靈活調(diào)整輸出風(fēng)格和決策傾向，適用于智能助手、教育、醫(yī)療、公共服務(wù)等對(duì)價(jià)值表達(dá)較敏感的場(chǎng)景。此外，這項(xiàng)工作還有很強(qiáng)的工程意義。它不是每次都重新訓(xùn)練一個(gè)新模型，而是通過對(duì)多個(gè)價(jià)值專家進(jìn)行結(jié)構(gòu)化合并來實(shí)現(xiàn)控制，因此更有擴(kuò)展性和部署效率。更重要的是，它試圖減少價(jià)值調(diào)節(jié)過程中的“串?dāng)_”和“對(duì)齊稅”問題，也就是避免在加強(qiáng)某一價(jià)值時(shí)誤傷其他價(jià)值，或明顯損害模型原有的通用能力。這意味著該方法更有希望被用于構(gòu)建既安全、又靈活、還能保持性能穩(wěn)定的實(shí)際大模型系統(tǒng)。

2. 研究的局限性和未來方向

首先，DisAlign 依賴“局部二次近似”和“局部度量同質(zhì)性”等假設(shè)，即默認(rèn)各個(gè)價(jià)值專家都分布在基座模型附近，并且它們?cè)诰植烤哂邢鄬?duì)一致的信息幾何結(jié)構(gòu)。如果模型經(jīng)過非常強(qiáng)的優(yōu)化、與基座模型偏移過大，這種近似可能失效，影響共識(shí)錨點(diǎn)和價(jià)值子空間分解的準(zhǔn)確性。其次，該方法主要適用于“預(yù)先定義好價(jià)值維度、且已有對(duì)應(yīng)偏好數(shù)據(jù)”的場(chǎng)景，因此對(duì)開放世界中更動(dòng)態(tài)、更模糊、甚至不斷演化的價(jià)值需求，適應(yīng)性仍然有限。

未來的研究方向可以從幾個(gè)方面展開：一是放寬當(dāng)前的局部幾何假設(shè)，使方法能夠適應(yīng)更大幅度的模型偏移和更復(fù)雜的對(duì)齊訓(xùn)練過程；二是將該框架推廣到更開放、動(dòng)態(tài)的價(jià)值體系中，而不只依賴固定的價(jià)值標(biāo)簽和靜態(tài)偏好數(shù)據(jù)；三是進(jìn)一步研究?jī)r(jià)值控制與模型通用能力保持之間的平衡，降低“對(duì)齊稅”在更復(fù)雜任務(wù)中的風(fēng)險(xiǎn)；四是加強(qiáng)在人類真實(shí)使用場(chǎng)景中的評(píng)測(cè)，例如多輪對(duì)話、群體差異、文化遷移和長(zhǎng)期行為一致性等問題?？傮w來說，這篇工作為“精細(xì)可控的多元價(jià)值對(duì)齊”提供了一個(gè)有力起點(diǎn)，但要真正走向大規(guī)模實(shí)際應(yīng)用，還需要在泛化性、魯棒性和開放環(huán)境適應(yīng)性上繼續(xù)推進(jìn)。

總結(jié)

本研究的主要貢獻(xiàn)如下：

(1) 我們識(shí)別出多元價(jià)值對(duì)齊中“精確權(quán)重控制”的關(guān)鍵挑戰(zhàn)，并提出了 DisAlign，這一新框架能夠顯式地將價(jià)值共享的共識(shí)成分與價(jià)值特定成分分解開來，從而實(shí)現(xiàn)解耦且精確的價(jià)值控制。

(2) 我們?cè)谛畔缀慰蚣芟聦?duì)這種分解進(jìn)行建模，以捕捉語(yǔ)義層面的價(jià)值共識(shí)，并保證不同價(jià)值調(diào)節(jié)過程中的低干擾性。

(3) 大量實(shí)驗(yàn)結(jié)果表明，DisAlign 能夠?qū)W習(xí)到更加解耦的價(jià)值表征，并顯著提升多元價(jià)值對(duì)齊的可控性。

如果您對(duì)本文內(nèi)容感興趣，可與通訊作者聯(lián)系: zhangpeng_@fudan.edu.cn

實(shí)驗(yàn)室相關(guān)論文

[1] Shitong Duan, Xiaoyuan Yi, Peng Zhang, Tun Lu, Xing Xie, Ning Gu Denevil: Towards Deciphering and Navigating the Ethical Values of Large Language Models via Instruction Learning (ICLR'24)

[2] Shitong Duan, Xiaoyuan Yi, Peng Zhang, Tun Lu, Xing Xie, Ning Gu Negating Negatives: Alignment with Human Negative Samples via Distributional Dispreference Optimization (EMNLP‘24)

如果您對(duì)我們實(shí)驗(yàn)室的相關(guān)工作感興趣，歡迎訪問我們的網(wǎng)站：

協(xié)同信息與系統(tǒng)實(shí)驗(yàn)室（CISL）

實(shí)驗(yàn)室網(wǎng)站主頁(yè)：https://cscw.fudan.edu.cn/

實(shí)驗(yàn)室Github主頁(yè)：https://github.com/FudanCISL

麻豆精品无码av,欧美1区2区,久久中文字幕乱码人妻,亚洲欧美另类少妇精品,在线看黄射,69pao高清,九九九久久久国产精品,子操大逼1234区,九九爱99热精品

論文聚焦｜ICML’26｜大語(yǔ)言模型中可控多元價(jià)值對(duì)齊的共識(shí)表征與價(jià)值特定表征解耦

會(huì)議簡(jiǎn)介

論文簡(jiǎn)介
大語(yǔ)言模型中可控多元價(jià)值對(duì)齊的
共識(shí)表征與價(jià)值特定表征解耦

方法概述

實(shí)驗(yàn)結(jié)果

討論

總結(jié)

評(píng)論 0

近期熱門新聞

下一篇

麻豆精品无码av,欧美1区2区,久久中文字幕乱码人妻,亚洲欧美另类少妇精品,在线看黄射,69pao高清,九九九久久久国产精品,子操大逼1234区,九九爱99热精品

論文聚焦｜ICML’26｜大語(yǔ)言模型中可控多元價(jià)值對(duì)齊的共識(shí)表征與價(jià)值特定表征解耦

會(huì)議簡(jiǎn)介

論文簡(jiǎn)介大語(yǔ)言模型中可控多元價(jià)值對(duì)齊的共識(shí)表征與價(jià)值特定表征解耦

方法概述

實(shí)驗(yàn)結(jié)果

討論

總結(jié)

評(píng)論 0

近期熱門新聞

下一篇

論文簡(jiǎn)介
大語(yǔ)言模型中可控多元價(jià)值對(duì)齊的
共識(shí)表征與價(jià)值特定表征解耦