亚洲熟妇在线观看,玖玖色av,伊人久久涩涩

近日，團(tuán)隊(duì)博士生廖思騰在大小模型協(xié)同推理方向的研究論文 “AlphaRouter: Token-level Routing Between SLM and LLM with Reinforcement Learning and Tree Search” 被機(jī)器學(xué)習(xí)領(lǐng)域國際頂級會(huì)議 International Conference on Machine Learning（ICML 2026）正式錄用。該工作第一作者為2025級博士生廖思騰，指導(dǎo)老師為王田教授，合作者還有北京師范大學(xué)梁玉珠博士，碩士生饒恒中以及蘇州大學(xué)羅喜召教授。

Siteng Liao, Yuzhu Liang, Hengzhong Rao, Xizhao Luo, Tian Wang. AlphaRouter: Token-level Routing Between SLM and LLM with Reinforcement Learning and Tree Search. Proceedings of the 43rd International Conference on Machine Learning, 2026 (Accepted).

會(huì)議簡介

International Conference on Machine Learning（ICML）是機(jī)器學(xué)習(xí)領(lǐng)域最具影響力的國際頂級學(xué)術(shù)會(huì)議之一，長期關(guān)注機(jī)器學(xué)習(xí)理論、算法、系統(tǒng)與應(yīng)用等前沿研究方向。ICML 錄用論文代表了機(jī)器學(xué)習(xí)及人工智能相關(guān)領(lǐng)域的重要研究進(jìn)展，在全球?qū)W術(shù)界具有廣泛影響力。ICML 2026將于2026年7月6日至11日在韓國首爾舉辦。本屆大會(huì)有效投稿23918篇，經(jīng)評審最終錄用6352篇，錄用率為26.6%。

一、研究背景與動(dòng)機(jī)

隨著大語言模型在復(fù)雜推理、代碼生成等任務(wù)中展現(xiàn)出強(qiáng)大能力，其高昂的推理成本和響應(yīng)延遲也成為實(shí)際部署中的重要瓶頸。相比之下，小模型推理速度快、資源占用低，但復(fù)雜任務(wù)能力有限。因此，如何讓小模型承擔(dān)低成本生成任務(wù)，并在關(guān)鍵位置調(diào)用大模型，成為大模型高效推理中的重要問題?，F(xiàn)有 token 級路由方法通常將問題簡化為監(jiān)督學(xué)習(xí)或二分類任務(wù)，學(xué)習(xí)在每個(gè) token 位置判斷是否調(diào)用大模型。然而，文本生成具有自回歸特性，當(dāng)前 token 的選擇會(huì)改變后續(xù)上下文、模型分布和最終答案質(zhì)量。因此，token 級路由并不是簡單的逐點(diǎn)分類問題，而是一個(gè)具有長期影響的序列決策問題。進(jìn)一步地，小模型與大模型共同構(gòu)成的協(xié)同推理空間并不只是大模型默認(rèn)輸出路徑的復(fù)現(xiàn)，其中甚至可能存在優(yōu)于單獨(dú)大模型輸出的推理軌跡。這意味著，路由器不應(yīng)僅僅學(xué)習(xí)“何時(shí)模仿大模型”，而應(yīng)主動(dòng)探索和學(xué)習(xí)更優(yōu)的大小模型協(xié)同推理路徑?；谶@一動(dòng)機(jī)，論文提出 AlphaRouter，通過強(qiáng)化學(xué)習(xí)刻畫 token 級路由的序列決策屬性，并結(jié)合協(xié)同推理樹搜索探索反事實(shí)路徑，從而在保證推理質(zhì)量的同時(shí)降低大模型調(diào)用開銷。

協(xié)同推理樹搜索 (CITS) 示意圖。CITS 在小模型與大模型產(chǎn)生分歧的位置進(jìn)行分支擴(kuò)展，用于探索潛在更優(yōu)的協(xié)同推理路徑。

二、解決方案

針對上述問題，論文提出了 AlphaRouter，一種面向大小模型協(xié)同推理的 token 級動(dòng)態(tài)路由框架。AlphaRouter 將token生成過程建模為馬爾可夫決策過程，在每一個(gè)生成位置根據(jù)當(dāng)前上下文狀態(tài)動(dòng)態(tài)決定由小模型還是大模型生成下一個(gè) token，從而在保證推理質(zhì)量的同時(shí)減少大模型調(diào)用次數(shù)。

AlphaRouter 的核心由兩個(gè)部分組成：一是 Collaborative Inference Tree Search（CITS）協(xié)同推理樹搜索機(jī)制，二是 Tree-Advantage Policy Optimization（TAPO）樹優(yōu)勢策略優(yōu)化算法。其中，CITS 在訓(xùn)練階段構(gòu)建協(xié)同推理樹：當(dāng)小模型與大模型在同一前綴下輸出相同 token 時(shí)，將其視為一致節(jié)點(diǎn)；當(dāng)二者輸出不同 token 時(shí)，將其視為分歧節(jié)點(diǎn)，并進(jìn)一步探索不同選擇對后續(xù)推理結(jié)果的影響。通過這種方式，CITS 能夠在有限預(yù)算下構(gòu)建包含反事實(shí)路徑的協(xié)同推理空間，為路由策略學(xué)習(xí)提供高質(zhì)量樣本。在此基礎(chǔ)上，TAPO 利用樹結(jié)構(gòu)中的反事實(shí)分支進(jìn)行信度分配。傳統(tǒng)強(qiáng)化學(xué)習(xí)方法在文本生成任務(wù)中通常只能從最終答案正確與否獲得稀疏獎(jiǎng)勵(lì)，存在嚴(yán)重的信度分配問題，難以歸因某一次中間路由決策究竟對最終結(jié)果產(chǎn)生了多大影響。TAPO 則通過比較同一分歧節(jié)點(diǎn)下不同子樹的長期收益，計(jì)算當(dāng)前選擇小模型路徑與大模型路徑的相對優(yōu)勢，從而更加準(zhǔn)確地將最終獎(jiǎng)勵(lì)歸因到具體 token 級路由決策上，提升訓(xùn)練穩(wěn)定性和樣本效率。

在算法設(shè)計(jì)上，AlphaRouter 并不是簡單地將大模型作為唯一“教師”進(jìn)行模仿，而是通過樹搜索發(fā)現(xiàn)小模型與大模型之間更優(yōu)的組合推理路徑。對于小模型和大模型輸出一致的位置，系統(tǒng)傾向于使用小模型以降低推理成本；對于可能影響后續(xù)生成結(jié)果的關(guān)鍵分歧位置，路由器則根據(jù)學(xué)習(xí)到的策略判斷是否調(diào)用大模型。

AlphaRouter整體框架。該框架包括協(xié)同推理樹構(gòu)建、節(jié)點(diǎn)價(jià)值估計(jì)和TAPO策略更新三個(gè)關(guān)鍵階段。

三、實(shí)驗(yàn)評估

實(shí)驗(yàn)結(jié)果表明，AlphaRouter 在準(zhǔn)確率和推理成本之間取得了更優(yōu)平衡。尤其在平均激活參數(shù)量約為 1.5B 的資源預(yù)算下，AlphaRouter 展現(xiàn)出顯著優(yōu)勢：在 GSM8K、ARC-Challenge 和 HumanEval 三個(gè)任務(wù)上的平均準(zhǔn)確率達(dá)到 74.8%，顯著高于同等規(guī)模的 Qwen2.5-1.5B 模型（61.3%）、請求級路由方法（約60%）以及現(xiàn)有 token 級路由方法 R2R（70.7%）。

進(jìn)一步地，當(dāng)平均激活參數(shù)量提升至約 2B 時(shí)，AlphaRouter 的平均準(zhǔn)確率達(dá)到 81.0%，在僅使用約 2B 平均激活參數(shù)量的情況下，已經(jīng)接近 Qwen2.5-7B 的平均性能（84.3%），并顯著低于直接調(diào)用 7B 大模型的計(jì)算開銷。這表明 AlphaRouter 能夠通過更精細(xì)的 token 級路由，在不同計(jì)算預(yù)算下靈活平衡推理質(zhì)量與資源消耗。

AlphaRouter 在 GSM8K、ARC-Challenge 和 HumanEval 上的準(zhǔn)確率—平均激活參數(shù)量曲線。

表1：AlphaRouter 與靜態(tài)模型、請求級路由方法和現(xiàn)有 token 級路由方法的性能對比。（Acc. 為準(zhǔn)確率，CR. 為大模型調(diào)用比例，Param. 為平均激活參數(shù)量）

四、結(jié)論

本文提出了 AlphaRouter，一種基于強(qiáng)化學(xué)習(xí)與樹搜索的大小模型 token 級協(xié)同推理框架。該方法將 token 級路由建模為協(xié)同推理路徑搜索與優(yōu)化問題，通過 CITS 探索反事實(shí)推理路徑，并利用 TAPO 解決稀疏獎(jiǎng)勵(lì)下的信用分配問題。大量實(shí)驗(yàn)結(jié)果表明，AlphaRouter 能夠在數(shù)學(xué)推理、通用推理和代碼生成任務(wù)中取得更優(yōu)的準(zhǔn)確率—效率權(quán)衡，并有效推進(jìn)小模型—大模型協(xié)同推理的 Pareto 前沿。

該研究面向大模型高效部署與邊云協(xié)同智能系統(tǒng)中的關(guān)鍵需求，為在有限計(jì)算資源下實(shí)現(xiàn)高質(zhì)量智能推理提供了新的技術(shù)路徑。未來，該方向有望進(jìn)一步拓展至多模型協(xié)同、邊云協(xié)同推理、智能體系統(tǒng)調(diào)度以及資源受限環(huán)境下的大模型服務(wù)優(yōu)化等應(yīng)用場景。

麻豆精品无码av,欧美1区2区,久久中文字幕乱码人妻,亚洲欧美另类少妇精品,在线看黄射,69pao高清,九九九久久久国产精品,子操大逼1234区,九九爱99热精品

團(tuán)隊(duì)博士生廖思騰的研究工作被CCF-A類頂級會(huì)議ICML 2026錄用

評論 0

近期熱門動(dòng)態(tài)

下一篇