近日,團(tuán)隊(duì)博士生廖思騰在大小模型協(xié)同推理方向的研究論文 “AlphaRouter: Token-level Routing Between SLM and LLM with Reinforcement Learning and Tree Search” 被機(jī)器學(xué)習(xí)領(lǐng)域國際頂級會(huì)議 International Conference on Machine Learning(ICML 2026) 正式錄用。該工作第一作者為2025級博士生廖思騰,指導(dǎo)老師為王田教授,合作者還有北京師范大學(xué)梁玉珠博士,碩士生饒恒中以及蘇州大學(xué)羅喜召教授。
Siteng Liao, Yuzhu Liang, Hengzhong Rao, Xizhao Luo, Tian Wang. AlphaRouter: Token-level Routing Between SLM and LLM with Reinforcement Learning and Tree Search. Proceedings of the 43rd International Conference on Machine Learning, 2026 (Accepted).
會(huì)議簡介
International Conference on Machine Learning(ICML)是機(jī)器學(xué)習(xí)領(lǐng)域最具影響力的國際頂級學(xué)術(shù)會(huì)議之一,長期關(guān)注機(jī)器學(xué)習(xí)理論、算法、系統(tǒng)與應(yīng)用等前沿研究方向。ICML 錄用論文代表了機(jī)器學(xué)習(xí)及人工智能相關(guān)領(lǐng)域的重要研究進(jìn)展,在全球?qū)W術(shù)界具有廣泛影響力。ICML 2026將于2026年7月6日至11日在韓國首爾舉辦。本屆大會(huì)有效投稿23918篇,經(jīng)評審最終錄用6352篇,錄用率為26.6%。

一、研究背景與動(dòng)機(jī)
隨著大語言模型在復(fù)雜推理、代碼生成等任務(wù)中展現(xiàn)出強(qiáng)大能力,其高昂的推理成本和響應(yīng)延遲也成為實(shí)際部署中的重要瓶頸。相比之下,小模型推理速度快、資源占用低,但復(fù)雜任務(wù)能力有限。因此,如何讓小模型承擔(dān)低成本生成任務(wù),并在關(guān)鍵位置調(diào)用大模型,成為大模型高效推理中的重要問題?,F(xiàn)有 token 級路由方法通常將問題簡化為監(jiān)督學(xué)習(xí)或二分類任務(wù),學(xué)習(xí)在每個(gè) token 位置判斷是否調(diào)用大模型。然而,文本生成具有自回歸特性,當(dāng)前 token 的選擇會(huì)改變后續(xù)上下文、模型分布和最終答案質(zhì)量。因此,token 級路由并不是簡單的逐點(diǎn)分類問題,而是一個(gè)具有長期影響的序列決策問題。進(jìn)一步地,小模型與大模型共同構(gòu)成的協(xié)同推理空間并不只是大模型默認(rèn)輸出路徑的復(fù)現(xiàn),其中甚至可能存在優(yōu)于單獨(dú)大模型輸出的推理軌跡。這意味著,路由器不應(yīng)僅僅學(xué)習(xí)“何時(shí)模仿大模型”,而應(yīng)主動(dòng)探索和學(xué)習(xí)更優(yōu)的大小模型協(xié)同推理路徑?;谶@一動(dòng)機(jī),論文提出 AlphaRouter,通過強(qiáng)化學(xué)習(xí)刻畫 token 級路由的序列決策屬性,并結(jié)合協(xié)同推理樹搜索探索反事實(shí)路徑,從而在保證推理質(zhì)量的同時(shí)降低大模型調(diào)用開銷。

協(xié)同推理樹搜索 (CITS) 示意圖。CITS 在小模型與大模型產(chǎn)生分歧的位置進(jìn)行分支擴(kuò)展,用于探索潛在更優(yōu)的協(xié)同推理路徑。
二、解決方案
針對上述問題,論文提出了 AlphaRouter,一種面向大小模型協(xié)同推理的 token 級動(dòng)態(tài)路由框架。AlphaRouter 將token生成過程建模為馬爾可夫決策過程,在每一個(gè)生成位置根據(jù)當(dāng)前上下文狀態(tài)動(dòng)態(tài)決定由小模型還是大模型生成下一個(gè) token,從而在保證推理質(zhì)量的同時(shí)減少大模型調(diào)用次數(shù)。
AlphaRouter 的核心由兩個(gè)部分組成:一是 Collaborative Inference Tree Search(CITS)協(xié)同推理樹搜索機(jī)制,二是 Tree-Advantage Policy Optimization(TAPO)樹優(yōu)勢策略優(yōu)化算法。其中,CITS 在訓(xùn)練階段構(gòu)建協(xié)同推理樹:當(dāng)小模型與大模型在同一前綴下輸出相同 token 時(shí),將其視為一致節(jié)點(diǎn);當(dāng)二者輸出不同 token 時(shí),將其視為分歧節(jié)點(diǎn),并進(jìn)一步探索不同選擇對后續(xù)推理結(jié)果的影響。通過這種方式,CITS 能夠在有限預(yù)算下構(gòu)建包含反事實(shí)路徑的協(xié)同推理空間,為路由策略學(xué)習(xí)提供高質(zhì)量樣本。在此基礎(chǔ)上,TAPO 利用樹結(jié)構(gòu)中的反事實(shí)分支進(jìn)行信度分配。傳統(tǒng)強(qiáng)化學(xué)習(xí)方法在文本生成任務(wù)中通常只能從最終答案正確與否獲得稀疏獎(jiǎng)勵(lì),存在嚴(yán)重的信度分配問題,難以歸因某一次中間路由決策究竟對最終結(jié)果產(chǎn)生了多大影響。TAPO 則通過比較同一分歧節(jié)點(diǎn)下不同子樹的長期收益,計(jì)算當(dāng)前選擇小模型路徑與大模型路徑的相對優(yōu)勢,從而更加準(zhǔn)確地將最終獎(jiǎng)勵(lì)歸因到具體 token 級路由決策上,提升訓(xùn)練穩(wěn)定性和樣本效率。
在算法設(shè)計(jì)上,AlphaRouter 并不是簡單地將大模型作為唯一“教師”進(jìn)行模仿,而是通過樹搜索發(fā)現(xiàn)小模型與大模型之間更優(yōu)的組合推理路徑。對于小模型和大模型輸出一致的位置,系統(tǒng)傾向于使用小模型以降低推理成本;對于可能影響后續(xù)生成結(jié)果的關(guān)鍵分歧位置,路由器則根據(jù)學(xué)習(xí)到的策略判斷是否調(diào)用大模型。

AlphaRouter整體框架。該框架包括協(xié)同推理樹構(gòu)建、節(jié)點(diǎn)價(jià)值估計(jì)和TAPO策略更新三個(gè)關(guān)鍵階段。
三、實(shí)驗(yàn)評估
實(shí)驗(yàn)結(jié)果表明,AlphaRouter 在準(zhǔn)確率和推理成本之間取得了更優(yōu)平衡。尤其在平均激活參數(shù)量約為 1.5B 的資源預(yù)算下,AlphaRouter 展現(xiàn)出顯著優(yōu)勢:在 GSM8K、ARC-Challenge 和 HumanEval 三個(gè)任務(wù)上的平均準(zhǔn)確率達(dá)到 74.8%,顯著高于同等規(guī)模的 Qwen2.5-1.5B 模型(61.3%)、請求級路由方法(約60%)以及現(xiàn)有 token 級路由方法 R2R(70.7%)。
進(jìn)一步地,當(dāng)平均激活參數(shù)量提升至約 2B 時(shí),AlphaRouter 的平均準(zhǔn)確率達(dá)到 81.0%,在僅使用約 2B 平均激活參數(shù)量的情況下,已經(jīng)接近 Qwen2.5-7B 的平均性能(84.3%),并顯著低于直接調(diào)用 7B 大模型的計(jì)算開銷。這表明 AlphaRouter 能夠通過更精細(xì)的 token 級路由,在不同計(jì)算預(yù)算下靈活平衡推理質(zhì)量與資源消耗。

AlphaRouter 在 GSM8K、ARC-Challenge 和 HumanEval 上的準(zhǔn)確率—平均激活參數(shù)量曲線。

表1:AlphaRouter 與靜態(tài)模型、請求級路由方法和現(xiàn)有 token 級路由方法的性能對比。(Acc. 為準(zhǔn)確率,CR. 為大模型調(diào)用比例,Param. 為平均激活參數(shù)量)
四、結(jié)論
本文提出了 AlphaRouter,一種基于強(qiáng)化學(xué)習(xí)與樹搜索的大小模型 token 級協(xié)同推理框架。該方法將 token 級路由建模為協(xié)同推理路徑搜索與優(yōu)化問題,通過 CITS 探索反事實(shí)推理路徑,并利用 TAPO 解決稀疏獎(jiǎng)勵(lì)下的信用分配問題。大量實(shí)驗(yàn)結(jié)果表明,AlphaRouter 能夠在數(shù)學(xué)推理、通用推理和代碼生成任務(wù)中取得更優(yōu)的準(zhǔn)確率—效率權(quán)衡,并有效推進(jìn)小模型—大模型協(xié)同推理的 Pareto 前沿。
該研究面向大模型高效部署與邊云協(xié)同智能系統(tǒng)中的關(guān)鍵需求,為在有限計(jì)算資源下實(shí)現(xiàn)高質(zhì)量智能推理提供了新的技術(shù)路徑。未來,該方向有望進(jìn)一步拓展至多模型協(xié)同、邊云協(xié)同推理、智能體系統(tǒng)調(diào)度以及資源受限環(huán)境下的大模型服務(wù)優(yōu)化等應(yīng)用場景。
學(xué)者網(wǎng)

評論 0