近日,實(shí)驗(yàn)室碩士生馮躍博作為第一作者的論文"Drift-Aware Incremental Token Adaptation with Collaborative Semantics for Generative Recommendation"被The 49th International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR 2026) 會(huì)議錄用。
生成式推薦通常采用兩階段流水線:可學(xué)習(xí)的分詞器將物品映射為離散Token序列(即標(biāo)識(shí)符),自回歸生成式推薦模型(GRM)基于這些標(biāo)識(shí)符進(jìn)行預(yù)測(cè)。近期的分詞器進(jìn)一步引入?yún)f(xié)同信號(hào),使具有相似用戶行為模式的物品獲得相似的編碼,從而顯著提升推薦質(zhì)量。然而,現(xiàn)實(shí)環(huán)境持續(xù)演化:新物品導(dǎo)致標(biāo)識(shí)符沖突與偏移,新交互引發(fā)現(xiàn)有物品的協(xié)同漂移(如共現(xiàn)模式和流行度的變化)。完全重訓(xùn)分詞器和GRM通常代價(jià)高昂,而樸素微調(diào)分詞器會(huì)改變大多數(shù)現(xiàn)有物品的Token序列,破壞GRM已學(xué)習(xí)的Token-嵌入對(duì)齊。為平衡協(xié)同分詞器的可塑性與穩(wěn)定性,我們提出DACT框架,通過(guò)漂移感知的選擇性適配策略,在適應(yīng)協(xié)同信號(hào)演化的同時(shí)保持GRM Token嵌入知識(shí)的穩(wěn)定性。在三個(gè)真實(shí)數(shù)據(jù)集和兩種代表性GRM上的實(shí)驗(yàn)表明,DACT持續(xù)優(yōu)于基線方法。
會(huì)議簡(jiǎn)介

ACM SIGIR (International ACM SIGIR Conference on Research and Development in Information Retrieval) 是信息檢索領(lǐng)域的頂級(jí)國(guó)際學(xué)術(shù)會(huì)議,是中國(guó)計(jì)算機(jī)學(xué)會(huì)推薦的A類國(guó)際學(xué)術(shù)會(huì)議。SIGIR匯集了來(lái)自學(xué)術(shù)界和工業(yè)界的研究人員,共同探討信息檢索、搜索和推薦系統(tǒng)等領(lǐng)域的前沿研究。今年,該會(huì)議計(jì)劃于2026年7月20日至24日在澳大利亞墨爾本召開。本屆SIGIR會(huì)議共收到1271篇有效投稿,其中234篇論文被接受,錄用率18.4%。
論文簡(jiǎn)介
面向生成式推薦的漂移感知增量更新框架

論文鏈接:https://doi.org/10.1145/3805712.3809645
代碼倉(cāng)庫(kù):https://github.com/HomesAmaranta/DACT
生成式推薦將推薦任務(wù)重新建模為序列生成任務(wù),大多采用兩階段設(shè)計(jì):可學(xué)習(xí)分詞器(如RQ-VAE)將物品映射為離散的層次化Token序列作為標(biāo)識(shí)符,生成式推薦模型(GRM)基于這些Token進(jìn)行自回歸生成與預(yù)測(cè)。近期研究將協(xié)同過(guò)濾模型中的協(xié)同信號(hào)注入分詞器,確保用戶行為模式相似的物品獲得相似的Token序列,從而大幅提升推薦效果。
然而在真實(shí)系統(tǒng)中,新物品和新交互持續(xù)涌入,帶來(lái)兩大挑戰(zhàn):(1)分詞器未見(jiàn)過(guò)新物品,導(dǎo)致標(biāo)識(shí)符沖突與偏移;(2)新交互反映了底層變化,包括物品流行度的變化和共現(xiàn)模式的演化。如果Token不能自適應(yīng)更新以反映這種協(xié)同漂移,過(guò)時(shí)的標(biāo)識(shí)符將無(wú)法代表物品最新的協(xié)同特征,成為GRM性能的關(guān)鍵瓶頸。

圖1 協(xié)同信號(hào)漂移舉例
在協(xié)同感知分詞器的增量學(xué)習(xí)中,如何準(zhǔn)確識(shí)別經(jīng)歷顯著協(xié)同語(yǔ)義漂移的物品子集,并設(shè)計(jì)機(jī)制選擇性地更新其標(biāo)識(shí)符,同時(shí)嚴(yán)格約束靜止物品?本文將此稱為"漂移感知的選擇性適配策略",旨在通過(guò)適應(yīng)演化的協(xié)同信號(hào)實(shí)現(xiàn)可塑性,同時(shí)確保生成式推薦模型Token嵌入知識(shí)的穩(wěn)定性。
方法概述
我們提出DACT(Drift-Aware Continual Tokenization),通過(guò)兩個(gè)階段捕獲并適應(yīng)協(xié)同漂移:
第一階段:漂移感知的分詞器適配
協(xié)同漂移識(shí)別模塊(CDIM):與分詞器端到端聯(lián)合訓(xùn)練,通過(guò)模式記憶和注意力機(jī)制,為每個(gè)物品預(yù)測(cè)漂移置信度分?jǐn)?shù)。該模塊維護(hù)可學(xué)習(xí)的關(guān)鍵槽(表示漂移模式)和值槽(表示更新策略),通過(guò)比較前一時(shí)期和當(dāng)前時(shí)期的潛在表示與最新協(xié)同嵌入的對(duì)齊程度來(lái)構(gòu)造查詢向量,最終輸出漂移置信度。
差異化更新策略:基于CDIM預(yù)測(cè)的漂移置信度,選取置信度最高的top-K物品作為漂移集合,其余為靜止集合。對(duì)漂移物品,鼓勵(lì)其自由適應(yīng)最新協(xié)同信號(hào);對(duì)靜止物品,引入錨定正則化約束其潛在表示保持穩(wěn)定,防止破壞GRM已學(xué)習(xí)的Token-嵌入對(duì)齊。
全局編碼分配穩(wěn)定性約束:通過(guò)KL散度懲罰所有物品在第一層碼本的分配分布偏移,保持標(biāo)識(shí)符整體穩(wěn)定。

圖2 DACT自適應(yīng)更新框架
第二階段:層次化編碼重分配
采用"松到嚴(yán)"的策略:第一層始終重新分配編碼以捕捉顯著的協(xié)同漂移;更深層僅在第一層編碼發(fā)生變化時(shí)才觸發(fā)重新分配,否則保持不變。這一設(shè)計(jì)過(guò)濾了潛在空間中的微小波動(dòng),穩(wěn)定了大多數(shù)標(biāo)識(shí)符。
實(shí)驗(yàn)結(jié)果
我們?cè)谌齻€(gè)Amazon真實(shí)數(shù)據(jù)集(Beauty、Tools、Toys)上,使用兩種代表性GRM backbone(TIGER和LC-Rec)進(jìn)行了廣泛實(shí)驗(yàn),結(jié)果展示在表1和表2中:
表1 DACT在TIGER上的表現(xiàn)

表2 DACT在LC-Rec上的表現(xiàn)

可以發(fā)現(xiàn):DACT的表現(xiàn)優(yōu)于其他基線方法,有效平衡了可塑性與穩(wěn)定性。此外,我們做了進(jìn)一步的消融實(shí)驗(yàn),說(shuō)明DACT的每一個(gè)模塊都是不可或缺的,如圖3所示。

圖3 DACT上的消融實(shí)驗(yàn)
我們進(jìn)一步驗(yàn)證了DACT能否感知協(xié)同信號(hào)的演化,并據(jù)此微調(diào)分詞器以適應(yīng)協(xié)同信號(hào)漂移。為量化分詞器捕獲演化協(xié)同信號(hào)的能力,我們計(jì)算了每個(gè)時(shí)期量化嵌入與當(dāng)前時(shí)期協(xié)同過(guò)濾嵌入之間的余弦相似度,并報(bào)告所有物品的平均值。我們對(duì)比了兩種設(shè)置:凍結(jié)分詞器(不做任何更新)和DACT更新后的分詞器,結(jié)果如圖4所示。

圖4 量化嵌入和協(xié)同嵌入的余弦相似度變化對(duì)比圖
對(duì)于凍結(jié)分詞器,相似度隨時(shí)間穩(wěn)步下降,反映出初始語(yǔ)義空間與不斷演化的協(xié)同信號(hào)之間的錯(cuò)位日益加劇——即協(xié)同漂移的存在。相比之下,DACT在各時(shí)期保持了相對(duì)穩(wěn)定的相似度,表明其能有效適應(yīng)最新的協(xié)同模式。
為更直觀地理解DACT如何處理具體的漂移實(shí)例,我們從Tools數(shù)據(jù)集中選取了200個(gè)物品,使用t-SNE對(duì)其第1時(shí)期的協(xié)同過(guò)濾嵌入進(jìn)行可視化,如圖5所示。物品按其在編碼本第一層的令牌分配著色,星形標(biāo)記代表對(duì)應(yīng)的編碼嵌入。在兩個(gè)子圖中,大多數(shù)物品都位于其所分配令牌的編碼嵌入附近,說(shuō)明第一層令牌總體上能捕獲主導(dǎo)的協(xié)同信號(hào)。然而,在圖5(a)中(凍結(jié)分詞器),圓圈標(biāo)注的物品偏離了其原始編碼嵌入,轉(zhuǎn)而更接近其他編碼嵌入,表明它們的協(xié)同語(yǔ)義在第1時(shí)期已發(fā)生漂移。而在圖5(b)中,DACT將這些漂移物品重新分配到與其當(dāng)前協(xié)同過(guò)濾嵌入更匹配的令牌,從而將標(biāo)識(shí)符適配到最新的協(xié)同信號(hào)。

圖5 物品潛在表示可視化
討論
1. 協(xié)同漂移識(shí)別的挑戰(zhàn)
我們的實(shí)驗(yàn)發(fā)現(xiàn),在識(shí)別和應(yīng)對(duì)協(xié)同漂移時(shí)存在兩個(gè)主要挑戰(zhàn):(1)漂移邊界的模糊性。協(xié)同信號(hào)的演化是一個(gè)漸進(jìn)的過(guò)程,物品從"靜止"到"漂移"之間并不存在明確的分界線。CDIM雖然通過(guò)端到端學(xué)習(xí)漂移模式來(lái)預(yù)測(cè)漂移置信度,但在漂移程度較輕微的邊界區(qū)域,仍可能出現(xiàn)誤判,導(dǎo)致部分輕微漂移的物品未被及時(shí)更新,或?qū)⒃肼暡▌?dòng)誤識(shí)別為真實(shí)漂移。(2)冷啟動(dòng)物品的不穩(wěn)定性。新物品由于交互數(shù)據(jù)有限,其協(xié)同嵌入本身就具有較大的不確定性。在這種情況下,CDIM難以準(zhǔn)確區(qū)分新物品的協(xié)同信號(hào)變化究竟是由真實(shí)的用戶偏好演化引起,還是僅僅源于初始交互數(shù)據(jù)的稀疏性和噪聲。
2. 對(duì)實(shí)際系統(tǒng)的潛在影響
盡管DACT的核心設(shè)計(jì)聚焦于分詞器端的增量更新,其影響會(huì)通過(guò)更新的標(biāo)識(shí)符傳遞到整個(gè)推薦系統(tǒng)。首先,通過(guò)選擇性更新而非全量重訓(xùn),DACT大幅降低了計(jì)算開銷,使得工業(yè)級(jí)推薦系統(tǒng)可以在有限的計(jì)算預(yù)算下實(shí)現(xiàn)更頻繁的模型更新。其次,DACT通過(guò)穩(wěn)定大多數(shù)物品的標(biāo)識(shí)符,避免了大規(guī)模令牌重分配對(duì)在線服務(wù)造成的干擾,有助于維護(hù)推薦系統(tǒng)的服務(wù)穩(wěn)定性。最后,DACT對(duì)漂移物品的及時(shí)適配能夠幫助系統(tǒng)更快地捕捉到季節(jié)性趨勢(shì)、突發(fā)事件等帶來(lái)的用戶行為變化,從而提升推薦的時(shí)效性和準(zhǔn)確性。
3. 研究的局限性與未來(lái)方向
我們從以下三個(gè)方面闡述了研究的局限性與潛在改進(jìn)方向:(1)漂移檢測(cè)方面:當(dāng)前CDIM通過(guò)top-K選擇策略劃分漂移與靜止物品,這種固定比例的劃分可能無(wú)法適應(yīng)漂移強(qiáng)度隨時(shí)間動(dòng)態(tài)變化的場(chǎng)景。未來(lái)可探索自適應(yīng)閾值機(jī)制,根據(jù)當(dāng)前時(shí)期的整體漂移程度動(dòng)態(tài)調(diào)整選擇比例。(2)信號(hào)來(lái)源方面:本研究目前僅考慮了基于用戶行為的協(xié)同信號(hào)漂移。未來(lái)可拓展至多模態(tài)信號(hào)的聯(lián)合漂移檢測(cè),如結(jié)合物品內(nèi)容特征的變化(如價(jià)格調(diào)整、描述更新)與協(xié)同信號(hào)的演化進(jìn)行綜合判斷。(3)評(píng)估方面:實(shí)驗(yàn)基于三個(gè)Amazon數(shù)據(jù)集的離線評(píng)估,雖然驗(yàn)證了方法的有效性,但尚未在大規(guī)模工業(yè)級(jí)實(shí)時(shí)系統(tǒng)中進(jìn)行部署測(cè)試。未來(lái)需要在更大規(guī)模、更長(zhǎng)時(shí)間跨度的在線環(huán)境中評(píng)估DACT的實(shí)際效果。
總結(jié)
本研究的主要貢獻(xiàn)如下:
我們研究了生成式推薦中協(xié)同感知分詞器的增量學(xué)習(xí)問(wèn)題,指出了現(xiàn)有方法忽略物品協(xié)同語(yǔ)義漂移的關(guān)鍵不足,并提出了漂移感知的選擇性適配問(wèn)題定義。
我們提出了DACT框架,通過(guò)協(xié)同漂移識(shí)別模塊(CDIM)端到端地估計(jì)物品級(jí)漂移置信度,實(shí)現(xiàn)對(duì)漂移物品與靜止物品的差異化更新策略,并結(jié)合層次化編碼重分配策略有效平衡了可塑性與穩(wěn)定性。
我們?cè)谌齻€(gè)真實(shí)數(shù)據(jù)集上使用兩種代表性生成式推薦模型(TIGER和LC-Rec)進(jìn)行了廣泛實(shí)驗(yàn),結(jié)果表明DACT在相同設(shè)置下持續(xù)優(yōu)于強(qiáng)基線方法,驗(yàn)證了其在協(xié)同漂移環(huán)境下的有效性與高效性。
我們進(jìn)一步通過(guò)消融實(shí)驗(yàn)、可視化分析和效率對(duì)比,深入分析了各組件的作用機(jī)制,討論了協(xié)同漂移識(shí)別的挑戰(zhàn)及未來(lái)研究方向,為生成式推薦的持續(xù)學(xué)習(xí)提供了新的視角。
如果您對(duì)本文內(nèi)容感興趣,可與通訊作者聯(lián)系: zhangpeng_@fudan.edu.cn
實(shí)驗(yàn)室相關(guān)論文
[1] Jiahao Liu, Dongsheng Li, Hansu Gu, Peng Zhang, Tun Lu, Li Shang and Ning Gu. Unbiased Collaborative Filtering with Fair Sampling. SIGIR 2025.
[2] Mingzhe Han, Dongsheng Li, Jiafeng Xia, Jiahao Liu, Hansu Gu, Peng Zhang, Ning Gu, Tun Lu. FedCIA: Federated Collaborative Information Aggregation for Privacy-Preserving Recommendation. SIGIR 2025
[3] Jiahao Liu*, Xueshuo Yan*, Dongsheng Li, Guangping Zhang, Hansu Gu, Peng Zhang, Tun Lu, Li Shang and Ning Gu. Improving LLM-powered Recommendations with Personalized Information. SIGIR 2025.
[4] Jiahao Liu, Dongsheng Li, Hansu Gu, Tun Lu, Peng Zhang, Li Shang and Ning Gu. Triple Structural Information Modelling for Accurate, Explainable and Interactive Recommendation. SIGIR 2023.
[5] Jiahao Liu, Yiyang Shao, Peng Zhang, Dongsheng Li, Hansu Gu, Chao Chen, Longzhi Du, Tun Lu, Ning Gu. Filtering Discomforting Recommendations with Large Language Models. WWW 2025.
如果您對(duì)我們實(shí)驗(yàn)室的相關(guān)工作感興趣,歡迎訪問(wèn)我們的網(wǎng)站:
協(xié)同信息與系統(tǒng)實(shí)驗(yàn)室(CISL)
實(shí)驗(yàn)室網(wǎng)站主頁(yè):https://cscw.fudan.edu.cn/
實(shí)驗(yàn)室Github主頁(yè):https://github.com/FudanCISL

評(píng)論 0