七久久久久,激情一本色道,96福利视频

近日，實(shí)驗(yàn)室博士生劉家豪作為第一作者的論文 Distribution-Aware End-to-End Embedding for Streaming Numerical Features in Click-Through Rate Prediction 被 The 32nd ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD 2026) Research Track（Second Cycle）錄用。KDD 2026 Research Track 第二輪共收到 3252 篇有效投稿，總體接收率約為 18.5%。

該工作面向推薦與廣告系統(tǒng)中的點(diǎn)擊率預(yù)測任務(wù)，聚焦流式訓(xùn)練場景下數(shù)值特征難以有效表征的問題。傳統(tǒng)數(shù)值特征處理方法往往依賴離線分桶或人工規(guī)則，容易在數(shù)據(jù)分布變化時(shí)產(chǎn)生語義漂移；而神經(jīng)網(wǎng)絡(luò)式嵌入方法雖然支持端到端訓(xùn)練，卻通常忽略了數(shù)值特征背后的分布信息。為解決這一問題，本文提出了面向流式數(shù)值特征的分布感知端到端嵌入框架 DAES。該方法通過高效的跳躍蓄水池采樣估計(jì)流式分布，并在分位空間中進(jìn)行連續(xù)插值表示，同時(shí)引入字段感知的分布調(diào)制機(jī)制，使模型能夠捕捉不同上下文下數(shù)值特征的語義差異。大量離線實(shí)驗(yàn)和線上 A/B 測試表明，DAES 在多種主流 CTR 模型架構(gòu)上均取得穩(wěn)定提升，并已部署于日活數(shù)億級用戶的短視頻廣告平臺。

會議簡介

ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD) 是數(shù)據(jù)挖掘與知識發(fā)現(xiàn)領(lǐng)域的重要國際學(xué)術(shù)會議，由 ACM SIGKDD 主辦，也是中國計(jì)算機(jī)學(xué)會推薦的 A 類國際學(xué)術(shù)會議。會議涵蓋數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、推薦系統(tǒng)及其真實(shí)應(yīng)用等研究方向。KDD 2026 計(jì)劃于 2026 年 8 月 9 日至 13 日在韓國濟(jì)州島召開。

論文簡介
面向流式點(diǎn)擊率預(yù)測的
分布感知數(shù)值特征嵌入

論文鏈接：https://arxiv.org/abs/2602.03223

問題背景

點(diǎn)擊率預(yù)測是推薦系統(tǒng)與計(jì)算廣告中的核心任務(wù)，其目標(biāo)是估計(jì)用戶點(diǎn)擊某一內(nèi)容或廣告的概率。主流深度 CTR 模型通常遵循“嵌入層—特征交互層—預(yù)測層”的范式：首先將類別特征和數(shù)值特征映射到統(tǒng)一的低維向量空間，再通過交互網(wǎng)絡(luò)建模高階特征關(guān)系，最終輸出點(diǎn)擊概率。

對于類別特征而言，嵌入查表已經(jīng)成為標(biāo)準(zhǔn)做法。例如，用戶性別、廣告類目、視頻標(biāo)簽等離散 ID 可以直接映射到對應(yīng)的 embedding。然而，數(shù)值特征卻更加復(fù)雜。用戶年齡、商品價(jià)格、曝光次數(shù)、歷史點(diǎn)擊率、統(tǒng)計(jì)轉(zhuǎn)化率等數(shù)值特征通常具有連續(xù)分布、長尾分布、強(qiáng)尺度差異和天然序關(guān)系，很難像類別特征一樣直接查表表示。

在真實(shí)工業(yè)系統(tǒng)中，這一問題進(jìn)一步被流式訓(xùn)練放大。推薦和廣告系統(tǒng)需要實(shí)時(shí)響應(yīng)用戶興趣變化、內(nèi)容熱度變化和流量分布變化，模型通常以數(shù)據(jù)流的形式持續(xù)更新。此時(shí)，數(shù)值特征的分布不再穩(wěn)定，離線統(tǒng)計(jì)結(jié)果很容易過時(shí)。如何在流式環(huán)境中讓數(shù)值特征既保持連續(xù)表示，又能顯式感知?jiǎng)討B(tài)分布，成為點(diǎn)擊率預(yù)測模型中的關(guān)鍵挑戰(zhàn)。

圖 1 面向流式點(diǎn)擊率預(yù)測的數(shù)值特征嵌入問題示意圖

現(xiàn)有方法局限

現(xiàn)有數(shù)值特征嵌入方法大體可以分為四類：靜態(tài)分桶、神經(jīng)網(wǎng)絡(luò)嵌入、插值分桶和動態(tài)分位嵌入。

靜態(tài)分桶是工業(yè)界常用方案。它先基于離線統(tǒng)計(jì)結(jié)果將連續(xù)數(shù)值劃分為若干桶，再為每個(gè)桶學(xué)習(xí)一個(gè) embedding。該方法簡單有效，也能顯式利用數(shù)值分布信息。然而，它存在兩個(gè)明顯問題。第一，表示不連續(xù)：同一桶內(nèi)的不同數(shù)值會共享完全相同的 embedding，而跨越桶邊界的相鄰數(shù)值卻會被映射到不同表示。第二，分桶邊界依賴離線統(tǒng)計(jì)，一旦流式數(shù)據(jù)分布發(fā)生變化，邊界更新可能導(dǎo)致同一數(shù)值對應(yīng)的桶編號發(fā)生改變，從而引發(fā)語義漂移。

神經(jīng)網(wǎng)絡(luò)嵌入通過 MLP 或可微分模塊直接將數(shù)值映射為 embedding，支持端到端訓(xùn)練，也能保證表示的平滑性。但這類方法通常只關(guān)注原始數(shù)值本身，缺乏對特征分布的顯式建模。例如，同樣是“100”這個(gè)數(shù)值，在低價(jià)商品中可能代表高端價(jià)格，在高價(jià)商品中卻可能代表低端價(jià)格；僅使用原始數(shù)值難以捕捉這種分布語義。

插值分桶試圖同時(shí)兼顧分布信息與表示連續(xù)性。它使用離線分位點(diǎn)劃分桶邊界，并通過線性插值聚合多個(gè) meta-embedding。盡管這種方法比靜態(tài)分桶更加平滑，但它仍然依賴離線統(tǒng)計(jì)，因此并沒有真正解決流式環(huán)境中的分布更新與語義漂移問題。

動態(tài)分位嵌入是更接近本文目標(biāo)的一類方法。代表性方法 DAE 嘗試在線估計(jì)分位點(diǎn)，并基于分布信息生成嵌入權(quán)重。然而，DAE 的分位估計(jì)依賴連續(xù) batch 獨(dú)立同分布的假設(shè)。在真實(shí)流式推薦系統(tǒng)中，數(shù)據(jù)通常具有明顯的非平穩(wěn)性和時(shí)間相關(guān)性，該假設(shè)很難成立，進(jìn)而可能導(dǎo)致分位估計(jì)出現(xiàn)系統(tǒng)偏差。

圖 2 不同數(shù)值特征嵌入范式對比

方法概述

讓數(shù)值特征從“數(shù)值大小”走向“分布位置”

針對上述問題，本文提出 DAES，即 Distribution-Aware End-to-End Embedding for Streaming Numerical Features。DAES 的核心思想是：數(shù)值特征的 embedding 不應(yīng)只由“數(shù)值本身有多大”決定，而應(yīng)由“該數(shù)值在當(dāng)前流式分布中處于什么位置”以及“它在特定上下文中意味著什么”共同決定。

具體而言，DAES 包含三個(gè)關(guān)鍵模塊：

第一，流式分布估計(jì)。DAES 使用跳躍蓄水池采樣維護(hù)數(shù)值特征的全局流式分布，在有限內(nèi)存下持續(xù)估計(jì)分位點(diǎn)。

第二，分位空間插值。DAES 不在原始數(shù)值空間中編碼，而是將數(shù)值映射到分位空間，以捕捉累計(jì)密度信息和序關(guān)系。

第三，字段感知分布調(diào)制。DAES 根據(jù)類別字段 embedding 對數(shù)值特征的分位表示進(jìn)行調(diào)制，從而適配不同上下文下的條件分布語義。

模塊一：跳躍蓄水池采樣
在流式場景中，系統(tǒng)無法保存全部歷史樣本，因此需要在有限內(nèi)存中維護(hù)對全局分布的近似。DAES 采用蓄水池采樣，為每個(gè)數(shù)值特征維護(hù)一個(gè)固定大小的樣本集合。該采樣機(jī)制保證在任意時(shí)間點(diǎn)，歷史樣本被保留在蓄水池中的概率相同，因此蓄水池可以作為全局歷史數(shù)據(jù)的無偏近似。
然而，標(biāo)準(zhǔn)蓄水池采樣需要對每個(gè)新到來的樣本生成隨機(jī)數(shù)并判斷是否替換。當(dāng)數(shù)據(jù)流極大時(shí)，大量新樣本實(shí)際上不會被選中，這會帶來明顯的計(jì)算浪費(fèi)。
為此，DAES 進(jìn)一步提出 Jump Reservoir Sampling。它不再逐條判斷樣本是否進(jìn)入蓄水池，而是直接采樣“下一次蓄水池更新會在多久之后發(fā)生”。在兩次更新之間，算法可以跳過所有不會被選中的樣本，從而顯著降低隨機(jī)數(shù)生成與更新開銷。論文推導(dǎo)了跳躍長度的分布，并給出近似的時(shí)間復(fù)雜度，其中為蓄水池大小，為數(shù)據(jù)流長度。
直觀來看，隨著數(shù)據(jù)流不斷增長，新樣本進(jìn)入蓄水池的概率會越來越小。與其對每個(gè)樣本都進(jìn)行一次無效判斷，不如直接預(yù)測下一次“命中”的位置。這一設(shè)計(jì)使 DAES 能夠更好適配大規(guī)模流式訓(xùn)練系統(tǒng)。

模塊二：分位空間插值
僅估計(jì)分布還不夠，關(guān)鍵在于如何使用分布信息表示數(shù)值。
已有動態(tài)分位嵌入方法通常在原始數(shù)值空間中度量輸入值與分位點(diǎn)之間的距離。但這種做法容易受到數(shù)值密度影響。例如，在稠密區(qū)域中，兩個(gè)數(shù)值之間很小的差異可能對應(yīng)大量樣本；而在長尾稀疏區(qū)域中，較大的數(shù)值差異可能只對應(yīng)很小的概率質(zhì)量。因此，原始數(shù)值距離并不總能反映真實(shí)的分布語義。
DAES 將數(shù)值編碼從 value space 轉(zhuǎn)移到 quantile space。具體來說，模型首先基于蓄水池估計(jì)若干分位點(diǎn)，將整體分布劃分為多個(gè)等概率區(qū)間。對于輸入數(shù)值，DAES 判斷它落在哪個(gè)分位區(qū)間，并根據(jù)它在該區(qū)間內(nèi)的相對位置構(gòu)造一個(gè)“溫度計(jì)式”的連續(xù)向量。例如，一個(gè)數(shù)值若處在第 4 個(gè)分位區(qū)間的中間位置，其表示可以近似理解為：
這一表示既保留了數(shù)值的序關(guān)系，也顯式編碼了它在整體分布中的累計(jì)位置。相比直接使用原始數(shù)值，分位空間表示更穩(wěn)定，也更適合長尾、偏態(tài)和非均勻分布的工業(yè)特征。

模塊三：字段感知分布調(diào)制
數(shù)值特征的語義往往依賴上下文。同樣的商品價(jià)格，在不同類目下可能意味著完全不同的消費(fèi)層級；同樣的用戶活躍天數(shù)，在不同用戶群體中也可能反映不同的興趣強(qiáng)度。
一種直接做法是為每個(gè)上下文字段單獨(dú)維護(hù)數(shù)值分布，但這會帶來嚴(yán)重的組合爆炸。尤其在推薦和廣告系統(tǒng)中，類別字段數(shù)量多、取值空間大，如果為每個(gè)字段組合都單獨(dú)建模分布，幾乎無法擴(kuò)展。
DAES 采用更靈活的方式：先用全局分布得到原始分位表示，再通過類別字段 embedding 對其進(jìn)行調(diào)制。論文提出了兩種調(diào)制策略。
第一種是 仿射變換。模型根據(jù)字段 embedding 生成一個(gè)調(diào)制矩陣，對分位表示進(jìn)行上下文相關(guān)的重加權(quán)。
第二種是 門控機(jī)制。模型根據(jù)字段 embedding 生成一個(gè) gate 向量，對不同分位區(qū)間進(jìn)行動態(tài)放大或抑制。
經(jīng)過調(diào)制后的權(quán)重向量會被用于聚合一組可學(xué)習(xí)的 meta-embedding，從而得到最終的數(shù)值特征表示。通過這種方式，DAES 將上下文校準(zhǔn)提前到 embedding 層，而不是完全依賴后續(xù)特征交互網(wǎng)絡(luò)隱式學(xué)習(xí)。

實(shí)驗(yàn)結(jié)果

離線實(shí)驗(yàn)與線上部署雙重驗(yàn)證
本文在兩個(gè)公開數(shù)據(jù)集 Criteo、AutoML 和一個(gè)大規(guī)模工業(yè)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。所有數(shù)據(jù)均按照曝光時(shí)間排序，以模擬真實(shí)流式訓(xùn)練場景。實(shí)驗(yàn)指標(biāo)包括 AUC 和 LogLoss，并在多個(gè)主流 CTR 模型骨干網(wǎng)絡(luò)上驗(yàn)證方法的通用性，包括 FNN、Wide & Deep、DeepFM、IPNN、DCN v2 和 xDeepFM。對比方法覆蓋靜態(tài)分桶、神經(jīng)網(wǎng)絡(luò)嵌入、插值分桶和動態(tài)分位嵌入四大類。
實(shí)驗(yàn)結(jié)果表明，DAES 在不同數(shù)據(jù)集和不同 backbone 上均取得了穩(wěn)定領(lǐng)先的效果。與靜態(tài)分桶相比，DAES 避免了離線邊界更新導(dǎo)致的語義漂移；與普通神經(jīng)嵌入方法相比，DAES 顯式利用了分布信息；與 PLE 等插值分桶方法相比，DAES 不再依賴離線統(tǒng)計(jì)；與 DAE 相比，DAES 使用更適合流式場景的蓄水池采樣，并在分位空間而非原始數(shù)值空間中進(jìn)行編碼。
值得注意的是，PLE 在多個(gè) baseline 中表現(xiàn)較強(qiáng)，這也從側(cè)面說明：分布信息對數(shù)值特征表示至關(guān)重要。但 PLE 的分布信息來自離線統(tǒng)計(jì)，而 DAES 將分布估計(jì)整合進(jìn)流式訓(xùn)練過程，因而更適合動態(tài)推薦與廣告環(huán)境。

消融實(shí)驗(yàn)
為了驗(yàn)證各個(gè)模塊的有效性，論文進(jìn)一步進(jìn)行了系統(tǒng)消融分析。
在分布估計(jì)方面，DAES 使用的蓄水池采樣在 Criteo 數(shù)值特征上的 KL 散度顯著低于基于 order statistics 的估計(jì)方法，說明其能更準(zhǔn)確地保留整體分布信息。同時(shí)，跳躍蓄水池采樣在保持相近估計(jì)精度的同時(shí)，將隨機(jī)數(shù)調(diào)用量降低到標(biāo)準(zhǔn)蓄水池采樣的 3%–4%。
在插值空間方面，論文對比了原始數(shù)值空間和分位空間。結(jié)果顯示，分位空間插值能夠帶來更好的預(yù)測性能，說明“數(shù)值在分布中的位置”比“數(shù)值與分位點(diǎn)的歐氏距離”更適合指導(dǎo) embedding 學(xué)習(xí)。
在分布調(diào)制方面，實(shí)驗(yàn)表明，引入字段感知調(diào)制后，模型性能明顯優(yōu)于不調(diào)制的版本。進(jìn)一步分析發(fā)現(xiàn)，選擇對數(shù)值條件分布影響更顯著的類別字段進(jìn)行調(diào)制，可以獲得更好的效果。這說明 DAES 并非簡單增加參數(shù)，而是在 embedding 層顯式建模了上下文相關(guān)的數(shù)值語義。

線上 A/B 測試
除離線實(shí)驗(yàn)外，論文還在一個(gè)日活數(shù)億級用戶的大規(guī)模平臺上進(jìn)行了為期 7 天的線上 A/B 測試。線上實(shí)驗(yàn)將 DAES 與生產(chǎn)環(huán)境中基于人工離散化規(guī)則的數(shù)值特征處理方法進(jìn)行對比。結(jié)果顯示，DAES 顯著優(yōu)于生產(chǎn)基線，使廣告主價(jià)值提升 2.307%。目前，DAES 已經(jīng)在該廣告平臺完成全量部署。
這一結(jié)果表明，DAES 不僅在學(xué)術(shù)基準(zhǔn)數(shù)據(jù)集上有效，也能夠在真實(shí)工業(yè)系統(tǒng)中產(chǎn)生實(shí)際商業(yè)價(jià)值。更重要的是，DAES 將數(shù)值特征處理無縫整合到模型訓(xùn)練過程中，減少了對離線統(tǒng)計(jì)和人工分桶規(guī)則的依賴，降低了特征工程維護(hù)成本。

總結(jié)

總體而言，DAES 重新思考了數(shù)值特征在流式 CTR 預(yù)測中的表示方式：數(shù)值不只是一個(gè)標(biāo)量，更是動態(tài)分布中的一個(gè)位置，也是特定上下文中的一種語義。通過將分布估計(jì)、分位編碼和字段感知調(diào)制統(tǒng)一到 embedding 層，DAES 為在線推薦與廣告系統(tǒng)中的數(shù)值特征建模提供了一條高效、可擴(kuò)展且可落地的新路徑。

如果您對本文內(nèi)容感興趣，可與通訊作者聯(lián)系: zhangpeng_@fudan.edu.cn

實(shí)驗(yàn)室相關(guān)論文

[1] Fangye Wang, Yingxu Wang, Dongsheng Li, Hansu Gu, Tun Lu, Peng Zhang, Ning Gu. CL4CTR: A Contrastive Learning Framework for CTR Prediction. WSDM 2023.

[2] Fangye Wang, Yingxu Wang, Dongsheng Li, Hansu Gu, Tun Lu, Peng Zhang, Ning Gu. Enhancing CTR Prediction with Context-Aware Feature Representation Learning. SIGIR 2022.

[3] Fangye Wang, Hansu Gu, Dongsheng Li, Tun Lu, Peng Zhang, Ning Gu. Towards Deeper, Lighter and Interpretable Cross Network for CTR Prediction. CIKM 2023.

[4] Jiahao Liu, Dongsheng Li, Hansu Gu, Peng Zhang, Tun Lu, Li Shang, Ning Gu. Unbiased Collaborative Filtering with Fair Sampling. SIGIR 2025.

[5] Jiahao Liu, Shengkang Gu, Dongsheng Li, Guangping Zhang, Mingzhe Han, Hansu Gu, Peng Zhang, Tun Lu, Li Shang, Ning Gu. AgentCF++: Memory-enhanced LLM-based Agents for Popularity-aware Cross-domain Recommendations. SIGIR 2025.

[6] Jiahao Liu, Yiyang Shao, Peng Zhang, Dongsheng Li, Hansu Gu, Chao Chen, Longzhi Du, Tun Lu, Ning Gu. Filtering Discomforting Recommendations with Large Language Models. WWW 2025.

[7] Jiahao Liu, Xueshuo Yan, Dongsheng Li, Guangping Zhang, Hansu Gu, Peng Zhang, Tun Lu, Li Shang, Ning Gu. Improving LLM-powered Recommendations with Personalized Information. SIGIR 2025.

[8] Ziye Tong*, Jiahao Liu*, Weimin Zhang, Hongji Ruan, Derick Tang, Zhanpeng Zeng, Qinsong Zeng, Peng Zhang, Tun Lu, Ning Gu. RQ-GMM: Residual Quantized Gaussian Mixture Model for Multimodal Semantic Discretization in CTR Prediction. SIGIR 2026.

如果您對我們實(shí)驗(yàn)室的相關(guān)工作感興趣，歡迎訪問我們的網(wǎng)站：

協(xié)同信息與系統(tǒng)實(shí)驗(yàn)室（CISL）

實(shí)驗(yàn)室網(wǎng)站主頁：https://cscw.fudan.edu.cn/

實(shí)驗(yàn)室Github主頁：https://github.com/FudanCISL

麻豆精品无码av,欧美1区2区,久久中文字幕乱码人妻,亚洲欧美另类少妇精品,在线看黄射,69pao高清,九九九久久久国产精品,子操大逼1234区,九九爱99热精品

論文聚焦｜KDD’26｜讓數(shù)值特征讀懂流式分布——DAES重塑點(diǎn)擊率預(yù)測中的Embedding表征

會議簡介

論文簡介
面向流式點(diǎn)擊率預(yù)測的
分布感知數(shù)值特征嵌入