麻豆精品无码av,欧美1区2区,久久中文字幕乱码人妻,亚洲欧美另类少妇精品,在线看黄射,69pao高清,九九九久久久国产精品,子操大逼1234区,九九爱99热精品

3
點(diǎn)贊
0
評論
1
轉(zhuǎn)載
我要入駐

論文聚焦|KDD’26|讓數(shù)值特征讀懂流式分布——DAES重塑點(diǎn)擊率預(yù)測中的Embedding表征

收錄于合集: # 快訊

近日,實(shí)驗(yàn)室博士生劉家豪作為第一作者的論文 Distribution-Aware End-to-End Embedding for Streaming Numerical Features in Click-Through Rate Prediction 被 The 32nd ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD 2026) Research Track(Second Cycle)錄用。KDD 2026 Research Track 第二輪共收到 3252 篇有效投稿,總體接收率約為 18.5%。

該工作面向推薦與廣告系統(tǒng)中的點(diǎn)擊率預(yù)測任務(wù),聚焦流式訓(xùn)練場景下數(shù)值特征難以有效表征的問題。傳統(tǒng)數(shù)值特征處理方法往往依賴離線分桶或人工規(guī)則,容易在數(shù)據(jù)分布變化時(shí)產(chǎn)生語義漂移;而神經(jīng)網(wǎng)絡(luò)式嵌入方法雖然支持端到端訓(xùn)練,卻通常忽略了數(shù)值特征背后的分布信息。為解決這一問題,本文提出了面向流式數(shù)值特征的分布感知端到端嵌入框架 DAES。該方法通過高效的跳躍蓄水池采樣估計(jì)流式分布,并在分位空間中進(jìn)行連續(xù)插值表示,同時(shí)引入字段感知的分布調(diào)制機(jī)制,使模型能夠捕捉不同上下文下數(shù)值特征的語義差異。大量離線實(shí)驗(yàn)和線上 A/B 測試表明,DAES 在多種主流 CTR 模型架構(gòu)上均取得穩(wěn)定提升,并已部署于日活數(shù)億級用戶的短視頻廣告平臺。

會議簡介

圖片

ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD) 是數(shù)據(jù)挖掘與知識發(fā)現(xiàn)領(lǐng)域的重要國際學(xué)術(shù)會議,由 ACM SIGKDD 主辦,也是中國計(jì)算機(jī)學(xué)會推薦的 A 類國際學(xué)術(shù)會議。會議涵蓋數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、推薦系統(tǒng)及其真實(shí)應(yīng)用等研究方向。KDD 2026 計(jì)劃于 2026 年 8 月 9 日至 13 日在韓國濟(jì)州島召開。

論文簡介
面向流式點(diǎn)擊率預(yù)測的
分布感知數(shù)值特征嵌入

圖片

論文鏈接:https://arxiv.org/abs/2602.03223

問題背景

點(diǎn)擊率預(yù)測是推薦系統(tǒng)與計(jì)算廣告中的核心任務(wù),其目標(biāo)是估計(jì)用戶點(diǎn)擊某一內(nèi)容或廣告的概率。主流深度 CTR 模型通常遵循“嵌入層—特征交互層—預(yù)測層”的范式:首先將類別特征和數(shù)值特征映射到統(tǒng)一的低維向量空間,再通過交互網(wǎng)絡(luò)建模高階特征關(guān)系,最終輸出點(diǎn)擊概率。

對于類別特征而言,嵌入查表已經(jīng)成為標(biāo)準(zhǔn)做法。例如,用戶性別、廣告類目、視頻標(biāo)簽等離散 ID 可以直接映射到對應(yīng)的 embedding。然而,數(shù)值特征卻更加復(fù)雜。用戶年齡、商品價(jià)格、曝光次數(shù)、歷史點(diǎn)擊率、統(tǒng)計(jì)轉(zhuǎn)化率等數(shù)值特征通常具有連續(xù)分布、長尾分布、強(qiáng)尺度差異和天然序關(guān)系,很難像類別特征一樣直接查表表示。

在真實(shí)工業(yè)系統(tǒng)中,這一問題進(jìn)一步被流式訓(xùn)練放大。推薦和廣告系統(tǒng)需要實(shí)時(shí)響應(yīng)用戶興趣變化、內(nèi)容熱度變化和流量分布變化,模型通常以數(shù)據(jù)流的形式持續(xù)更新。此時(shí),數(shù)值特征的分布不再穩(wěn)定,離線統(tǒng)計(jì)結(jié)果很容易過時(shí)。如何在流式環(huán)境中讓數(shù)值特征既保持連續(xù)表示,又能顯式感知?jiǎng)討B(tài)分布,成為點(diǎn)擊率預(yù)測模型中的關(guān)鍵挑戰(zhàn)。

圖片

圖 1 面向流式點(diǎn)擊率預(yù)測的數(shù)值特征嵌入問題示意圖

 

現(xiàn)有方法局限

現(xiàn)有數(shù)值特征嵌入方法大體可以分為四類:靜態(tài)分桶、神經(jīng)網(wǎng)絡(luò)嵌入、插值分桶和動態(tài)分位嵌入。

靜態(tài)分桶是工業(yè)界常用方案。它先基于離線統(tǒng)計(jì)結(jié)果將連續(xù)數(shù)值劃分為若干桶,再為每個(gè)桶學(xué)習(xí)一個(gè) embedding。該方法簡單有效,也能顯式利用數(shù)值分布信息。然而,它存在兩個(gè)明顯問題。第一,表示不連續(xù):同一桶內(nèi)的不同數(shù)值會共享完全相同的 embedding,而跨越桶邊界的相鄰數(shù)值卻會被映射到不同表示。第二,分桶邊界依賴離線統(tǒng)計(jì),一旦流式數(shù)據(jù)分布發(fā)生變化,邊界更新可能導(dǎo)致同一數(shù)值對應(yīng)的桶編號發(fā)生改變,從而引發(fā)語義漂移。

神經(jīng)網(wǎng)絡(luò)嵌入通過 MLP 或可微分模塊直接將數(shù)值映射為 embedding,支持端到端訓(xùn)練,也能保證表示的平滑性。但這類方法通常只關(guān)注原始數(shù)值本身,缺乏對特征分布的顯式建模。例如,同樣是“100”這個(gè)數(shù)值,在低價(jià)商品中可能代表高端價(jià)格,在高價(jià)商品中卻可能代表低端價(jià)格;僅使用原始數(shù)值難以捕捉這種分布語義。

插值分桶試圖同時(shí)兼顧分布信息與表示連續(xù)性。它使用離線分位點(diǎn)劃分桶邊界,并通過線性插值聚合多個(gè) meta-embedding。盡管這種方法比靜態(tài)分桶更加平滑,但它仍然依賴離線統(tǒng)計(jì),因此并沒有真正解決流式環(huán)境中的分布更新與語義漂移問題。

動態(tài)分位嵌入是更接近本文目標(biāo)的一類方法。代表性方法 DAE 嘗試在線估計(jì)分位點(diǎn),并基于分布信息生成嵌入權(quán)重。然而,DAE 的分位估計(jì)依賴連續(xù) batch 獨(dú)立同分布的假設(shè)。在真實(shí)流式推薦系統(tǒng)中,數(shù)據(jù)通常具有明顯的非平穩(wěn)性和時(shí)間相關(guān)性,該假設(shè)很難成立,進(jìn)而可能導(dǎo)致分位估計(jì)出現(xiàn)系統(tǒng)偏差。

圖片

圖 2 不同數(shù)值特征嵌入范式對比

方法概述

  • 讓數(shù)值特征從“數(shù)值大小”走向“分布位置”

針對上述問題,本文提出 DAES,即 Distribution-Aware End-to-End Embedding for Streaming Numerical Features。DAES 的核心思想是:數(shù)值特征的 embedding 不應(yīng)只由“數(shù)值本身有多大”決定,而應(yīng)由“該數(shù)值在當(dāng)前流式分布中處于什么位置”以及“它在特定上下文中意味著什么”共同決定。

具體而言,DAES 包含三個(gè)關(guān)鍵模塊:

第一,流式分布估計(jì)。DAES 使用跳躍蓄水池采樣維護(hù)數(shù)值特征的全局流式分布,在有限內(nèi)存下持續(xù)估計(jì)分位點(diǎn)。

第二,分位空間插值。DAES 不在原始數(shù)值空間中編碼,而是將數(shù)值映射到分位空間,以捕捉累計(jì)密度信息和序關(guān)系。

第三,字段感知分布調(diào)制。DAES 根據(jù)類別字段 embedding 對數(shù)值特征的分位表示進(jìn)行調(diào)制,從而適配不同上下文下的條件分布語義。

  • 模塊一:跳躍蓄水池采樣
    在流式場景中,系統(tǒng)無法保存全部歷史樣本,因此需要在有限內(nèi)存中維護(hù)對全局分布的近似。DAES 采用蓄水池采樣,為每個(gè)數(shù)值特征維護(hù)一個(gè)固定大小的樣本集合。該采樣機(jī)制保證在任意時(shí)間點(diǎn),歷史樣本被保留在蓄水池中的概率相同,因此蓄水池可以作為全局歷史數(shù)據(jù)的無偏近似。
    然而,標(biāo)準(zhǔn)蓄水池采樣需要對每個(gè)新到來的樣本生成隨機(jī)數(shù)并判斷是否替換。當(dāng)數(shù)據(jù)流極大時(shí),大量新樣本實(shí)際上不會被選中,這會帶來明顯的計(jì)算浪費(fèi)。
    為此,DAES 進(jìn)一步提出 Jump Reservoir Sampling。它不再逐條判斷樣本是否進(jìn)入蓄水池,而是直接采樣“下一次蓄水池更新會在多久之后發(fā)生”。在兩次更新之間,算法可以跳過所有不會被選中的樣本,從而顯著降低隨機(jī)數(shù)生成與更新開銷。論文推導(dǎo)了跳躍長度的分布,并給出近似  的時(shí)間復(fù)雜度,其中  為蓄水池大小, 為數(shù)據(jù)流長度。
    直觀來看,隨著數(shù)據(jù)流不斷增長,新樣本進(jìn)入蓄水池的概率會越來越小。與其對每個(gè)樣本都進(jìn)行一次無效判斷,不如直接預(yù)測下一次“命中”的位置。這一設(shè)計(jì)使 DAES 能夠更好適配大規(guī)模流式訓(xùn)練系統(tǒng)。

圖片

 

  • 模塊二:分位空間插值
    僅估計(jì)分布還不夠,關(guān)鍵在于如何使用分布信息表示數(shù)值。
    已有動態(tài)分位嵌入方法通常在原始數(shù)值空間中度量輸入值與分位點(diǎn)之間的距離。但這種做法容易受到數(shù)值密度影響。例如,在稠密區(qū)域中,兩個(gè)數(shù)值之間很小的差異可能對應(yīng)大量樣本;而在長尾稀疏區(qū)域中,較大的數(shù)值差異可能只對應(yīng)很小的概率質(zhì)量。因此,原始數(shù)值距離并不總能反映真實(shí)的分布語義。
    DAES 將數(shù)值編碼從 value space 轉(zhuǎn)移到 quantile space。具體來說,模型首先基于蓄水池估計(jì)若干分位點(diǎn),將整體分布劃分為多個(gè)等概率區(qū)間。對于輸入數(shù)值 ,DAES 判斷它落在哪個(gè)分位區(qū)間,并根據(jù)它在該區(qū)間內(nèi)的相對位置構(gòu)造一個(gè)“溫度計(jì)式”的連續(xù)向量。 例如,一個(gè)數(shù)值若處在第 4 個(gè)分位區(qū)間的中間位置,其表示可以近似理解為:
    這一表示既保留了數(shù)值的序關(guān)系,也顯式編碼了它在整體分布中的累計(jì)位置。相比直接使用原始數(shù)值,分位空間表示更穩(wěn)定,也更適合長尾、偏態(tài)和非均勻分布的工業(yè)特征。

  • 模塊三:字段感知分布調(diào)制
    數(shù)值特征的語義往往依賴上下文。同樣的商品價(jià)格,在不同類目下可能意味著完全不同的消費(fèi)層級;同樣的用戶活躍天數(shù),在不同用戶群體中也可能反映不同的興趣強(qiáng)度。
    一種直接做法是為每個(gè)上下文字段單獨(dú)維護(hù)數(shù)值分布,但這會帶來嚴(yán)重的組合爆炸。尤其在推薦和廣告系統(tǒng)中,類別字段數(shù)量多、取值空間大,如果為每個(gè)字段組合都單獨(dú)建模分布,幾乎無法擴(kuò)展。
    DAES 采用更靈活的方式:先用全局分布得到原始分位表示,再通過類別字段 embedding 對其進(jìn)行調(diào)制。論文提出了兩種調(diào)制策略。
    第一種是 仿射變換。模型根據(jù)字段 embedding 生成一個(gè)調(diào)制矩陣,對分位表示進(jìn)行上下文相關(guān)的重加權(quán)。
    第二種是 門控機(jī)制。模型根據(jù)字段 embedding 生成一個(gè) gate 向量,對不同分位區(qū)間進(jìn)行動態(tài)放大或抑制。
    經(jīng)過調(diào)制后的權(quán)重向量會被用于聚合一組可學(xué)習(xí)的 meta-embedding,從而得到最終的數(shù)值特征表示。通過這種方式,DAES 將上下文校準(zhǔn)提前到 embedding 層,而不是完全依賴后續(xù)特征交互網(wǎng)絡(luò)隱式學(xué)習(xí)。

實(shí)驗(yàn)結(jié)果

  • 離線實(shí)驗(yàn)與線上部署雙重驗(yàn)證
    本文在兩個(gè)公開數(shù)據(jù)集 Criteo、AutoML 和一個(gè)大規(guī)模工業(yè)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。所有數(shù)據(jù)均按照曝光時(shí)間排序,以模擬真實(shí)流式訓(xùn)練場景。實(shí)驗(yàn)指標(biāo)包括 AUC 和 LogLoss,并在多個(gè)主流 CTR 模型骨干網(wǎng)絡(luò)上驗(yàn)證方法的通用性,包括 FNN、Wide & Deep、DeepFM、IPNN、DCN v2 和 xDeepFM。對比方法覆蓋靜態(tài)分桶、神經(jīng)網(wǎng)絡(luò)嵌入、插值分桶和動態(tài)分位嵌入四大類。
    實(shí)驗(yàn)結(jié)果表明,DAES 在不同數(shù)據(jù)集和不同 backbone 上均取得了穩(wěn)定領(lǐng)先的效果。與靜態(tài)分桶相比,DAES 避免了離線邊界更新導(dǎo)致的語義漂移;與普通神經(jīng)嵌入方法相比,DAES 顯式利用了分布信息;與 PLE 等插值分桶方法相比,DAES 不再依賴離線統(tǒng)計(jì);與 DAE 相比,DAES 使用更適合流式場景的蓄水池采樣,并在分位空間而非原始數(shù)值空間中進(jìn)行編碼。
    值得注意的是,PLE 在多個(gè) baseline 中表現(xiàn)較強(qiáng),這也從側(cè)面說明:分布信息對數(shù)值特征表示至關(guān)重要。但 PLE 的分布信息來自離線統(tǒng)計(jì),而 DAES 將分布估計(jì)整合進(jìn)流式訓(xùn)練過程,因而更適合動態(tài)推薦與廣告環(huán)境。

  • 消融實(shí)驗(yàn)
    為了驗(yàn)證各個(gè)模塊的有效性,論文進(jìn)一步進(jìn)行了系統(tǒng)消融分析。
    在分布估計(jì)方面,DAES 使用的蓄水池采樣在 Criteo 數(shù)值特征上的 KL 散度顯著低于基于 order statistics 的估計(jì)方法,說明其能更準(zhǔn)確地保留整體分布信息。同時(shí),跳躍蓄水池采樣在保持相近估計(jì)精度的同時(shí),將隨機(jī)數(shù)調(diào)用量降低到標(biāo)準(zhǔn)蓄水池采樣的 3%–4%。
    在插值空間方面,論文對比了原始數(shù)值空間和分位空間。結(jié)果顯示,分位空間插值能夠帶來更好的預(yù)測性能,說明“數(shù)值在分布中的位置”比“數(shù)值與分位點(diǎn)的歐氏距離”更適合指導(dǎo) embedding 學(xué)習(xí)。
    在分布調(diào)制方面,實(shí)驗(yàn)表明,引入字段感知調(diào)制后,模型性能明顯優(yōu)于不調(diào)制的版本。進(jìn)一步分析發(fā)現(xiàn),選擇對數(shù)值條件分布影響更顯著的類別字段進(jìn)行調(diào)制,可以獲得更好的效果。這說明 DAES 并非簡單增加參數(shù),而是在 embedding 層顯式建模了上下文相關(guān)的數(shù)值語義。

  • 線上 A/B 測試
    除離線實(shí)驗(yàn)外,論文還在一個(gè)日活數(shù)億級用戶的大規(guī)模平臺上進(jìn)行了為期 7 天的線上 A/B 測試。線上實(shí)驗(yàn)將 DAES 與生產(chǎn)環(huán)境中基于人工離散化規(guī)則的數(shù)值特征處理方法進(jìn)行對比。結(jié)果顯示,DAES 顯著優(yōu)于生產(chǎn)基線,使廣告主價(jià)值 提升 2.307%。目前,DAES 已經(jīng)在該廣告平臺完成全量部署。
    這一結(jié)果表明,DAES 不僅在學(xué)術(shù)基準(zhǔn)數(shù)據(jù)集上有效,也能夠在真實(shí)工業(yè)系統(tǒng)中產(chǎn)生實(shí)際商業(yè)價(jià)值。更重要的是,DAES 將數(shù)值特征處理無縫整合到模型訓(xùn)練過程中,減少了對離線統(tǒng)計(jì)和人工分桶規(guī)則的依賴,降低了特征工程維護(hù)成本。

總結(jié)

總體而言,DAES 重新思考了數(shù)值特征在流式 CTR 預(yù)測中的表示方式:數(shù)值不只是一個(gè)標(biāo)量,更是動態(tài)分布中的一個(gè)位置,也是特定上下文中的一種語義。通過將分布估計(jì)、分位編碼和字段感知調(diào)制統(tǒng)一到 embedding 層,DAES 為在線推薦與廣告系統(tǒng)中的數(shù)值特征建模提供了一條高效、可擴(kuò)展且可落地的新路徑。

 

如果您對本文內(nèi)容感興趣,可與通訊作者聯(lián)系: zhangpeng_@fudan.edu.cn

 

實(shí)驗(yàn)室相關(guān)論文

[1] Fangye Wang, Yingxu Wang, Dongsheng Li, Hansu Gu, Tun Lu, Peng Zhang, Ning Gu. CL4CTR: A Contrastive Learning Framework for CTR Prediction. WSDM 2023.

[2] Fangye Wang, Yingxu Wang, Dongsheng Li, Hansu Gu, Tun Lu, Peng Zhang, Ning Gu. Enhancing CTR Prediction with Context-Aware Feature Representation Learning. SIGIR 2022.

[3] Fangye Wang, Hansu Gu, Dongsheng Li, Tun Lu, Peng Zhang, Ning Gu. Towards Deeper, Lighter and Interpretable Cross Network for CTR Prediction. CIKM 2023.

[4] Jiahao Liu, Dongsheng Li, Hansu Gu, Peng Zhang, Tun Lu, Li Shang, Ning Gu. Unbiased Collaborative Filtering with Fair Sampling. SIGIR 2025.

[5] Jiahao Liu, Shengkang Gu, Dongsheng Li, Guangping Zhang, Mingzhe Han, Hansu Gu, Peng Zhang, Tun Lu, Li Shang, Ning Gu. AgentCF++: Memory-enhanced LLM-based Agents for Popularity-aware Cross-domain Recommendations. SIGIR 2025.

[6] Jiahao Liu, Yiyang Shao, Peng Zhang, Dongsheng Li, Hansu Gu, Chao Chen, Longzhi Du, Tun Lu, Ning Gu. Filtering Discomforting Recommendations with Large Language Models. WWW 2025.

[7] Jiahao Liu, Xueshuo Yan, Dongsheng Li, Guangping Zhang, Hansu Gu, Peng Zhang, Tun Lu, Li Shang, Ning Gu. Improving LLM-powered Recommendations with Personalized Information. SIGIR 2025.

[8] Ziye Tong*, Jiahao Liu*, Weimin Zhang, Hongji Ruan, Derick Tang, Zhanpeng Zeng, Qinsong Zeng, Peng Zhang, Tun Lu, Ning Gu. RQ-GMM: Residual Quantized Gaussian Mixture Model for Multimodal Semantic Discretization in CTR Prediction. SIGIR 2026.

 

如果您對我們實(shí)驗(yàn)室的相關(guān)工作感興趣,歡迎訪問我們的網(wǎng)站:

協(xié)同信息與系統(tǒng)實(shí)驗(yàn)室(CISL)

實(shí)驗(yàn)室網(wǎng)站主頁:https://cscw.fudan.edu.cn/

實(shí)驗(yàn)室Github主頁:https://github.com/FudanCISL

學(xué)者網(wǎng)機(jī)構(gòu)號是學(xué)者網(wǎng)提供的學(xué)術(shù)"公眾號"平臺,為學(xué)者團(tuán)隊(duì)、學(xué)術(shù)機(jī)構(gòu)、企業(yè)等提供官方媒體賬號服務(wù),支持發(fā)布動態(tài)、活動、通知與招生招聘信息等內(nèi)容,支持多人協(xié)作維護(hù),助力機(jī)構(gòu)鏈接學(xué)界資源、擴(kuò)大學(xué)術(shù)影響力。

返回頂部
读书| 长治市| 大渡口区| 墨竹工卡县| 临城县| 张家口市| 哈尔滨市| 柏乡县| 岳阳县| 武冈市| 太湖县| 乐昌市| 常山县| 通江县| 彭泽县| 阜城县| 余干县| 林西县| 临洮县| 新野县| 和龙市| 贵德县| 古蔺县| 合山市| 阿城市| 怀集县| 乌兰浩特市| 延川县| 婺源县| 北流市| 浦东新区| 开远市| 乐安县| 安康市| 应城市| 军事| 峨眉山市| 乌海市| 民县| 遂宁市| 通州区|