ACM SIGKDD Conference on Knowledge Discovery and Data Mining 是數(shù)據(jù)挖掘與知識發(fā)現(xiàn)領(lǐng)域的頂級國際會議之一。KDD 2026 將于 2026 年 8 月 9 日至 13 日在韓國濟州島舉辦。

CoFEH: LLM-driven Feature Engineering Empowered by Collaborative Bayesian Hyperparameter Optimization

作者：Beicheng Xu, Keyao Ding, Wei Liu, Yupeng Lu, Bin Cui

代碼鏈接：https://github.com/PKU-DAIR/cofeh

Arxiv 鏈接：https://arxiv.org/pdf/2602.09851

問題背景與動機

一個標(biāo)準(zhǔn)的監(jiān)督學(xué)習(xí)流程可以拆成兩個相互關(guān)聯(lián)的子問題：一是對數(shù)據(jù)進(jìn)行特征工程（FE），二是對下游模型進(jìn)行超參數(shù)優(yōu)化（HPO）。

從 FE 的角度看，傳統(tǒng) AutoML 為了讓搜索可控，通常依賴有限算子庫和固定流程模板，因此難以利用領(lǐng)域語義，也難以構(gòu)建真正自由的 FE 流水線。LLM 具備語義推理和代碼生成能力，為突破這一限制提供了可能。但現(xiàn)有 LLM-based FE 方法大多仍局限于孤立子任務(wù)，尤其是特征生成。因此，論文得到第一個判斷：

Conclusion #1：FE 是語義密集型任務(wù)，LLM 適合承擔(dān) FE 設(shè)計。

從超參數(shù)調(diào)優(yōu)的角度看。貝葉斯優(yōu)化（BO）長期以來都是 HPO 中最主流的方法之一。相比之下，直接用 LLM 做 HPO 往往缺乏明確的目標(biāo)代理模型和不確定性估計，也難以穩(wěn)定利用完整優(yōu)化歷史。因此，論文得到第二個判斷：

Conclusion #2：在 HPO 中，BO 仍然是更可靠的核心優(yōu)化器。

這兩個判斷放在一起，就形成了本文最核心的矛盾：LLM 更適合做 FE，BO 更適合做 HPO，但真正的 AutoML 目標(biāo)并不是分別把二者做好，而是聯(lián)合優(yōu)化一條完整機器學(xué)習(xí)流水線?，F(xiàn)有方法通常有兩類選擇。傳統(tǒng) AutoML 可以把 FE 和 HPO 放進(jìn)同一個同質(zhì)搜索空間中聯(lián)合優(yōu)化，但代價是 FE 空間被大幅限制。LLM-based FE 方法則常常采用異質(zhì)優(yōu)化器：LLM 負(fù)責(zé) FE，BO 負(fù)責(zé) HPO。但由于二者表示空間不同，實際流程往往退化成“先固定模型做 FE，再凍結(jié)特征做 HPO”的順序優(yōu)化。

圖 1. 現(xiàn)有方法與 CoFEH 的優(yōu)化流程對比

因此，論文得到第三個判斷：

Conclusion #3：有效的 AutoML 需要協(xié)同優(yōu)化 LLM-based FE 和 BO-based HPO。

CoFEH 框架

為了解決上述問題，我們提出 CoFEH，一個面向端到端 AutoML 的協(xié)同優(yōu)化框架。CoFEH 的目標(biāo)不是單獨優(yōu)化 FE 或 HPO，而是在整個搜索過程中交替探索“特征工程流水線”和“模型超參數(shù)配置”的組合。

1. LLM 如何構(gòu)建自由形式的特征工程流水線

圖 2. CoFEH 的 LLM-based FE 工作流

CoFEH 將 FE 流水線構(gòu)建視為一個序列決策問題。初始數(shù)據(jù)集是根節(jié)點，每執(zhí)行一個特征操作，就會得到一個新的數(shù)據(jù)狀態(tài)。整個 FE 搜索過程就變成了在樹結(jié)構(gòu)中尋找最優(yōu)操作序列。具體而言，CoFEH 使用 MCTS 實現(xiàn) Tree of Thought 搜索。

2. FE 與 HPO 如何協(xié)同

FE 和 HPO 本質(zhì)上是相互依賴的。一個特征工程流水線的價值，需要在合適的模型超參數(shù)下才能被準(zhǔn)確評估；反過來，超參數(shù)優(yōu)化也依賴當(dāng)前特征表示是否足夠有效。CoFEH 通過雙向條件化機制打通二者。

一方面，BO-based HPO 會被 FE 狀態(tài)條件化。CoFEH 使用 meta-features 表征當(dāng)前數(shù)據(jù)狀態(tài)，并將其與超參數(shù)配置拼接起來作為 BO 代理模型的輸入。這樣，BO 不再只回答“哪個超參數(shù)更好”，而是回答“哪個數(shù)據(jù)狀態(tài)和哪個超參數(shù)組合更好”。

另一方面，LLM-based FE 也會被 HPO 結(jié)果條件化。HPO 在某個數(shù)據(jù)狀態(tài)上發(fā)現(xiàn)更好的模型配置后，會更新該節(jié)點及其祖先節(jié)點的性能上界，引導(dǎo) MCTS 未來優(yōu)先探索與強配置更協(xié)同的 FE 分支。

3. 動態(tài)分配 FE 與 HPO 預(yù)算

不同任務(wù)對 FE 和 HPO 的敏感性不同。有些數(shù)據(jù)集的瓶頸在特征表達(dá)，另一些數(shù)據(jù)集則更依賴模型配置。因此，CoFEH 將“下一步做 FE 還是 HPO”建模為一個多臂***問題，并使用 PUCB 策略動態(tài)調(diào)度。

實驗結(jié)果

我們在 28 個公開數(shù)據(jù)集上評估 CoFEH，其中包括 19 個分類任務(wù)和 9 個回歸任務(wù)。對比方法覆蓋傳統(tǒng)自動化 FE 方法和 LLM-based FE 方法，包括 OpenFE、MindWare、OCTree、ELLM-FT 和 LFG。主要實驗結(jié)論如下：

1）只搜索 FE，使用默認(rèn)下游模型超參數(shù)，CoFEH 獲得最優(yōu)平均排名 1.82，顯著優(yōu)于第二名 LFG 的 3.11。

2）在統(tǒng)一預(yù)算下同時優(yōu)化 FE 和 HPO，CoFEH 繼續(xù)保持最優(yōu)，平均排名達(dá)到 1.75。

3） CoFEH 從 Standalone FE 到 Joint FE+HPO 的平均改進(jìn)為 7.03%，高于所有基線。

4）在 CASH 和 MLP 兩類下游模型設(shè)置中，CoFEH 也保持穩(wěn)定優(yōu)勢，說明方法不依賴某個特定模型。

案例分析：從算子堆砌到語義特征工程

在 airfoil_self_noise 數(shù)據(jù)集上，CoFEH 展示了與傳統(tǒng)方法和已有 LLM-based FE 方法明顯不同的行為。該任務(wù)來自翼型風(fēng)洞實驗，目標(biāo)是預(yù)測不同實驗條件下的縮放自噪聲。

圖 3. CoFEH 與基線方法在 airfoil_self_noise 上發(fā)現(xiàn)的最優(yōu) FE 流水線

圖3. CoFEH方法與baselines方法搜索出的最優(yōu)FE pipeline對比

CoFEH 生成的流水線具有清晰的領(lǐng)域語義：它先對高跨度數(shù)值特征進(jìn)行穩(wěn)定化處理，再基于空氣動力學(xué)知識構(gòu)造類似 Strouhal 數(shù)的特征 \(St = f \cdot c / U\)，并結(jié)合攻角生成幾何特征和交互項；隨后繼續(xù)進(jìn)行分布變換、標(biāo)準(zhǔn)化和特征選擇，最終得到緊湊且有效的特征表示。

我們發(fā)現(xiàn)，CoFEH 的流水線同時覆蓋了特征變換、生成、預(yù)處理和特征選擇。相比之下，OCTree、ELLM-FT、LFG 等 LLM-based 方法通常主要停留在特征生成，最多再配合簡單選擇，難以形成完整流水線；MindWare 等傳統(tǒng)方法雖然包含預(yù)處理和變換等操作，但缺乏面向任務(wù)語義的特征構(gòu)造能力。這個案例說明，CoFEH能夠組織一條兼具領(lǐng)域語義和工程完整性的FE流水線。

總結(jié)

本文提出 CoFEH，將 LLM-based FE 與 BO-based HPO 協(xié)同起來，實現(xiàn)端到端 AutoML 優(yōu)化。CoFEH 通過 Tree of Thought/MCTS 構(gòu)建自由形式 FE 流水線，通過 mutual conditioning 打通 FE 與 HPO 的信息交互，并通過 dynamic optimizer selector 自適應(yīng)分配搜索預(yù)算。實驗表明，CoFEH 在 standalone FE 和 joint FE+HPO 兩種設(shè)置下均優(yōu)于傳統(tǒng) AutoML 與 LLM-based FE 基線，展示了 LLM 語義探索能力與 BO 數(shù)值優(yōu)化能力結(jié)合的潛力。

ProfiliTable: Profiling-Driven Tabular Data Processing via Agentic Workflows

作者： Wei Liu, Yang Gu, Xi Yan, Zihan Nan, Beicheng Xu, Keyao Ding, Bin Cui, Wentao Zhang

論文鏈接：https://arxiv.org/abs/2605.12376

背景與挑戰(zhàn)

在數(shù)據(jù)科學(xué) pipeline 中，表格處理（清洗、轉(zhuǎn)換、增強、匹配）是基礎(chǔ)但極易出錯的環(huán)節(jié)。雖然大語言模型（LLM）展現(xiàn)了自動化潛力，但在面對模糊指令和復(fù)雜任務(wù)結(jié)構(gòu)時，現(xiàn)有方法往往因缺乏對數(shù)據(jù)的結(jié)構(gòu)化理解，導(dǎo)致生成的代碼語法正確但語義錯誤。例如，面對“標(biāo)準(zhǔn)化貨幣列”這樣的指令，現(xiàn)有工具要么無法識別具體數(shù)值格式，要么因全量掃描所有列而導(dǎo)致效率低下且充滿噪聲。核心痛點在于：靜態(tài)、規(guī)則驅(qū)動的概要信息無法自適應(yīng)地探索數(shù)據(jù)，難以在精度與效率間取得平衡

圖1：概要揭示了模糊的指令暗含的信息，智能體主動采樣貨幣列的具體取值，以實現(xiàn)準(zhǔn)確的ISO4217映射。

方法

針對上述問題，我們提出了 ProfiliTable，首個以“動態(tài)概要（Dynamic Profiling）”為核心的自主多代理框架。它不再將概要視為被動的元數(shù)據(jù)讀取，而是通過交互式探索、知識增強合成和反饋驅(qū)動優(yōu)化，構(gòu)建并迭代優(yōu)化統(tǒng)一的執(zhí)行上下文。

ProfiliTable 包含三個協(xié)同機制：

交互式探索： Profiler通過 ReAct 循環(huán)主動探索數(shù)據(jù)，僅探索必要信息以消除歧義，避免冗余計算。
知識增強合成： Generator利用 RAG 從算子庫中檢索預(yù)驗證的算子模板，確保生成代碼的領(lǐng)域特異性與可靠性。
反饋驅(qū)動優(yōu)化： Evaluator-Summarizer聯(lián)合模塊提供執(zhí)行評分與診斷洞察，指導(dǎo) Profiler 和 Generator 進(jìn)行迭代修正，實現(xiàn)從意圖到驗證的連貫推理。

其架構(gòu)如圖2所示，形成了一個自我改進(jìn)的閉環(huán)流水線。

圖2：ProfiliTable 的工作流：一個以動態(tài)概要為中心的自優(yōu)化、閉環(huán)管道

實驗

我們在涵蓋 18 種表格處理任務(wù)類型的綜合基準(zhǔn)上進(jìn)行了評估。實驗表明，ProfiliTable 在單步和多步任務(wù)中均取得了 SOTA 性能。它的可運行率（CRR、TRR）是最高的，確保了生產(chǎn)部署所需的魯棒性。同時，它在保持高精度的同時，token 消耗處于 Pareto 最優(yōu)前沿，證明了框架在兼顧準(zhǔn)確性與成本效率方面的巨大優(yōu)勢。

表1. 單步任務(wù)上ProfiliTable與基線方法效果對比

總結(jié)

我們提出了 ProfiliTable，這是一個基于動態(tài)概要的自主表格處理多智能體框架。實驗表明，該方法在 GPT-4o 和 GPT-5.2 上均大幅超越基線，且是唯一在多步任務(wù)中實現(xiàn) 100% 任務(wù)級可運行率的方法，確保了代碼部署的魯棒性。此外，ProfiliTable 在準(zhǔn)確率與成本之間達(dá)到了帕累托最優(yōu)，證明了動態(tài)概要能同時實現(xiàn)高收益與低成本。這項工作確立了一種新范式——概要驅(qū)動的智能體，即通過迭代、交互和容錯機制，將表格視為動態(tài)且語義豐富的對象進(jìn)行處理。

實驗室簡介

北京大學(xué)數(shù)據(jù)與智能實驗室（Data And Intelligence Research Lab at Peking Univeristy，PKU-DAIR實驗室）由北京大學(xué)計算機學(xué)院崔斌教授領(lǐng)導(dǎo)，長期從事數(shù)據(jù)庫系統(tǒng)、大數(shù)據(jù)管理與分析、人工智能等領(lǐng)域的前沿研究，在理論和技術(shù)創(chuàng)新以及系統(tǒng)研發(fā)上取得多項成果，已在國際頂級學(xué)術(shù)會議和期刊發(fā)表學(xué)術(shù)論文200余篇，發(fā)布多個開源項目。課題組同學(xué)曾數(shù)十次獲得包括CCF優(yōu)博、ACM中國優(yōu)博、北大優(yōu)博、微軟學(xué)者、蘋果獎學(xué)金、谷歌獎學(xué)金等榮譽。PKU-DAIR實驗室持續(xù)與工業(yè)界展開卓有成效的合作，與騰訊、阿里巴巴、蘋果、微軟、百度、快手、中興通訊等多家知名企業(yè)開展項目合作和前沿探索，解決實際問題，進(jìn)行科研成果的轉(zhuǎn)化落地。

麻豆精品无码av,欧美1区2区,久久中文字幕乱码人妻,亚洲欧美另类少妇精品,在线看黄射,69pao高清,九九九久久久国产精品,子操大逼1234区,九九爱99热精品

KDD 2026 | PKU-DAIR 實驗室兩項成果被 KDD 2026 錄用

實驗室簡介

評論 0

近期熱門新聞

下一篇