麻豆精品无码av,欧美1区2区,久久中文字幕乱码人妻,亚洲欧美另类少妇精品,在线看黄射,69pao高清,九九九久久久国产精品,子操大逼1234区,九九爱99热精品

2
點贊
0
評論
0
轉(zhuǎn)載
我要入駐

KDD 2026 | PKU-DAIR 實驗室兩項成果被 KDD 2026 錄用

ACM SIGKDD Conference on Knowledge Discovery and Data Mining 是數(shù)據(jù)挖掘與知識發(fā)現(xiàn)領(lǐng)域的頂級國際會議之一。KDD 2026 將于 2026 年 8 月 9 日至 13 日在韓國濟州島舉辦。

 

CoFEH: LLM-driven Feature Engineering Empowered by Collaborative Bayesian Hyperparameter Optimization

作者:Beicheng Xu, Keyao Ding, Wei Liu, Yupeng Lu, Bin Cui

代碼鏈接:https://github.com/PKU-DAIR/cofeh

Arxiv 鏈接https://arxiv.org/pdf/2602.09851

 

問題背景與動機

一個標(biāo)準(zhǔn)的監(jiān)督學(xué)習(xí)流程可以拆成兩個相互關(guān)聯(lián)的子問題:一是對數(shù)據(jù)進(jìn)行特征工程(FE),二是對下游模型進(jìn)行超參數(shù)優(yōu)化(HPO)。

從 FE 的角度看,傳統(tǒng) AutoML 為了讓搜索可控,通常依賴有限算子庫和固定流程模板,因此難以利用領(lǐng)域語義,也難以構(gòu)建真正自由的 FE 流水線。LLM 具備語義推理和代碼生成能力,為突破這一限制提供了可能。但現(xiàn)有 LLM-based FE 方法大多仍局限于孤立子任務(wù),尤其是特征生成。因此,論文得到第一個判斷:

Conclusion #1:FE 是語義密集型任務(wù),LLM 適合承擔(dān) FE 設(shè)計。

從 超參數(shù)調(diào)優(yōu)的角度看。貝葉斯優(yōu)化(BO)長期以來都是 HPO 中最主流的方法之一。相比之下,直接用 LLM 做 HPO 往往缺乏明確的目標(biāo)代理模型和不確定性估計,也難以穩(wěn)定利用完整優(yōu)化歷史。因此,論文得到第二個判斷:

Conclusion #2:在 HPO 中,BO 仍然是更可靠的核心優(yōu)化器。

這兩個判斷放在一起,就形成了本文最核心的矛盾:LLM 更適合做 FE,BO 更適合做 HPO,但真正的 AutoML 目標(biāo)并不是分別把二者做好,而是聯(lián)合優(yōu)化一條完整機器學(xué)習(xí)流水線?,F(xiàn)有方法通常有兩類選擇。傳統(tǒng) AutoML 可以把 FE 和 HPO 放進(jìn)同一個同質(zhì)搜索空間中聯(lián)合優(yōu)化,但代價是 FE 空間被大幅限制。LLM-based FE 方法則常常采用異質(zhì)優(yōu)化器:LLM 負(fù)責(zé) FE,BO 負(fù)責(zé) HPO。但由于二者表示空間不同,實際流程往往退化成“先固定模型做 FE,再凍結(jié)特征做 HPO”的順序優(yōu)化。

圖 1. 現(xiàn)有方法與 CoFEH 的優(yōu)化流程對比

圖 1. 現(xiàn)有方法與 CoFEH 的優(yōu)化流程對比

 

因此,論文得到第三個判斷:

Conclusion #3:有效的 AutoML 需要協(xié)同優(yōu)化 LLM-based FE 和 BO-based HPO。

 

CoFEH 框架

為了解決上述問題,我們提出 CoFEH,一個面向端到端 AutoML 的協(xié)同優(yōu)化框架。CoFEH 的目標(biāo)不是單獨優(yōu)化 FE 或 HPO,而是在整個搜索過程中交替探索“特征工程流水線”和“模型超參數(shù)配置”的組合。

1. LLM 如何構(gòu)建自由形式的特征工程流水線

圖 2. CoFEH 的 LLM-based FE 工作流

圖 2. CoFEH 的 LLM-based FE 工作流

CoFEH 將 FE 流水線構(gòu)建視為一個序列決策問題。初始數(shù)據(jù)集是根節(jié)點,每執(zhí)行一個特征操作,就會得到一個新的數(shù)據(jù)狀態(tài)。整個 FE 搜索過程就變成了在樹結(jié)構(gòu)中尋找最優(yōu)操作序列。具體而言,CoFEH 使用 MCTS 實現(xiàn) Tree of Thought 搜索。

 

2. FE 與 HPO 如何協(xié)同

FE 和 HPO 本質(zhì)上是相互依賴的。一個特征工程流水線的價值,需要在合適的模型超參數(shù)下才能被準(zhǔn)確評估;反過來,超參數(shù)優(yōu)化也依賴當(dāng)前特征表示是否足夠有效。CoFEH 通過雙向條件化機制打通二者。

一方面,BO-based HPO 會被 FE 狀態(tài)條件化。CoFEH 使用 meta-features 表征當(dāng)前數(shù)據(jù)狀態(tài),并將其與超參數(shù)配置拼接起來作為 BO 代理模型的輸入。這樣,BO 不再只回答“哪個超參數(shù)更好”,而是回答“哪個數(shù)據(jù)狀態(tài)和哪個超參數(shù)組合更好”。

另一方面,LLM-based FE 也會被 HPO 結(jié)果條件化。HPO 在某個數(shù)據(jù)狀態(tài)上發(fā)現(xiàn)更好的模型配置后,會更新該節(jié)點及其祖先節(jié)點的性能上界,引導(dǎo) MCTS 未來優(yōu)先探索與強配置更協(xié)同的 FE 分支。

 

3. 動態(tài)分配 FE 與 HPO 預(yù)算

不同任務(wù)對 FE 和 HPO 的敏感性不同。有些數(shù)據(jù)集的瓶頸在特征表達(dá),另一些數(shù)據(jù)集則更依賴模型配置。因此,CoFEH 將“下一步做 FE 還是 HPO”建模為一個多臂***問題,并使用 PUCB 策略動態(tài)調(diào)度。

 

實驗結(jié)果

我們在 28 個公開數(shù)據(jù)集上評估 CoFEH,其中包括 19 個分類任務(wù)和 9 個回歸任務(wù)。對比方法覆蓋傳統(tǒng)自動化 FE 方法和 LLM-based FE 方法,包括 OpenFE、MindWare、OCTree、ELLM-FT 和 LFG。主要實驗結(jié)論如下:

   1)只搜索 FE,使用默認(rèn)下游模型超參數(shù),CoFEH 獲得最優(yōu)平均排名 1.82,顯著優(yōu)于第二名 LFG 的 3.11。

   2) 在統(tǒng)一預(yù)算下同時優(yōu)化 FE 和 HPO,CoFEH 繼續(xù)保持最優(yōu),平均排名達(dá)到 1.75。

   3) CoFEH 從 Standalone FE 到 Joint FE+HPO 的平均改進(jìn)為 7.03%,高于所有基線。

   4) 在 CASH 和 MLP 兩類下游模型設(shè)置中,CoFEH 也保持穩(wěn)定優(yōu)勢,說明方法不依賴某個特定模型。

 

案例分析:從算子堆砌到語義特征工程

在 airfoil_self_noise 數(shù)據(jù)集上,CoFEH 展示了與傳統(tǒng)方法和已有 LLM-based FE 方法明顯不同的行為。該任務(wù)來自翼型風(fēng)洞實驗,目標(biāo)是預(yù)測不同實驗條件下的縮放自噪聲。

圖 3. CoFEH 與基線方法在 airfoil_self_noise 上發(fā)現(xiàn)的最優(yōu) FE 流水線

圖3. CoFEH方法與baselines方法搜索出的最優(yōu)FE pipeline對比

CoFEH 生成的流水線具有清晰的領(lǐng)域語義:它先對高跨度數(shù)值特征進(jìn)行穩(wěn)定化處理,再基于空氣動力學(xué)知識構(gòu)造類似 Strouhal 數(shù)的特征 \(St = f \cdot c / U\),并結(jié)合攻角生成幾何特征和交互項;隨后繼續(xù)進(jìn)行分布變換、標(biāo)準(zhǔn)化和特征選擇,最終得到緊湊且有效的特征表示。

我們發(fā)現(xiàn),CoFEH 的流水線同時覆蓋了特征變換、生成、預(yù)處理和特征選擇。相比之下,OCTree、ELLM-FT、LFG 等 LLM-based 方法通常主要停留在特征生成,最多再配合簡單選擇,難以形成完整流水線;MindWare 等傳統(tǒng)方法雖然包含預(yù)處理和變換等操作,但缺乏面向任務(wù)語義的特征構(gòu)造能力。這個案例說明,CoFEH能夠組織一條兼具領(lǐng)域語義和工程完整性的FE流水線。

 

總結(jié)

本文提出 CoFEH,將 LLM-based FE 與 BO-based HPO 協(xié)同起來,實現(xiàn)端到端 AutoML 優(yōu)化。CoFEH 通過 Tree of Thought/MCTS 構(gòu)建自由形式 FE 流水線,通過 mutual conditioning 打通 FE 與 HPO 的信息交互,并通過 dynamic optimizer selector 自適應(yīng)分配搜索預(yù)算。實驗表明,CoFEH 在 standalone FE 和 joint FE+HPO 兩種設(shè)置下均優(yōu)于傳統(tǒng) AutoML 與 LLM-based FE 基線,展示了 LLM 語義探索能力與 BO 數(shù)值優(yōu)化能力結(jié)合的潛力。

 

ProfiliTable: Profiling-Driven Tabular Data Processing via Agentic Workflows

作者: Wei Liu, Yang Gu, Xi Yan, Zihan Nan, Beicheng Xu, Keyao Ding, Bin Cui, Wentao Zhang

論文鏈接:https://arxiv.org/abs/2605.12376

 

背景與挑戰(zhàn)

在數(shù)據(jù)科學(xué) pipeline 中,表格處理(清洗、轉(zhuǎn)換、增強、匹配)是基礎(chǔ)但極易出錯的環(huán)節(jié)。雖然大語言模型(LLM)展現(xiàn)了自動化潛力,但在面對模糊指令和復(fù)雜任務(wù)結(jié)構(gòu)時,現(xiàn)有方法往往因缺乏對數(shù)據(jù)的結(jié)構(gòu)化理解,導(dǎo)致生成的代碼語法正確但語義錯誤。例如,面對“標(biāo)準(zhǔn)化貨幣列”這樣的指令,現(xiàn)有工具要么無法識別具體數(shù)值格式,要么因全量掃描所有列而導(dǎo)致效率低下且充滿噪聲。核心痛點在于:靜態(tài)、規(guī)則驅(qū)動的概要信息無法自適應(yīng)地探索數(shù)據(jù),難以在精度與效率間取得平衡

圖1:概要揭示了模糊的指令暗含的信息,智能體主動采樣貨幣列的具體取值,以實現(xiàn)準(zhǔn)確的ISO4217映射

 

方法

針對上述問題,我們提出了 ProfiliTable,首個以“動態(tài)概要(Dynamic Profiling)”為核心的自主多代理框架。它不再將概要視為被動的元數(shù)據(jù)讀取,而是通過交互式探索、知識增強合成和反饋驅(qū)動優(yōu)化,構(gòu)建并迭代優(yōu)化統(tǒng)一的執(zhí)行上下文。

ProfiliTable 包含三個協(xié)同機制:

  1. 交互式探索: Profiler通過 ReAct 循環(huán)主動探索數(shù)據(jù),僅探索必要信息以消除歧義,避免冗余計算。
  2. 知識增強合成: Generator利用 RAG 從算子庫中檢索預(yù)驗證的算子模板,確保生成代碼的領(lǐng)域特異性與可靠性。
  3. 反饋驅(qū)動優(yōu)化: Evaluator-Summarizer聯(lián)合模塊提供執(zhí)行評分與診斷洞察,指導(dǎo) Profiler 和 Generator 進(jìn)行迭代修正,實現(xiàn)從意圖到驗證的連貫推理。

其架構(gòu)如圖2所示,形成了一個自我改進(jìn)的閉環(huán)流水線。

圖2:ProfiliTable 的工作流:一個以動態(tài)概要為中心的自優(yōu)化、閉環(huán)管道

 

實驗

我們在涵蓋 18 種表格處理任務(wù)類型的綜合基準(zhǔn)上進(jìn)行了評估。實驗表明,ProfiliTable 在單步和多步任務(wù)中均取得了 SOTA 性能。它的可運行率(CRR、TRR)是最高的,確保了生產(chǎn)部署所需的魯棒性。同時,它在保持高精度的同時,token 消耗處于 Pareto 最優(yōu)前沿,證明了框架在兼顧準(zhǔn)確性與成本效率方面的巨大優(yōu)勢。

表1. 單步任務(wù)上ProfiliTable與基線方法效果對比

 

 

總結(jié)

我們提出了 ProfiliTable,這是一個基于動態(tài)概要的自主表格處理多智能體框架。實驗表明,該方法在 GPT-4o 和 GPT-5.2 上均大幅超越基線,且是唯一在多步任務(wù)中實現(xiàn) 100% 任務(wù)級可運行率的方法,確保了代碼部署的魯棒性。此外,ProfiliTable 在準(zhǔn)確率與成本之間達(dá)到了帕累托最優(yōu),證明了動態(tài)概要能同時實現(xiàn)高收益與低成本。這項工作確立了一種新范式——概要驅(qū)動的智能體,即通過迭代、交互和容錯機制,將表格視為動態(tài)且語義豐富的對象進(jìn)行處理。

 

實驗室簡介

北京大學(xué)數(shù)據(jù)與智能實驗室(Data And Intelligence Research Lab at Peking Univeristy,PKU-DAIR實驗室)由北京大學(xué)計算機學(xué)院崔斌教授領(lǐng)導(dǎo),長期從事數(shù)據(jù)庫系統(tǒng)、大數(shù)據(jù)管理與分析、人工智能等領(lǐng)域的前沿研究,在理論和技術(shù)創(chuàng)新以及系統(tǒng)研發(fā)上取得多項成果,已在國際頂級學(xué)術(shù)會議和期刊發(fā)表學(xué)術(shù)論文200余篇,發(fā)布多個開源項目。課題組同學(xué)曾數(shù)十次獲得包括CCF優(yōu)博、ACM中國優(yōu)博、北大優(yōu)博、微軟學(xué)者、蘋果獎學(xué)金、谷歌獎學(xué)金等榮譽。PKU-DAIR實驗室持續(xù)與工業(yè)界展開卓有成效的合作,與騰訊、阿里巴巴、蘋果、微軟、百度、快手、中興通訊等多家知名企業(yè)開展項目合作和前沿探索,解決實際問題,進(jìn)行科研成果的轉(zhuǎn)化落地。

學(xué)者網(wǎng)機構(gòu)號是學(xué)者網(wǎng)提供的學(xué)術(shù)"公眾號"平臺,為學(xué)者團隊、學(xué)術(shù)機構(gòu)、企業(yè)等提供官方媒體賬號服務(wù),支持發(fā)布動態(tài)、活動、通知與招生招聘信息等內(nèi)容,支持多人協(xié)作維護,助力機構(gòu)鏈接學(xué)界資源、擴大學(xué)術(shù)影響力。

北京大學(xué)數(shù)據(jù)與智能實驗室,PKU-DAIR,Peking University Data And Intelligence Research Lab,負(fù)責(zé)人為北京大學(xué)計算機學(xué)院崔斌教授。
返回頂部
常州市| 濮阳县| 绥棱县| 天门市| 衡阳市| 永新县| 黄山市| 萝北县| 手游| 会宁县| 潼关县| 芦溪县| 张北县| 刚察县| 潼南县| 广灵县| 德格县| 沧州市| 香格里拉县| 枣阳市| 古交市| 普定县| 玉田县| 渝北区| 西畴县| 西吉县| 安义县| 陆丰市| 南开区| 安阳县| 新宁县| 筠连县| 青神县| 红桥区| 静海县| 贵溪市| 定南县| 青冈县| 上高县| 西安市| 耿马|