VLDB(International Conference on Very Large Data Bases)是數(shù)據(jù)庫與數(shù)據(jù)管理領(lǐng)域最頂級、歷史最悠久的國際學(xué)術(shù)會議之一。作為探討數(shù)據(jù)管理、可擴展數(shù)據(jù)科學(xué)、以及數(shù)據(jù)庫系統(tǒng)最新研究成果的全球首要論壇,該會議每年都會匯聚全球頂尖的學(xué)術(shù)界研究人員、工業(yè)界從業(yè)者、系統(tǒng)開發(fā)者以及供應(yīng)商,共同探討數(shù)據(jù)科學(xué)領(lǐng)域的前沿創(chuàng)新與挑戰(zhàn)。VLDB 2026將在2026年8月31日-2026年9月4日在美國波士頓舉辦。
QA-GraphRAG: Query-Adaptive Plug-and-Play Retrieval Integration for Graph-based Retrieval-Augmented Generation
作 者:Zeang Sheng, Ruihong Sun, Jiahao Xu, Hanmei Luo, Peng Chen, Wentao Zhang, Bin Cui
Github鏈接:https://github.com/PKU-DAIR/Query-Adaptive-GraphRAG
一、 問題背景與動機
大型語言模型(LLMs)展現(xiàn)出了卓越的能力,但它們經(jīng)常遭受幻覺困擾,且缺乏最新的知識。檢索增強生成(RAG)通過將LLM與外部知識庫結(jié)合,有效緩解了這些局限性。傳統(tǒng)的基于向量的RAG在處理簡單查詢時非常有效,但在處理需要多跳推理的復(fù)雜查詢時卻顯得力不從心。為了解決這一問題,圖檢索增強生成(Graph-based RAG)框架應(yīng)運而生,它通過構(gòu)建能夠捕捉全局關(guān)系并支持多跳推理的知識圖譜來提升問答能力。
然而,現(xiàn)有的基于圖的RAG方法在處理簡單的基于事實的查詢時,由于可能會丟失詳細(xì)的實體信息,其表現(xiàn)經(jīng)常不如基于向量的框架。近期的一些雙分支圖RAG框架試圖通過同時檢索局部和全局知識來解決這個問題。但對所有查詢都不加區(qū)分地從兩個分支進行檢索,會為許多簡單查詢引入不必要的計算成本和冗余信息。針對這一痛點,如何讓圖RAG框架自動識別查詢特性并動態(tài)調(diào)整檢索策略,成為了進一步提升系統(tǒng)性能與效率的核心問題。

圖 1 一個典型的圖RAG層次化知識庫結(jié)構(gòu)
數(shù)據(jù)與框架層面的實證分析
為了深入揭示現(xiàn)有框架的性能瓶頸,我們從數(shù)據(jù)集和檢索框架兩個層面對基于圖的RAG進行了系統(tǒng)性的實證分析。
1. 數(shù)據(jù)集層面分析(Inter- & Within-dataset Analysis)
我們首先利用大語言模型作為分類器,將現(xiàn)有問答基準(zhǔn)數(shù)據(jù)集中的查詢劃分為“局部(Local)”和“全局(Global)”兩類。其中,“局部”查詢僅需要簡單的事實相關(guān)知識,無需多跳或綜合分析能力;而“全局”查詢則需要更高層級的總結(jié)性知識,通常依賴多跳推理或全局合成能力。分析結(jié)果顯示:

圖 2 “局部”和“全局”查詢在不同數(shù)據(jù)集中的比例
1)查詢分布的顯著差異:傳統(tǒng)的KGQA數(shù)據(jù)集(如MuSiQue、2WikiMQA、HotpotQA)主要由“局部”查詢主導(dǎo)(例如在2WikiMQA中,局部查詢占比高達82%)。相比之下,專門針對圖RAG的基準(zhǔn)測試 GraphRAG-Bench 在不同任務(wù)中表現(xiàn)出多樣化的趨勢,其中多選(MC)和填空(FB)任務(wù)幾乎全是局部查詢,而開篇問答(OE)和多選(MS)任務(wù)中全局查詢的比例顯著更高。
2)查詢屬性的量化表征:我們提出了兩個量化指標(biāo)來探索兩類查詢的內(nèi)在屬性——問答語義相似度和具體度(Specificity,衡量問題中命名實體或大寫詞元的比例)。實驗表明,兩類查詢在語義相似度上沒有實質(zhì)性區(qū)別;但在具體度上,“局部”查詢顯著高于“全局”查詢。這表明局部查詢往往涉及更具體的命名實體,需要更加精準(zhǔn)、細(xì)粒度的粒度知識來解決。
2. 框架層面分析(Framework-level Analysis)
接著,我們對比了不同檢索框架在兩類查詢上的表現(xiàn):
表 1 傳統(tǒng)KGQA數(shù)據(jù)集上圖RAG和傳統(tǒng)向量RAG的對比

1)圖RAG vs. 傳統(tǒng)向量RAG:在“局部”查詢主導(dǎo)的傳統(tǒng)KGQA數(shù)據(jù)集上,簡單的向量檢索方法(如TF-IDF和BM25)在部分場景下甚至可以擊敗復(fù)雜的圖RAG框架(如GraphRAG和RAPTOR)。這表明在面對簡單事實查詢時,圖RAG復(fù)雜的全局檢索機制不僅沒有帶來優(yōu)勢,反而可能引入了冗余噪聲。
表 2 GraphRAG-Bench上的對比結(jié)果

2)雙分支 vs. 單分支圖RAG:我們將最新的雙分支框架(TREX)與其退化的單分支變體進行了對比。結(jié)果發(fā)現(xiàn),僅保留局部檢索分支的變體(TREX-local)在局部查詢主導(dǎo)的任務(wù)上超越了完整的雙分支模型。同時,由于雙分支模型需要同時在兩個分支進行檢索,其每條查詢的響應(yīng)時間顯著增加。
3. 實證分析總結(jié):
上述分析表明,傳統(tǒng)向量檢索(或圖RAG的底層原始文本塊層級)更擅長處理“局部”查詢,而多層級圖檢索則更擅長處理“全局”查詢。如果一個圖RAG框架能夠根據(jù)查詢的內(nèi)在屬性自適應(yīng)地調(diào)整其檢索策略,就能同時在“局部”和“全局”查詢上取得最優(yōu)的性能與效率平衡。
二、QA-GraphRAG框架詳解

圖 3. QA-GraphRAG的工作流程示意圖
基于上述核心發(fā)現(xiàn),我們提出了QA-GraphRAG:一個為基于圖的RAG框架設(shè)計的全新查詢自適應(yīng)即插即用檢索集成模塊。QA-GraphRAG能夠兼容大多數(shù)以層級方式構(gòu)建知識庫并檢索文本塊的現(xiàn)有圖RAG框架。QA-GraphRAG的核心是一個靈活的路由器(Router)模塊,它可以根據(jù)輸入查詢的特征,自適應(yīng)地預(yù)測并選擇最佳的起始知識檢索層級。該框架的部署分為兩個階段:離線預(yù)訓(xùn)練和在線推理。
1. 離線預(yù)訓(xùn)練:
為了在預(yù)測準(zhǔn)確率和在線推理延遲之間取得最佳平衡,我們借鑒了自動機器學(xué)習(xí)中門控機制的設(shè)計直覺,采用一個輕量級的三層MLP(多層感知機)作為路由器的骨干模型 。我們實現(xiàn)了兩種不同性能與成本權(quán)衡的路由器部署策略:
1) 跨領(lǐng)域預(yù)訓(xùn)練(Generalist router/通用路由器):在包含HotpotQA、NQ和TriviaQA的6,000個多樣化樣本上進行預(yù)訓(xùn)練。通過將不同層級檢索生成的答案準(zhǔn)確率得分轉(zhuǎn)換為 preference score 向量,并利用 Gumbel-Softmax 函數(shù)模擬硬選擇操作進行訓(xùn)練。該策略使路由器具備了強大的跨領(lǐng)域泛化能力,且無需目標(biāo)領(lǐng)域的標(biāo)注數(shù)據(jù)。
2) 冷啟動適應(yīng)(Specialist router/專家路由器):當(dāng)目標(biāo)領(lǐng)域有少量小樣本查詢(如200個樣本)可用時,在通用路由器的基礎(chǔ)上進行微調(diào),從而定制出更適配目標(biāo)數(shù)據(jù)集特征的專用路由器。
2. 在線推理:
在線推理時,QA-GraphRAG通過以下四個連續(xù)步驟高效處理查詢:
1) 輸入處理:編碼模型將輸入的文本查詢轉(zhuǎn)換為語義豐富的嵌入向量。
2) 自適應(yīng)路由:預(yù)訓(xùn)練的MLP路由器基于查詢嵌入,瞬時預(yù)測出當(dāng)前查詢最合適的檢索起始知識層級(由于MLP計算極快,引入的時間開銷微乎其微)。
3) 信息檢索:檢索器接收路由器的層級決策,從知識圖譜對應(yīng)的層級開始向下遍歷并檢索相關(guān)文本塊,從而避免了不必要的頂層抽象匯總或底層冗余搜索。
4) 答案生成:生成器(LLM)整合查詢與精準(zhǔn)檢索到的上下文,生成最終的高質(zhì)量答案。
三、實驗結(jié)果
我們在常規(guī)的知識圖譜問答(KGQA)數(shù)據(jù)集和專門針對圖RAG的GraphRAG-Bench基準(zhǔn)測試上進行了廣泛的實驗,并選擇Qwen2.5-7B-Instruct作為默認(rèn)的骨干LLM。實驗評估了將QA-GraphRAG集成到現(xiàn)有五種主流圖RAG框架(GraphRAG、RAPTOR、LightRAG、TREX、HiRAG)中的表現(xiàn)。
表 3 整體性能實驗對比結(jié)果

1. 整體性能顯著提升:
評估結(jié)果表明,所有集成了QA-GraphRAG的變體(帶有“-QA”后綴)在其對應(yīng)的原始變體基礎(chǔ)上均取得了顯著的性能提升。例如,在MuSiQue數(shù)據(jù)集上,原始的GraphRAG由于檢索策略固定表現(xiàn)欠佳,甚至被傳統(tǒng)的BM25超越;但在集成QA-GraphRAG后,GraphRAG-QA不僅大幅超越了原始版本,還成功超越了傳統(tǒng)檢索方法。
表 4 不同路由骨干模型、算法的實驗對比

2. 路由骨干模型與基線的高效性對比:
我們將QA-GraphRAG(使用MLP作為路由)與使用LLM(Qwen2.5-3B-Instruct)作為路由以及最新的自適應(yīng)檢索方法(Self-RAG、SeaKR)進行了對比分析。
1) 對比LLM路由:實驗發(fā)現(xiàn),使用LLM作為路由并沒有帶來一致的性能優(yōu)勢,反而引入了顯著的推理延遲,導(dǎo)致每條查詢的耗時大幅增加。MLP在保證效果的同時兼顧了極高的查詢效率。
2) 對比自適應(yīng)檢索:相比于Self-RAG和SeaKR在某些情況下需要進行多次繁瑣的檢索調(diào)用,QA-GraphRAG對每個查詢僅需執(zhí)行單次檢索調(diào)用即可精確定位知識層級,從而大幅降低了平均檢索成本和時間開銷。
表 5 不同LLM基座模型的實驗對比

3. LLM基座選擇分析:
為了探究檢索策略與大模型參數(shù)量之間的關(guān)系,我們將底層的LLM從7B(Qwen2.5-7B-Instruct)替換為14B版本。正如預(yù)期,14B模型整體表現(xiàn)更優(yōu)。然而,令人驚喜的是,裝備了QA-GraphRAG的7B變體(如GraphRAG-QA-7B),在HotpotQA數(shù)據(jù)集和TF任務(wù)上的表現(xiàn),甚至超越了使用更強大14B模型的原始框架(GraphRAG-14B)。這一“越級”表現(xiàn)強有力地證明了:一個聰明的自適應(yīng)檢索策略,完全可以在一定程度上彌補底層大模型參數(shù)規(guī)模的劣勢。
表 6 不同路由器部署策略的實驗對比

4. 路由器部署策略的泛化性:
我們評估了通用路由器(Generalist router)與專家路由器(Specialist router)的差異。結(jié)果顯示,僅在外部公開數(shù)據(jù)集上訓(xùn)練的通用路由器,其性能穩(wěn)定超越了僅在目標(biāo)數(shù)據(jù)集(如HotpotQA)上訓(xùn)練的單領(lǐng)域路由器,證明了跨領(lǐng)域預(yù)訓(xùn)練能有效增強模型對通用查詢特征的捕獲與泛化能力。而提供少量目標(biāo)數(shù)據(jù)微調(diào)的專家路由器則能在通用版的基礎(chǔ)上進一步提供適度的精度提升,為實際部署提供了靈活的成本-性能權(quán)衡方案。

圖 4 “局部”和“全局”查詢各自的性能對比
5. 路由決策的細(xì)粒度分析:
我們對通用路由器在實際查詢中的決策層級進行了案例分析。結(jié)果表明,路由器的輸出與人類直覺高度一致。此外,我們將數(shù)據(jù)集拆分為“局部”和“全局”后分別進行評估。如圖3所示,QA-GraphRAG不僅提升了原本就不擅長的局部查詢表現(xiàn),同時還在全局查詢上帶來了性能增益,證明了它能游刃有余地處理跨數(shù)據(jù)集的各種復(fù)雜查詢類型。
四、總結(jié)
現(xiàn)有的基于圖的RAG框架在應(yīng)對多樣化的查詢需求時,往往受限于固定的檢索策略,導(dǎo)致“局部”查詢效率低下或“全局”查詢總結(jié)不足。為解決這一痛點,我們提出了QA-GraphRAG,這是一種即插即用、具有查詢自適應(yīng)能力的檢索集成框架。它能夠敏銳感知查詢的具體度與語義特征,幫助現(xiàn)有的圖RAG框架自適應(yīng)地選擇最合適的檢索深度。在各大基準(zhǔn)數(shù)據(jù)集上的實驗均表明,我們的方法顯著增強了現(xiàn)有框架的問答表現(xiàn),為圖增強的通用檢索系統(tǒng)設(shè)計提供了一條高能效的新路徑。
參考文獻
- Darren Edge, Ha Trinh, Newman Cheng, Joshua Bradley, Alex Chao, Apurva Mody, Steven Truitt, Dasha Metropolitansky, Robert Osazuwa Ness, and Jonathan Larson. 2024. From local to global: A graph rag approach to query-focused summarization. arXiv preprint arXiv:2404.16130 (2024).
- Parth Sarthi, Salman Abdullah, Aditi Tuli, Shubh Khanna, Anna Goldie, and Christopher D. Manning. Raptor: Recursive abstractive processing for tree-organized retrieval. In The Twelfth International Conference on Learning Representations.
- Yilin Xiao, Junnan Dong, Chuang Zhou, Su Dong, Qian-wen Zhang, Di Yin, Xing Sun, and Xiao Huang. 2025. GraphRAG-Bench: Challenging Domain-Specific Reasoning for Evaluating Graph Retrieval-Augmented Generation. arXiv preprint arXiv:2506.02404 (2025).
- Joyce Cahoon, Prerna Singh, Nick Litombe, Jonathan Larson, Ha Trinh, Yiwen Zhu, Andreas Mueller, Fotis Psallidas, and Carlo Curino. 2025. Optimizing open-domain question answering with graph-based retrieval augmented generation. In Proceedings of the 1st workshop connecting academia and industry on Modern Integrated Database and AI Systems. 1-11.
實驗室簡介
北京大學(xué)數(shù)據(jù)與智能實驗室(Data And Intelligence Research Lab at Peking Univeristy,PKU-DAIR實驗室)由北京大學(xué)計算機學(xué)院崔斌教授領(lǐng)導(dǎo),長期從事數(shù)據(jù)庫系統(tǒng)、大數(shù)據(jù)管理與分析、人工智能等領(lǐng)域的前沿研究,在理論和技術(shù)創(chuàng)新以及系統(tǒng)研發(fā)上取得多項成果,已在國際頂級學(xué)術(shù)會議和期刊發(fā)表學(xué)術(shù)論文200余篇,發(fā)布多個開源項目。課題組同學(xué)曾數(shù)十次獲得包括CCF優(yōu)博、ACM中國優(yōu)博、北大優(yōu)博、微軟學(xué)者、蘋果獎學(xué)金、谷歌獎學(xué)金等榮譽。PKU-DAIR實驗室持續(xù)與工業(yè)界展開卓有成效的合作,與騰訊、阿里巴巴、蘋果、微軟、百度、快手、中興通訊等多家知名企業(yè)開展項目合作和前沿探索,解決實際問題,進行科研成果的轉(zhuǎn)化落地。

評論 0