麻豆精品无码av,欧美1区2区,久久中文字幕乱码人妻,亚洲欧美另类少妇精品,在线看黄射,69pao高清,九九九久久久国产精品,子操大逼1234区,九九爱99热精品

團(tuán)隊(duì)何樂(lè)為課題組3篇大模型系統(tǒng)研究成果被CCF-A類會(huì)議WWW和ACL錄用

近日,腦機(jī)團(tuán)隊(duì)的何樂(lè)為課題組在人工智能系統(tǒng)領(lǐng)域取得重要突破,3項(xiàng)研究成果分別被CCF-A類國(guó)際頂會(huì)WWW 2026(ACM Web Conference)和ACL 2026(Association for Computational Linguistics)主會(huì)錄用。三項(xiàng)工作圍繞"大模型智能系統(tǒng)的效率與可靠性"這一核心主題,分別在多智能體動(dòng)態(tài)編排、推理過(guò)程加速、GUI智能體評(píng)測(cè)三個(gè)關(guān)鍵方向提出創(chuàng)新解決方案,展現(xiàn)了團(tuán)隊(duì)在前沿AI系統(tǒng)研究中的深厚積累。

成果1:WWW 2026 (Oral) | 難度感知多智能體編排框架 DAAO

課題組成員蘇金偉(2024級(jí)研究生)的研究成果“Difficulty-Aware Agentic Orchestration for Query-Specific Multi-Agent Workflows”已被CCF-A類會(huì)議ACM Web Conference 2026(WWW 26)主會(huì)錄用(Oral)。該研究提出了一種名為DAAO的難度感知多智能體編排框架,能夠根據(jù)每個(gè)查詢的復(fù)雜程度動(dòng)態(tài)生成定制化的多智能體工作流,在顯著提升任務(wù)性能的同時(shí)大幅降低推理成本。

近年來(lái),基于大語(yǔ)言模型(LLM)的多智能體系統(tǒng)在問(wèn)答、代碼生成、數(shù)學(xué)推理、數(shù)據(jù)分析等復(fù)雜任務(wù)中展現(xiàn)出強(qiáng)大的能力。通過(guò)組織多個(gè)LLM協(xié)同工作,這類系統(tǒng)能夠超越單一模型的認(rèn)知局限,表現(xiàn)出類似人類協(xié)作的集體智能。然而,現(xiàn)有大多數(shù)多智能體框架仍存在兩個(gè)關(guān)鍵瓶頸:其一,它們通常采用固定或任務(wù)級(jí)別的工作流,對(duì)簡(jiǎn)單查詢過(guò)度處理、浪費(fèi)資源,而對(duì)復(fù)雜查詢處理能力不足,無(wú)法適應(yīng)真實(shí)世界中查詢難度差異巨大的實(shí)際情況;其二,多數(shù)框架依賴單一的LLM backbone,忽視了不同模型在性能與成本之間的互補(bǔ)優(yōu)勢(shì)。如何讓系統(tǒng)自主感知每個(gè)查詢的難易程度,并據(jù)此動(dòng)態(tài)調(diào)整工作流的復(fù)雜度和資源分配,成為當(dāng)前多智能體系統(tǒng)研究中的核心挑戰(zhàn)。

為解決上述挑戰(zhàn),本研究提出了名為DAAO的難度感知多智能體編排框架。該框架的核心創(chuàng)新在于首次將查詢難度作為可學(xué)習(xí)的策略信號(hào),顯式地引導(dǎo)工作流的生成。如上圖所示,DAAO包含三個(gè)相互協(xié)同的模塊:基于變分自編碼器的查詢難度估計(jì)器、模塊化操作符分配器,以及成本與性能感知的LLM路由器。

難度估計(jì)器將輸入查詢編碼為潛在難度表征,并輸出一個(gè)介于0到1之間的可解釋難度分?jǐn)?shù)。該分?jǐn)?shù)通過(guò)工作流執(zhí)行成功與否的反饋信號(hào)進(jìn)行自調(diào)整:若當(dāng)前工作流成功解決查詢,系統(tǒng)會(huì)略微降低該查詢的預(yù)估難度,促使后續(xù)采用更簡(jiǎn)單的工作流;若執(zhí)行失敗,則提高難度分?jǐn)?shù),以觸發(fā)更復(fù)雜、更強(qiáng)大的工作流。操作符分配器根據(jù)難度分?jǐn)?shù)動(dòng)態(tài)決定工作流的深度(層數(shù))以及每一層中應(yīng)該激活哪些操作符(如鏈?zhǔn)剿伎肌⒍嘀悄荏w辯論、自一致性、自我修正、集成投票等)。LLM路由器則進(jìn)一步為每個(gè)選中的操作符分配最合適的大語(yǔ)言模型,在多個(gè)候選模型(包括GPT-4o-mini、Gemini-1.5-flash、Llama-3.1-70B、Qwen-2-72B等)之間進(jìn)行智能路由,從而在保證推理能力的前提下控制成本。三者共同構(gòu)成一個(gè)查詢專屬的有向無(wú)環(huán)圖工作流,實(shí)現(xiàn)了“因問(wèn)施策”的自適應(yīng)推理。

研究團(tuán)隊(duì)在六個(gè)廣泛使用的公開(kāi)基準(zhǔn)上對(duì)DAAO進(jìn)行了全面評(píng)估,涵蓋數(shù)學(xué)推理(GSM8K、MATH)、代碼生成(HumanEval、MBPP)、多任務(wù)語(yǔ)言理解(MMLU)以及復(fù)雜工具使用(GAIA)。實(shí)驗(yàn)結(jié)果表明,DAAO在所有基準(zhǔn)上均超越了現(xiàn)有的自動(dòng)化多智能體系統(tǒng)與LLM路由方法。與最先進(jìn)的自動(dòng)化工作流方法相比,DAAO的平均準(zhǔn)確率提升了3.5%至15.2%;與最新的LLM路由器相比,準(zhǔn)確率提升了3.2%至10.2%。在極具挑戰(zhàn)性的GAIA基準(zhǔn)上,DAAO的平均得分達(dá)到25.97%,分別超越現(xiàn)有方法AFlow和MaAS達(dá)17.97個(gè)百分點(diǎn)和8.33個(gè)百分點(diǎn)。尤為值得一提的是,在MATH基準(zhǔn)上,DAAO以55.37%的準(zhǔn)確率取得最佳成績(jī),同時(shí)其訓(xùn)練成本僅為對(duì)比方法的10.4%,推理成本僅為16.3%,展現(xiàn)了卓越的成本效益。此外,跨領(lǐng)域訓(xùn)練實(shí)驗(yàn)表明,DAAO具有良好的歸納遷移能力,在數(shù)學(xué)與代碼生成領(lǐng)域之間聯(lián)合優(yōu)化能夠小幅提升各領(lǐng)域的表現(xiàn),且能夠無(wú)縫適配新加入的未見(jiàn)過(guò)的LLM。

本研究提出了一個(gè)創(chuàng)新的大語(yǔ)言模型多智能體編排框架DAAO,首次將查詢難度估計(jì)、動(dòng)態(tài)工作流生成與異構(gòu)LLM路由融為一體,實(shí)現(xiàn)了性能與成本之間的自適應(yīng)平衡。通過(guò)在六個(gè)基準(zhǔn)上的嚴(yán)格實(shí)驗(yàn),DAAO不僅顯著超越了現(xiàn)有方法,還大幅降低了計(jì)算開(kāi)銷,證明了難度感知、模塊化編排在構(gòu)建可擴(kuò)展且高效的LLM智能體系統(tǒng)中的核心價(jià)值。該工作為未來(lái)多智能體系統(tǒng)的自動(dòng)化設(shè)計(jì)提供了新的思路,也為實(shí)際應(yīng)用中應(yīng)對(duì)不同難度、不同領(lǐng)域的用戶查詢?cè)O(shè)立了一個(gè)兼具高性能與低成本的標(biāo)桿。研究團(tuán)隊(duì)已將相關(guān)代碼與數(shù)據(jù)集開(kāi)放,供學(xué)界與業(yè)界進(jìn)一步使用與拓展。

成果2:ACL 2026 | 雙信號(hào)自適應(yīng)推理加速 Shortcut Decoding

課題組成員李澤遠(yuǎn)(2023級(jí)研究生)的研究成果“Shortcut Decoding: Accelerating Chain-of-Thought Reasoning via Dual-Signal Adaptive Control” 已被CCF-A類會(huì)議Association for Computational Linguistics 2026(ACL 26)主會(huì)錄用。該研究旨在解決大語(yǔ)言模型在鏈?zhǔn)剿季S推理過(guò)程中存在的“過(guò)度思考”與計(jì)算冗余問(wèn)題,提出了一種無(wú)需重新訓(xùn)練的高效推理加速框架。

鏈?zhǔn)剿季S提示技術(shù)顯著增強(qiáng)了大語(yǔ)言模型的復(fù)雜推理能力,使其能夠通過(guò)逐步分解問(wèn)題來(lái)得出正確答案。然而,近年來(lái)研究者發(fā)現(xiàn),大語(yǔ)言模型在生成顯式推理文本時(shí)普遍存在“過(guò)度思考”現(xiàn)象:模型在內(nèi)部隱藏狀態(tài)中早已收斂到正確結(jié)論,卻仍然繼續(xù)生成大量冗余、重復(fù)甚至自我矛盾的推理步驟。這不僅造成了嚴(yán)重的計(jì)算資源浪費(fèi),還可能導(dǎo)致模型從正確答案偏離,降低最終輸出的可靠性。現(xiàn)有加速方法主要分為兩類:一是依賴系統(tǒng)級(jí)優(yōu)化或模型壓縮,往往需要昂貴的重新訓(xùn)練;二是基于啟發(fā)式的提前終止策略,例如監(jiān)測(cè)輸出熵,但這類方法容易陷入“自信錯(cuò)誤”陷阱——模型雖然低熵、高度確定,卻可能已經(jīng)走上錯(cuò)誤的推理路徑。因此,如何在保證推理正確性的前提下動(dòng)態(tài)、自適應(yīng)地剪除冗余步驟,成為大語(yǔ)言模型推理效率優(yōu)化的關(guān)鍵挑戰(zhàn)。

為解決上述挑戰(zhàn),本研究提出了一種名為Shortcut Decoding的推理加速框架,如上圖所示。該框架的核心思想源于一個(gè)關(guān)鍵實(shí)證發(fā)現(xiàn):大語(yǔ)言模型的內(nèi)部隱藏狀態(tài)往往比其顯式生成的文本更早地“想通”正確答案?;诖?,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)雙信號(hào)自適應(yīng)控制器,在推理過(guò)程中實(shí)時(shí)監(jiān)測(cè)兩類互補(bǔ)信號(hào)。第一類信號(hào)是內(nèi)部置信度得分,由一個(gè)輕量級(jí)多層感知機(jī)探針從模型的隱藏狀態(tài)中提取,用于預(yù)測(cè)當(dāng)前推理路徑是否已足夠正確。第二類信號(hào)是步驟級(jí)輸出熵,用于衡量模型在生成下一詞時(shí)的確定性程度。兩類信號(hào)協(xié)同工作:當(dāng)內(nèi)部探針得分極高或輸出熵極低時(shí),控制器觸發(fā)快速退出路徑;當(dāng)探針得分高但熵值中等時(shí),則啟動(dòng)穩(wěn)定性驗(yàn)證路徑,連續(xù)監(jiān)測(cè)多個(gè)步驟確認(rèn)收斂后再退出;若兩類信號(hào)均不滿足,則允許模型繼續(xù)推理。該框架無(wú)需修改基礎(chǔ)模型參數(shù),可即插即用地應(yīng)用于現(xiàn)有大語(yǔ)言模型。

研究團(tuán)隊(duì)在多個(gè)數(shù)學(xué)推理基準(zhǔn)測(cè)試上對(duì)Shortcut Decoding進(jìn)行了全面評(píng)估,包括GSM8K、MATH-500以及AIME 2024/2025競(jìng)賽級(jí)數(shù)據(jù)集。實(shí)驗(yàn)結(jié)果表明,該方法在保持甚至提升最終答案準(zhǔn)確率的同時(shí),平均減少了約35%的令牌使用量。特別值得注意的是,在MATH-500數(shù)據(jù)集上,使用DeepSeek-R1-Distill-Qwen-7B模型時(shí),該方法在壓縮近50%推理步驟的情況下,將準(zhǔn)確率從90.8%提升至91.2%。這一反直覺(jué)的準(zhǔn)確率提升源于對(duì)冗余后期推理的有效剪除,避免了模型在過(guò)度自我修正中發(fā)生邏輯漂移。與現(xiàn)有的訓(xùn)練無(wú)關(guān)提前停止方法(如DEER、Dynasor)相比,Shortcut Decoding在準(zhǔn)確率和壓縮比兩個(gè)維度上均表現(xiàn)更優(yōu)。進(jìn)一步的錯(cuò)誤歸因分析顯示,在完整鏈?zhǔn)剿季S推理失敗案例中,約60%是由“過(guò)度思考”導(dǎo)致——即模型在已經(jīng)得出正確中間結(jié)論后,因冗余生成或錯(cuò)誤修正而輸出錯(cuò)誤答案。這進(jìn)一步印證了適時(shí)終止推理對(duì)于提升最終輸出質(zhì)量的重要性。

本研究提出了Shortcut Decoding,一個(gè)基于雙信號(hào)自適應(yīng)控制的高效推理加速框架。該框架通過(guò)融合內(nèi)部隱藏狀態(tài)探針與外部輸出熵信號(hào),精準(zhǔn)檢測(cè)“推理完成點(diǎn)”,在顯著降低計(jì)算開(kāi)銷的同時(shí)維護(hù)甚至增強(qiáng)了推理可靠性。實(shí)驗(yàn)結(jié)果揭示了當(dāng)前大語(yǔ)言模型在鏈?zhǔn)剿季S推理中普遍存在的“想得比說(shuō)得快”現(xiàn)象,以及過(guò)度思考對(duì)最終答案準(zhǔn)確率的負(fù)面影響。Shortcut Decoding不僅為緩解推理效率瓶頸提供了一種輕量、有效的解決方案,也為未來(lái)大語(yǔ)言模型推理機(jī)制的設(shè)計(jì)指明了新方向:與其強(qiáng)制模型生成完整顯式推理鏈,不如學(xué)會(huì)在恰當(dāng)?shù)臅r(shí)機(jī)“放手”,讓模型直接輸出其內(nèi)心已經(jīng)收斂的答案。

成果3:ACL 2026 | 可驗(yàn)證GUI評(píng)測(cè)基準(zhǔn) NaturalGAIA

課題組成員鄭梓瀚(2024級(jí)研究生)、崔天樂(lè)(2024級(jí)研究生)、王陶然(2025級(jí)研究生)、王鳳濤(2025級(jí)研究生)的研究成果“NaturalGAIA: A Verifiable Benchmark and Hierarchical Framework for Long-Horizon GUI Tasks”已被CCF-A類會(huì)議Association for Computational Linguistics 2026(ACL 26)主會(huì)錄用。該研究針對(duì)圖形用戶界面(GUI)智能體在真實(shí)場(chǎng)景下的評(píng)估困境,提出了一個(gè)可驗(yàn)證的評(píng)測(cè)基準(zhǔn)NaturalGAIA及高效的分層協(xié)作框架LightManus-Jarvis。

近年來(lái),大語(yǔ)言模型驅(qū)動(dòng)的GUI智能體發(fā)展迅速,然而如何準(zhǔn)確評(píng)估其在復(fù)雜、長(zhǎng)序列、跨應(yīng)用任務(wù)中的真實(shí)表現(xiàn)成為關(guān)鍵挑戰(zhàn)?,F(xiàn)有評(píng)測(cè)面臨“評(píng)估-真實(shí)困境”:一方面,真實(shí)場(chǎng)景基準(zhǔn)如OSWorld和RealWebAssist因缺乏確定性真值,依賴不穩(wěn)定的大模型評(píng)判或人工驗(yàn)證,難以精確衡量推理與執(zhí)行之間的差距;另一方面,傳統(tǒng)靜態(tài)基準(zhǔn)采用簡(jiǎn)化、去上下文的指令,無(wú)法模擬人類意圖中的認(rèn)知非線性、冗余信息和上下文依賴,導(dǎo)致任務(wù)成功率被高估。此外,主流端到端視覺(jué)模型在長(zhǎng)時(shí)程任務(wù)中容易產(chǎn)生語(yǔ)義漂移和“坐標(biāo)幻覺(jué)”,難以兼顧宏觀規(guī)劃的一致性與微觀執(zhí)行的精確性。

為解決上述挑戰(zhàn),本研究提出了NaturalGAIA——一個(gè)基于真實(shí)人類GUI交互意圖的可驗(yàn)證評(píng)測(cè)基準(zhǔn),以及LightManus-Jarvis——一個(gè)“宏觀規(guī)劃-微觀執(zhí)行”的分層協(xié)作框架。LightManus-Jarvis執(zhí)行NaturalGAIA任務(wù)的過(guò)程如上圖所示。

NaturalGAIA基準(zhǔn)的核心創(chuàng)新在于將邏輯因果路徑與自然語(yǔ)言敘述解耦。具體而言,研究者基于知識(shí)圖譜(如Wikidata)定義確定性的因果路徑,每個(gè)原子任務(wù)都有可驗(yàn)證的真值;同時(shí)通過(guò)自然語(yǔ)言注入認(rèn)知挑戰(zhàn),包括非線性順序、噪聲過(guò)濾和上下文依賴參數(shù)解析,確保任務(wù)既有真實(shí)模糊性又有嚴(yán)謹(jǐn)?shù)目沈?yàn)證性。該基準(zhǔn)覆蓋了276個(gè)任務(wù),跨越25種真實(shí)應(yīng)用(包括Spotify、IMDb、Google Maps、Wikipedia等),分為基礎(chǔ)、中級(jí)、高級(jí)三個(gè)難度等級(jí),其中高級(jí)任務(wù)最長(zhǎng)包含七個(gè)原子步驟,需在多至七個(gè)應(yīng)用間切換。為了全面評(píng)估智能體性能,研究團(tuán)隊(duì)設(shè)計(jì)了三層評(píng)估體系:難度加權(quán)路徑成功率(WPSR)綜合任務(wù)復(fù)雜度進(jìn)行加權(quán)評(píng)估;細(xì)粒度遍歷指標(biāo)(MATCR和p-ATSR)量化原子任務(wù)的完成比例及長(zhǎng)序列后段表現(xiàn);錯(cuò)誤歸因分析則將失敗原因細(xì)分為知識(shí)缺失、感知錯(cuò)誤、操作錯(cuò)誤、規(guī)劃與推理錯(cuò)誤等類型。

與此同時(shí),研究團(tuán)隊(duì)提出了LightManus-Jarvis分層協(xié)作框架。在宏觀層面,LightManus負(fù)責(zé)語(yǔ)義解析、任務(wù)拓?fù)渖伞⒖鐟?yīng)用調(diào)度以及上下文演化機(jī)制,通過(guò)“執(zhí)行-感知-演化”閉環(huán)動(dòng)態(tài)更新后續(xù)任務(wù)的語(yǔ)義描述,有效抑制長(zhǎng)序列執(zhí)行中的語(yǔ)義漂移。在微觀層面,Jarvis作為高精度Android執(zhí)行內(nèi)核,采用混合視覺(jué)-結(jié)構(gòu)感知策略,融合截圖與Android Accessibility樹(shù)信息,利用UID錨定元素消除坐標(biāo)幻覺(jué),并強(qiáng)制鏈?zhǔn)酵评砩稍硬僮鳎ㄈ琰c(diǎn)擊、輸入、滑動(dòng)等),顯著提升了操作的確定性。

研究團(tuán)隊(duì)在NaturalGAIA上對(duì)多個(gè)主流模型(包括Claude-Sonnet-4.5、Gemini系列、GPT系列等)進(jìn)行了全面評(píng)測(cè)。實(shí)驗(yàn)結(jié)果表明,LightManus-Jarvis(驅(qū)動(dòng)Claude-Sonnet-4.5)的加權(quán)路徑成功率達(dá)到45.6%,顯著優(yōu)于PC-Agent的13.1%和Mobile-Agent-e的21.1%,尤其在高級(jí)長(zhǎng)時(shí)程任務(wù)上優(yōu)勢(shì)明顯。在效率方面,相比Mobile-Agent-e,LightManus-Jarvis減少了約75%的token消耗和76%的執(zhí)行時(shí)間,且執(zhí)行步數(shù)相近,證明效率提升源于架構(gòu)優(yōu)化而非路徑簡(jiǎn)化。錯(cuò)誤歸因分析進(jìn)一步揭示,即使是最先進(jìn)的Claude-Sonnet-4.5模型,其規(guī)劃與推理錯(cuò)誤仍占2.9%,而操作錯(cuò)誤和感知錯(cuò)誤在純視覺(jué)方案中尤為突出。Jarvis的混合感知機(jī)制將感知錯(cuò)誤從7.1%降至3.3%,操作錯(cuò)誤從25.6%降至20.0%,驗(yàn)證了分層框架的有效性。

本研究提出了NaturalGAIA基準(zhǔn)與LightManus-Jarvis框架,系統(tǒng)性地緩解了GUI智能體評(píng)估中的“評(píng)估-真實(shí)困境”。NaturalGAIA通過(guò)解耦邏輯與語(yǔ)言、引入可驗(yàn)證的因果路徑和多層評(píng)估體系,為長(zhǎng)時(shí)程、跨應(yīng)用GUI任務(wù)提供了嚴(yán)謹(jǐn)?shù)脑u(píng)測(cè)平臺(tái)。LightManus-Jarvis通過(guò)宏觀規(guī)劃與微觀執(zhí)行的分層協(xié)作,顯著提升了復(fù)雜任務(wù)的魯棒性和效率。實(shí)驗(yàn)結(jié)果清晰地揭示了當(dāng)前頂尖模型在長(zhǎng)鏈條規(guī)劃、上下文記憶和精確執(zhí)行方面仍存在的普遍短板。NaturalGAIA與LightManus-Jarvis的公開(kāi)將為學(xué)界和業(yè)界提供寶貴的評(píng)測(cè)資源與可復(fù)現(xiàn)的框架設(shè)計(jì),推動(dòng)更魯棒、更貼近真實(shí)用戶需求的自主智能體發(fā)展。


登錄用戶可以查看和發(fā)表評(píng)論, 請(qǐng)前往  登錄 或  注冊(cè)。
SCHOLAT.com 學(xué)者網(wǎng)
免責(zé)聲明 | 關(guān)于我們 | 用戶反饋
聯(lián)系我們:
旬邑县| 团风县| 益阳市| 和静县| 鸡泽县| 天峻县| 吉林市| 五台县| 轮台县| 米泉市| 丹棱县| 洛隆县| 偃师市| 尤溪县| 瓦房店市| 盱眙县| 霍邱县| 嘉荫县| 正定县| 湟源县| 德保县| 明星| 师宗县| 潮州市| 岳西县| 娱乐| 富顺县| 盘锦市| 绥德县| 冷水江市| 扶余县| 克拉玛依市| 博客| 平邑县| 石林| 龙泉市| 凌云县| 韩城市| 宁河县| 大悟县| 康乐县|