午夜福利黄色网址在线,人妻mp4,日韩动漫二三区

腦機(jī)接口與混合智能研究小組

更多動(dòng)態(tài)

10656

2026-04-10

近日，腦機(jī)團(tuán)隊(duì)的何樂(lè)為課題組在人工智能系統(tǒng)領(lǐng)域取得重要突破，3項(xiàng)研究成果分別被CCF-A類國(guó)際頂會(huì)WWW 2026（ACM Web Conference）和ACL 2026（Association for Computational Linguistics）主會(huì)錄用。三項(xiàng)工作圍繞"大模型智能系統(tǒng)的效率與可靠性"這一核心主題，分別在多智能體動(dòng)態(tài)編排、推理過(guò)程加速、GUI智能體評(píng)測(cè)三個(gè)關(guān)鍵方向提出創(chuàng)新解決方案，展現(xiàn)了團(tuán)隊(duì)在前沿AI系統(tǒng)研究中的深厚積累。

成果1：WWW 2026 (Oral) | 難度感知多智能體編排框架 DAAO

課題組成員蘇金偉（2024級(jí)研究生）的研究成果“Difficulty-Aware Agentic Orchestration for Query-Specific Multi-Agent Workflows”已被CCF-A類會(huì)議ACM Web Conference 2026（WWW 26）主會(huì)錄用（Oral）。該研究提出了一種名為DAAO的難度感知多智能體編排框架，能夠根據(jù)每個(gè)查詢的復(fù)雜程度動(dòng)態(tài)生成定制化的多智能體工作流，在顯著提升任務(wù)性能的同時(shí)大幅降低推理成本。

近年來(lái)，基于大語(yǔ)言模型（LLM）的多智能體系統(tǒng)在問(wèn)答、代碼生成、數(shù)學(xué)推理、數(shù)據(jù)分析等復(fù)雜任務(wù)中展現(xiàn)出強(qiáng)大的能力。通過(guò)組織多個(gè)LLM協(xié)同工作，這類系統(tǒng)能夠超越單一模型的認(rèn)知局限，表現(xiàn)出類似人類協(xié)作的集體智能。然而，現(xiàn)有大多數(shù)多智能體框架仍存在兩個(gè)關(guān)鍵瓶頸：其一，它們通常采用固定或任務(wù)級(jí)別的工作流，對(duì)簡(jiǎn)單查詢過(guò)度處理、浪費(fèi)資源，而對(duì)復(fù)雜查詢處理能力不足，無(wú)法適應(yīng)真實(shí)世界中查詢難度差異巨大的實(shí)際情況；其二，多數(shù)框架依賴單一的LLM backbone，忽視了不同模型在性能與成本之間的互補(bǔ)優(yōu)勢(shì)。如何讓系統(tǒng)自主感知每個(gè)查詢的難易程度，并據(jù)此動(dòng)態(tài)調(diào)整工作流的復(fù)雜度和資源分配，成為當(dāng)前多智能體系統(tǒng)研究中的核心挑戰(zhàn)。

為解決上述挑戰(zhàn)，本研究提出了名為DAAO的難度感知多智能體編排框架。該框架的核心創(chuàng)新在于首次將查詢難度作為可學(xué)習(xí)的策略信號(hào)，顯式地引導(dǎo)工作流的生成。如上圖所示，DAAO包含三個(gè)相互協(xié)同的模塊：基于變分自編碼器的查詢難度估計(jì)器、模塊化操作符分配器，以及成本與性能感知的LLM路由器。

難度估計(jì)器將輸入查詢編碼為潛在難度表征，并輸出一個(gè)介于0到1之間的可解釋難度分?jǐn)?shù)。該分?jǐn)?shù)通過(guò)工作流執(zhí)行成功與否的反饋信號(hào)進(jìn)行自調(diào)整：若當(dāng)前工作流成功解決查詢，系統(tǒng)會(huì)略微降低該查詢的預(yù)估難度，促使后續(xù)采用更簡(jiǎn)單的工作流；若執(zhí)行失敗，則提高難度分?jǐn)?shù)，以觸發(fā)更復(fù)雜、更強(qiáng)大的工作流。操作符分配器根據(jù)難度分?jǐn)?shù)動(dòng)態(tài)決定工作流的深度（層數(shù)）以及每一層中應(yīng)該激活哪些操作符（如鏈?zhǔn)剿伎肌⒍嘀悄荏w辯論、自一致性、自我修正、集成投票等）。LLM路由器則進(jìn)一步為每個(gè)選中的操作符分配最合適的大語(yǔ)言模型，在多個(gè)候選模型（包括GPT-4o-mini、Gemini-1.5-flash、Llama-3.1-70B、Qwen-2-72B等）之間進(jìn)行智能路由，從而在保證推理能力的前提下控制成本。三者共同構(gòu)成一個(gè)查詢專屬的有向無(wú)環(huán)圖工作流，實(shí)現(xiàn)了“因問(wèn)施策”的自適應(yīng)推理。

研究團(tuán)隊(duì)在六個(gè)廣泛使用的公開(kāi)基準(zhǔn)上對(duì)DAAO進(jìn)行了全面評(píng)估，涵蓋數(shù)學(xué)推理（GSM8K、MATH）、代碼生成（HumanEval、MBPP）、多任務(wù)語(yǔ)言理解（MMLU）以及復(fù)雜工具使用（GAIA）。實(shí)驗(yàn)結(jié)果表明，DAAO在所有基準(zhǔn)上均超越了現(xiàn)有的自動(dòng)化多智能體系統(tǒng)與LLM路由方法。與最先進(jìn)的自動(dòng)化工作流方法相比，DAAO的平均準(zhǔn)確率提升了3.5%至15.2%；與最新的LLM路由器相比，準(zhǔn)確率提升了3.2%至10.2%。在極具挑戰(zhàn)性的GAIA基準(zhǔn)上，DAAO的平均得分達(dá)到25.97%，分別超越現(xiàn)有方法AFlow和MaAS達(dá)17.97個(gè)百分點(diǎn)和8.33個(gè)百分點(diǎn)。尤為值得一提的是，在MATH基準(zhǔn)上，DAAO以55.37%的準(zhǔn)確率取得最佳成績(jī)，同時(shí)其訓(xùn)練成本僅為對(duì)比方法的10.4%，推理成本僅為16.3%，展現(xiàn)了卓越的成本效益。此外，跨領(lǐng)域訓(xùn)練實(shí)驗(yàn)表明，DAAO具有良好的歸納遷移能力，在數(shù)學(xué)與代碼生成領(lǐng)域之間聯(lián)合優(yōu)化能夠小幅提升各領(lǐng)域的表現(xiàn)，且能夠無(wú)縫適配新加入的未見(jiàn)過(guò)的LLM。

本研究提出了一個(gè)創(chuàng)新的大語(yǔ)言模型多智能體編排框架DAAO，首次將查詢難度估計(jì)、動(dòng)態(tài)工作流生成與異構(gòu)LLM路由融為一體，實(shí)現(xiàn)了性能與成本之間的自適應(yīng)平衡。通過(guò)在六個(gè)基準(zhǔn)上的嚴(yán)格實(shí)驗(yàn)，DAAO不僅顯著超越了現(xiàn)有方法，還大幅降低了計(jì)算開(kāi)銷，證明了難度感知、模塊化編排在構(gòu)建可擴(kuò)展且高效的LLM智能體系統(tǒng)中的核心價(jià)值。該工作為未來(lái)多智能體系統(tǒng)的自動(dòng)化設(shè)計(jì)提供了新的思路，也為實(shí)際應(yīng)用中應(yīng)對(duì)不同難度、不同領(lǐng)域的用戶查詢?cè)O(shè)立了一個(gè)兼具高性能與低成本的標(biāo)桿。研究團(tuán)隊(duì)已將相關(guān)代碼與數(shù)據(jù)集開(kāi)放，供學(xué)界與業(yè)界進(jìn)一步使用與拓展。

成果2：ACL 2026 | 雙信號(hào)自適應(yīng)推理加速 Shortcut Decoding

課題組成員李澤遠(yuǎn)（2023級(jí)研究生）的研究成果“Shortcut Decoding: Accelerating Chain-of-Thought Reasoning via Dual-Signal Adaptive Control” 已被CCF-A類會(huì)議Association for Computational Linguistics 2026（ACL 26）主會(huì)錄用。該研究旨在解決大語(yǔ)言模型在鏈?zhǔn)剿季S推理過(guò)程中存在的“過(guò)度思考”與計(jì)算冗余問(wèn)題，提出了一種無(wú)需重新訓(xùn)練的高效推理加速框架。

鏈?zhǔn)剿季S提示技術(shù)顯著增強(qiáng)了大語(yǔ)言模型的復(fù)雜推理能力，使其能夠通過(guò)逐步分解問(wèn)題來(lái)得出正確答案。然而，近年來(lái)研究者發(fā)現(xiàn)，大語(yǔ)言模型在生成顯式推理文本時(shí)普遍存在“過(guò)度思考”現(xiàn)象：模型在內(nèi)部隱藏狀態(tài)中早已收斂到正確結(jié)論，卻仍然繼續(xù)生成大量冗余、重復(fù)甚至自我矛盾的推理步驟。這不僅造成了嚴(yán)重的計(jì)算資源浪費(fèi)，還可能導(dǎo)致模型從正確答案偏離，降低最終輸出的可靠性。現(xiàn)有加速方法主要分為兩類：一是依賴系統(tǒng)級(jí)優(yōu)化或模型壓縮，往往需要昂貴的重新訓(xùn)練；二是基于啟發(fā)式的提前終止策略，例如監(jiān)測(cè)輸出熵，但這類方法容易陷入“自信錯(cuò)誤”陷阱——模型雖然低熵、高度確定，卻可能已經(jīng)走上錯(cuò)誤的推理路徑。因此，如何在保證推理正確性的前提下動(dòng)態(tài)、自適應(yīng)地剪除冗余步驟，成為大語(yǔ)言模型推理效率優(yōu)化的關(guān)鍵挑戰(zhàn)。

為解決上述挑戰(zhàn)，本研究提出了一種名為Shortcut Decoding的推理加速框架，如上圖所示。該框架的核心思想源于一個(gè)關(guān)鍵實(shí)證發(fā)現(xiàn)：大語(yǔ)言模型的內(nèi)部隱藏狀態(tài)往往比其顯式生成的文本更早地“想通”正確答案?；诖?，研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)雙信號(hào)自適應(yīng)控制器，在推理過(guò)程中實(shí)時(shí)監(jiān)測(cè)兩類互補(bǔ)信號(hào)。第一類信號(hào)是內(nèi)部置信度得分，由一個(gè)輕量級(jí)多層感知機(jī)探針從模型的隱藏狀態(tài)中提取，用于預(yù)測(cè)當(dāng)前推理路徑是否已足夠正確。第二類信號(hào)是步驟級(jí)輸出熵，用于衡量模型在生成下一詞時(shí)的確定性程度。兩類信號(hào)協(xié)同工作：當(dāng)內(nèi)部探針得分極高或輸出熵極低時(shí)，控制器觸發(fā)快速退出路徑；當(dāng)探針得分高但熵值中等時(shí)，則啟動(dòng)穩(wěn)定性驗(yàn)證路徑，連續(xù)監(jiān)測(cè)多個(gè)步驟確認(rèn)收斂后再退出；若兩類信號(hào)均不滿足，則允許模型繼續(xù)推理。該框架無(wú)需修改基礎(chǔ)模型參數(shù)，可即插即用地應(yīng)用于現(xiàn)有大語(yǔ)言模型。

研究團(tuán)隊(duì)在多個(gè)數(shù)學(xué)推理基準(zhǔn)測(cè)試上對(duì)Shortcut Decoding進(jìn)行了全面評(píng)估，包括GSM8K、MATH-500以及AIME 2024/2025競(jìng)賽級(jí)數(shù)據(jù)集。實(shí)驗(yàn)結(jié)果表明，該方法在保持甚至提升最終答案準(zhǔn)確率的同時(shí)，平均減少了約35%的令牌使用量。特別值得注意的是，在MATH-500數(shù)據(jù)集上，使用DeepSeek-R1-Distill-Qwen-7B模型時(shí)，該方法在壓縮近50%推理步驟的情況下，將準(zhǔn)確率從90.8%提升至91.2%。這一反直覺(jué)的準(zhǔn)確率提升源于對(duì)冗余后期推理的有效剪除，避免了模型在過(guò)度自我修正中發(fā)生邏輯漂移。與現(xiàn)有的訓(xùn)練無(wú)關(guān)提前停止方法（如DEER、Dynasor）相比，Shortcut Decoding在準(zhǔn)確率和壓縮比兩個(gè)維度上均表現(xiàn)更優(yōu)。進(jìn)一步的錯(cuò)誤歸因分析顯示，在完整鏈?zhǔn)剿季S推理失敗案例中，約60%是由“過(guò)度思考”導(dǎo)致——即模型在已經(jīng)得出正確中間結(jié)論后，因冗余生成或錯(cuò)誤修正而輸出錯(cuò)誤答案。這進(jìn)一步印證了適時(shí)終止推理對(duì)于提升最終輸出質(zhì)量的重要性。

本研究提出了Shortcut Decoding，一個(gè)基于雙信號(hào)自適應(yīng)控制的高效推理加速框架。該框架通過(guò)融合內(nèi)部隱藏狀態(tài)探針與外部輸出熵信號(hào)，精準(zhǔn)檢測(cè)“推理完成點(diǎn)”，在顯著降低計(jì)算開(kāi)銷的同時(shí)維護(hù)甚至增強(qiáng)了推理可靠性。實(shí)驗(yàn)結(jié)果揭示了當(dāng)前大語(yǔ)言模型在鏈?zhǔn)剿季S推理中普遍存在的“想得比說(shuō)得快”現(xiàn)象，以及過(guò)度思考對(duì)最終答案準(zhǔn)確率的負(fù)面影響。Shortcut Decoding不僅為緩解推理效率瓶頸提供了一種輕量、有效的解決方案，也為未來(lái)大語(yǔ)言模型推理機(jī)制的設(shè)計(jì)指明了新方向：與其強(qiáng)制模型生成完整顯式推理鏈，不如學(xué)會(huì)在恰當(dāng)?shù)臅r(shí)機(jī)“放手”，讓模型直接輸出其內(nèi)心已經(jīng)收斂的答案。

成果3：ACL 2026 | 可驗(yàn)證GUI評(píng)測(cè)基準(zhǔn) NaturalGAIA

課題組成員鄭梓瀚（2024級(jí)研究生）、崔天樂(lè)（2024級(jí)研究生）、王陶然（2025級(jí)研究生）、王鳳濤（2025級(jí)研究生）的研究成果“NaturalGAIA: A Verifiable Benchmark and Hierarchical Framework for Long-Horizon GUI Tasks”已被CCF-A類會(huì)議Association for Computational Linguistics 2026（ACL 26）主會(huì)錄用。該研究針對(duì)圖形用戶界面（GUI）智能體在真實(shí)場(chǎng)景下的評(píng)估困境，提出了一個(gè)可驗(yàn)證的評(píng)測(cè)基準(zhǔn)NaturalGAIA及高效的分層協(xié)作框架LightManus-Jarvis。

近年來(lái)，大語(yǔ)言模型驅(qū)動(dòng)的GUI智能體發(fā)展迅速，然而如何準(zhǔn)確評(píng)估其在復(fù)雜、長(zhǎng)序列、跨應(yīng)用任務(wù)中的真實(shí)表現(xiàn)成為關(guān)鍵挑戰(zhàn)?，F(xiàn)有評(píng)測(cè)面臨“評(píng)估-真實(shí)困境”：一方面，真實(shí)場(chǎng)景基準(zhǔn)如OSWorld和RealWebAssist因缺乏確定性真值，依賴不穩(wěn)定的大模型評(píng)判或人工驗(yàn)證，難以精確衡量推理與執(zhí)行之間的差距；另一方面，傳統(tǒng)靜態(tài)基準(zhǔn)采用簡(jiǎn)化、去上下文的指令，無(wú)法模擬人類意圖中的認(rèn)知非線性、冗余信息和上下文依賴，導(dǎo)致任務(wù)成功率被高估。此外，主流端到端視覺(jué)模型在長(zhǎng)時(shí)程任務(wù)中容易產(chǎn)生語(yǔ)義漂移和“坐標(biāo)幻覺(jué)”，難以兼顧宏觀規(guī)劃的一致性與微觀執(zhí)行的精確性。

為解決上述挑戰(zhàn)，本研究提出了NaturalGAIA——一個(gè)基于真實(shí)人類GUI交互意圖的可驗(yàn)證評(píng)測(cè)基準(zhǔn)，以及LightManus-Jarvis——一個(gè)“宏觀規(guī)劃-微觀執(zhí)行”的分層協(xié)作框架。LightManus-Jarvis執(zhí)行NaturalGAIA任務(wù)的過(guò)程如上圖所示。

NaturalGAIA基準(zhǔn)的核心創(chuàng)新在于將邏輯因果路徑與自然語(yǔ)言敘述解耦。具體而言，研究者基于知識(shí)圖譜（如Wikidata）定義確定性的因果路徑，每個(gè)原子任務(wù)都有可驗(yàn)證的真值；同時(shí)通過(guò)自然語(yǔ)言注入認(rèn)知挑戰(zhàn)，包括非線性順序、噪聲過(guò)濾和上下文依賴參數(shù)解析，確保任務(wù)既有真實(shí)模糊性又有嚴(yán)謹(jǐn)?shù)目沈?yàn)證性。該基準(zhǔn)覆蓋了276個(gè)任務(wù)，跨越25種真實(shí)應(yīng)用（包括Spotify、IMDb、Google Maps、Wikipedia等），分為基礎(chǔ)、中級(jí)、高級(jí)三個(gè)難度等級(jí)，其中高級(jí)任務(wù)最長(zhǎng)包含七個(gè)原子步驟，需在多至七個(gè)應(yīng)用間切換。為了全面評(píng)估智能體性能，研究團(tuán)隊(duì)設(shè)計(jì)了三層評(píng)估體系：難度加權(quán)路徑成功率（WPSR）綜合任務(wù)復(fù)雜度進(jìn)行加權(quán)評(píng)估；細(xì)粒度遍歷指標(biāo)（MATCR和p-ATSR）量化原子任務(wù)的完成比例及長(zhǎng)序列后段表現(xiàn)；錯(cuò)誤歸因分析則將失敗原因細(xì)分為知識(shí)缺失、感知錯(cuò)誤、操作錯(cuò)誤、規(guī)劃與推理錯(cuò)誤等類型。

與此同時(shí)，研究團(tuán)隊(duì)提出了LightManus-Jarvis分層協(xié)作框架。在宏觀層面，LightManus負(fù)責(zé)語(yǔ)義解析、任務(wù)拓?fù)渖伞⒖鐟?yīng)用調(diào)度以及上下文演化機(jī)制，通過(guò)“執(zhí)行-感知-演化”閉環(huán)動(dòng)態(tài)更新后續(xù)任務(wù)的語(yǔ)義描述，有效抑制長(zhǎng)序列執(zhí)行中的語(yǔ)義漂移。在微觀層面，Jarvis作為高精度Android執(zhí)行內(nèi)核，采用混合視覺(jué)-結(jié)構(gòu)感知策略，融合截圖與Android Accessibility樹(shù)信息，利用UID錨定元素消除坐標(biāo)幻覺(jué)，并強(qiáng)制鏈?zhǔn)酵评砩稍硬僮鳎ㄈ琰c(diǎn)擊、輸入、滑動(dòng)等），顯著提升了操作的確定性。

研究團(tuán)隊(duì)在NaturalGAIA上對(duì)多個(gè)主流模型（包括Claude-Sonnet-4.5、Gemini系列、GPT系列等）進(jìn)行了全面評(píng)測(cè)。實(shí)驗(yàn)結(jié)果表明，LightManus-Jarvis（驅(qū)動(dòng)Claude-Sonnet-4.5）的加權(quán)路徑成功率達(dá)到45.6%，顯著優(yōu)于PC-Agent的13.1%和Mobile-Agent-e的21.1%，尤其在高級(jí)長(zhǎng)時(shí)程任務(wù)上優(yōu)勢(shì)明顯。在效率方面，相比Mobile-Agent-e，LightManus-Jarvis減少了約75%的token消耗和76%的執(zhí)行時(shí)間，且執(zhí)行步數(shù)相近，證明效率提升源于架構(gòu)優(yōu)化而非路徑簡(jiǎn)化。錯(cuò)誤歸因分析進(jìn)一步揭示，即使是最先進(jìn)的Claude-Sonnet-4.5模型，其規(guī)劃與推理錯(cuò)誤仍占2.9%，而操作錯(cuò)誤和感知錯(cuò)誤在純視覺(jué)方案中尤為突出。Jarvis的混合感知機(jī)制將感知錯(cuò)誤從7.1%降至3.3%，操作錯(cuò)誤從25.6%降至20.0%，驗(yàn)證了分層框架的有效性。

本研究提出了NaturalGAIA基準(zhǔn)與LightManus-Jarvis框架，系統(tǒng)性地緩解了GUI智能體評(píng)估中的“評(píng)估-真實(shí)困境”。NaturalGAIA通過(guò)解耦邏輯與語(yǔ)言、引入可驗(yàn)證的因果路徑和多層評(píng)估體系，為長(zhǎng)時(shí)程、跨應(yīng)用GUI任務(wù)提供了嚴(yán)謹(jǐn)?shù)脑u(píng)測(cè)平臺(tái)。LightManus-Jarvis通過(guò)宏觀規(guī)劃與微觀執(zhí)行的分層協(xié)作，顯著提升了復(fù)雜任務(wù)的魯棒性和效率。實(shí)驗(yàn)結(jié)果清晰地揭示了當(dāng)前頂尖模型在長(zhǎng)鏈條規(guī)劃、上下文記憶和精確執(zhí)行方面仍存在的普遍短板。NaturalGAIA與LightManus-Jarvis的公開(kāi)將為學(xué)界和業(yè)界提供寶貴的評(píng)測(cè)資源與可復(fù)現(xiàn)的框架設(shè)計(jì)，推動(dòng)更魯棒、更貼近真實(shí)用戶需求的自主智能體發(fā)展。

登錄用戶可以查看和發(fā)表評(píng)論，請(qǐng)前往登錄或注冊(cè)。

麻豆精品无码av,欧美1区2区,久久中文字幕乱码人妻,亚洲欧美另类少妇精品,在线看黄射,69pao高清,九九九久久久国产精品,子操大逼1234区,九九爱99热精品