国产剧情无套在线一区,一区二区的视频

腦機(jī)接口與混合智能研究小組

更多動態(tài)

221

2026-06-02

該論文發(fā)表于Association for Computational Linguistics

(ACL) 2025，題目為《MEDDxAgent: A Unified Modular Agent Framework for Explainable Automatic Differential Diagnosis》。

加州大學(xué)圣塔芭芭拉分校的Daniel Rose為此文第一作者。

論文鏈接：https://aclanthology.org/2025.acl-long.677.pdf

論文概要

鑒別診斷（DDx） 是臨床決策中一項(xiàng)基礎(chǔ)卻復(fù)雜的核心環(huán)節(jié)：醫(yī)生會依據(jù)患者癥狀、既往病史及醫(yī)學(xué)專業(yè)知識，迭代完善并排序潛在疑似疾病列表。盡管大語言模型（LLM）的最新研究進(jìn)展，已在輔助鑒別診斷方面展現(xiàn)出應(yīng)用潛力，但現(xiàn)有研究方案仍存在明顯短板：僅基于單一數(shù)據(jù)集做評測、各模塊孤立優(yōu)化、對患者病歷信息默認(rèn)理想化完整、僅支持單次診斷推理，無法迭代問診。

論文提出模塊化可解釋鑒別診斷智能體框架 MEDDxAgent，面向交互式鑒別診斷場景設(shè)計(jì)，其診斷推理過程依托迭代式學(xué)習(xí)逐步推演，而非默認(rèn)一開始就能獲取完整患者病歷。

MEDDxAgent 包含三大模塊化組件：(1) 調(diào)度控制器（DDxDriver）；(2) 病史采集模擬器；(3) 分別負(fù)責(zé)知識檢索與診斷策略制定的兩個專用智能體。為實(shí)現(xiàn)穩(wěn)健評測，作者構(gòu)建了一套覆蓋呼吸系統(tǒng)疾病、皮膚病及罕見病的綜合性鑒別診斷基準(zhǔn)數(shù)據(jù)集。通過對單輪診斷方法進(jìn)行對比分析，論文證實(shí)：在初始無法獲取完整患者病歷的真實(shí)場景下，迭代式診斷優(yōu)化至關(guān)重要。

研究背景

鑒別診斷（DDx）是醫(yī)學(xué)決策中至關(guān)重要的環(huán)節(jié)，醫(yī)生會從多種潛在疾病中系統(tǒng)篩選出可能性最大的病癥。在真實(shí)臨床工作中，鑒別診斷必不可少，因?yàn)樗軌驊?yīng)對診斷過程中存在的不確定性。

同時，鑒別診斷的實(shí)施難度極大：人類已知潛在疾病數(shù)量龐大、醫(yī)學(xué)知識更新迭代迅速，且許多癥狀與既往病史特征可同時指向多種不同疾病。但真實(shí)臨床病例表現(xiàn)復(fù)雜多變，因此近年研究開始嘗試構(gòu)建基于大語言模型（LLM）的計(jì)算框架，用于優(yōu)化輔助鑒別診斷流程。

盡管基于大語言模型的系統(tǒng)在智能輔助診斷方面展現(xiàn)出應(yīng)用潛力，但現(xiàn)有方法仍存在多處明顯局限：

依賴單一數(shù)據(jù)集評估，難以在不同人群、不同疾病類別上保證泛化能力；
僅單獨(dú)優(yōu)化某一個診斷模塊（如只優(yōu)化診斷策略），缺乏可同時提升診斷全流程多環(huán)節(jié)的一體化方案；
默認(rèn)一開始就能獲取完整患者病歷（包含全部癥狀與既往病史），且普遍采用單輪診斷范式，與真實(shí)臨床不符 —— 實(shí)際鑒別診斷是一個逐步探查的過程，需要通過后續(xù)問診不斷補(bǔ)充信息；
缺少迭代學(xué)習(xí)機(jī)制，無法在多輪交互中動態(tài)更新診斷結(jié)論，而這恰恰是真實(shí)臨床決策的核心特征；

醫(yī)學(xué)相關(guān)研究過度依賴醫(yī)學(xué)問答類基準(zhǔn)數(shù)據(jù)集，無法真實(shí)還原實(shí)際鑒別診斷任務(wù)的復(fù)雜程度。

針對以上研究空白，論文提出模塊化可解釋鑒別診斷智能體框架 MEDDxAgent。

方法

圖1 MEDDxAgent 框架整體架構(gòu):該框架整合了中央調(diào)度器（DDxDriver）、病史采集模擬器以及兩個專用智能體（知識檢索、診斷策略）?？蚣茏裱?ReAct 范式，即思考 — 行動 — 觀測流程，支持串行推理與分步執(zhí)行，并可在迭代學(xué)習(xí)過程中，對所有交互行為進(jìn)行透明化日志記錄。

論文提出的 MEDDxAgent 框架由中央調(diào)度器（DDxDriver）、病史采集模擬器，以及分別負(fù)責(zé)知識檢索與診斷策略的兩個專用診斷智能體共同組成。

模擬器與兩個診斷智能體均僅與 DDxDriver 進(jìn)行通信交互；DDxDriver 負(fù)責(zé)監(jiān)控、存儲、維護(hù)并實(shí)時更新患者信息與排序后的鑒別診斷疾病列表。

憑借這一核心中樞角色，DDxDriver 可統(tǒng)籌調(diào)度迭代反饋循環(huán)：利用各個智能體返回的觀測信息，結(jié)合智能體指令，對后續(xù)的智能體調(diào)用過程進(jìn)行優(yōu)化與迭代完善。

(一) 病史采集模擬器(Simulator)

病史采集是鑒別診斷中至關(guān)重要的第一步，臨床醫(yī)生通過向患者詢問癥狀、既往病史及生活方式相關(guān)因素，收集關(guān)鍵診療信息。

為模擬這種真實(shí)交互問診場景，論文設(shè)計(jì)了病史采集模擬器。實(shí)驗(yàn)中作者采用雙大語言模型對模擬器進(jìn)行初始化構(gòu)建：第一個大語言模型扮演患者，可讀取完整患者病歷；第二個大語言模型扮演醫(yī)生，僅獲取患者初始病歷。

交互過程中，醫(yī)生角色圍繞診斷流程提出問診問題，患者角色依據(jù)自身完整病歷給出對應(yīng)回答。對話會持續(xù)進(jìn)行，直至完成預(yù)設(shè)問診目標(biāo)，或達(dá)到提前設(shè)定的終止條件（如最大提問輪次）。問診對話結(jié)束后，完整對話記錄會被轉(zhuǎn)發(fā)至 DDxDriver 調(diào)度器。

(二) 知識檢索智能體Knowledge Retrieval Agent

該智能體通過從科研文獻(xiàn)、醫(yī)學(xué)數(shù)據(jù)庫、臨床診療指南等外部數(shù)據(jù)源中檢索相關(guān)醫(yī)學(xué)知識，輔助診斷流程。

智能體被觸發(fā)后，會接收由DDxDriver根據(jù)當(dāng)前患者病歷與初步鑒別診斷列表生成的檢索查詢。智能體從查詢中提取核心醫(yī)學(xué)概念，整理為結(jié)構(gòu)化關(guān)鍵詞，再在外部數(shù)據(jù)庫中進(jìn)行定向檢索。

論文采用兩大主要知識來源：維基百科與 PubMed。前者提供高權(quán)重詞條的精簡概述，后者可檢索可全文獲取文獻(xiàn)的摘要內(nèi)容。

(三) 診斷策略智能體Diagnosis Strategy Agent

該智能體負(fù)責(zé)依據(jù)DDxDriver整理好的信息，生成、迭代優(yōu)化并排序各類疑似診斷結(jié)果。

診斷策略智能體提供兩種可選用的工作模式：第一種是零樣本模式：大語言模型僅依靠當(dāng)前患者的病歷信息，直接預(yù)測最有可能的診斷結(jié)果。該方式流程簡單，但面對復(fù)雜病癥或罕見病時，診斷準(zhǔn)確率有限。第二種是少樣本模式：診斷策略智能體借助額外的相似病例作為參考來輔助預(yù)測，實(shí)現(xiàn)更貼合上下文場景的臨床診斷推理。

(四) 中央調(diào)度器Orchestrator

論文將 DDxDriver 設(shè)計(jì)為 MEDDxAgent 框架中的中央?yún)f(xié)調(diào)樞紐。DDxDriver 可實(shí)現(xiàn)診斷智能體與基準(zhǔn)數(shù)據(jù)集之間的模塊化兼容，只需極少適配改造即可接入使用。

DDxDriver 采用 ReAct 范式：在每一輪流程中，DDxDriver 首先獲取環(huán)境交互信息（輸入 / 輸出），以及模擬器和各智能體上一輪運(yùn)行的返回結(jié)果（如有觀測信息）；隨后基于現(xiàn)有臨床證據(jù)進(jìn)行狀態(tài)推理（思考），并依據(jù)當(dāng)前患者病歷狀態(tài)，生成面向特定智能體的執(zhí)行指令（行動）。它將指令下發(fā)至選定的模擬器或智能體并執(zhí)行，再利用新獲取的信息更新患者病歷。

(五) 迭代學(xué)習(xí)機(jī)制

論文設(shè)計(jì)迭代學(xué)習(xí)機(jī)制，避免僅依賴單一診斷智能體或靜態(tài)決策流程。本機(jī)制設(shè)置兩種迭代模式：(1) 固定迭代、(2) 動態(tài)迭代。

固定迭代按固定順序依次調(diào)度病史采集模擬器、知識檢索智能體、診斷策略智能體循環(huán)運(yùn)行，直至達(dá)到預(yù)設(shè)終止條件（如指定迭代輪次）。

與之相對，動態(tài)迭代不再受預(yù)設(shè)執(zhí)行順序限制，允許DDxDriver 在鑒別診斷過程中自適應(yīng)動態(tài)調(diào)度。每一輪獲得觀測結(jié)果后，DDxDriver 會依據(jù)最新信息（更新后的患者病歷、醫(yī)學(xué)文獻(xiàn)資料、當(dāng)前預(yù)測的鑒別診斷列表），自主推理下一步應(yīng)該調(diào)用哪個模塊：病史采集模擬器、知識檢索智能體或診斷策略智能體。

這種設(shè)計(jì)實(shí)現(xiàn)了靈活決策，讓診斷流程能夠隨著新信息的不斷補(bǔ)充而動態(tài)調(diào)整。迭代學(xué)習(xí)機(jī)制使MEDDxAgent 可以持續(xù)優(yōu)化診斷結(jié)果，同時對自身推理過程提供透明、可追溯的解釋。

結(jié)果分析

(一) 數(shù)據(jù)集設(shè)置:

DDxPlus: 大規(guī)模結(jié)構(gòu)化數(shù)據(jù)集，包含130 萬例合成呼吸科患者病例，涵蓋 49 種呼吸系統(tǒng)相關(guān)疾病。
iCraft-MD：包含 394 種皮膚??；該數(shù)據(jù)集在原有 Craft-MD 數(shù)據(jù)集靜態(tài)皮膚科臨床病例基礎(chǔ)上，改造為交互式評測場景：系統(tǒng)初始只能獲取部分患者信息，需要主動問診、自行收集補(bǔ)充病情信息。
RareBench：在 DDxPlus 基礎(chǔ)上進(jìn)行擴(kuò)充，新增 421 種罕見病。

(二) 評估指標(biāo):

1. 正確疾病的平均排名

用于衡量模型能否將真實(shí)診斷結(jié)果排在靠前位置。若真實(shí)診斷未進(jìn)入模型預(yù)測的前10名，則統(tǒng)一將其排名記為11。

2. GTPA@k（真實(shí)病理準(zhǔn)確率）

用于判斷真實(shí)疾病標(biāo)簽是否出現(xiàn)在模型預(yù)測的前 k 個診斷結(jié)果中

3. 平均進(jìn)展率(Δ Progress)

用于追蹤真實(shí)疾病在鑒別診斷列表中的排名變化，對于每一例患者樣本i，先計(jì)算其在N 輪迭代診斷中排名的進(jìn)步值并取平均，再對全部M 例患者做整體聚合統(tǒng)計(jì)。該指標(biāo)可以量化評估系統(tǒng)在多輪迭代中逐步優(yōu)化、收斂至正確診斷的效果。

(三) 模型和任務(wù)

1. LLM模型選擇：

論文在全部實(shí)驗(yàn)任務(wù)上對 GPT-4o、Llama3.1-70B 與 Llama3.1-8B三類大模型開展評測，實(shí)現(xiàn)不同參數(shù)量規(guī)模大語言模型的橫向?qū)Ρ取?/p>

2. 評測方案：

(1) 單智能體單獨(dú)優(yōu)化評測；

在單輪推理場景下，分別評測知識檢索、診斷策略兩大智能體。該方式可以排除信息不完整帶來的干擾因素，獨(dú)立驗(yàn)證各智能體自身推理機(jī)制的有效性。

(2) 交互式鑒別診斷評測；

在交互式鑒別診斷場景下評估 MEDDxAgent 整體性能，并與單輪診斷智能體、病史采集模擬器進(jìn)行對比。交互式鑒別診斷是更具挑戰(zhàn)性、也更貼近真實(shí)臨床的場景：模型僅能獲取患者初始信息，無法拿到完整的癥狀與既往病史列表。

3. 超參數(shù)和實(shí)驗(yàn)設(shè)置：

對于知識檢索智能體，論文限定每次檢索查詢最多使用3 個醫(yī)學(xué)關(guān)鍵詞。
動態(tài)少樣本部分采用 BioClinicalBERT（BERT）與 BGE-BASE-EN-V1.5（BAII）具體采用歸一化嵌入向量的 L2 距離計(jì)算相似度，效果與余弦相似度設(shè)置相近。
在病史采集模擬器部分，論文構(gòu)建迭代問診環(huán)境，4. 分別設(shè)置最大提問輪次為 5、10、15 進(jìn)行評測。
論文設(shè)置迭代次數(shù)為 1～3 輪，每輪固定 5 次問診提問。

(四) 關(guān)鍵實(shí)驗(yàn)與結(jié)果分析:

1. 單智能體最優(yōu)參數(shù)調(diào)優(yōu)實(shí)驗(yàn)

在將知識檢索智能體與診斷策略智能體融入迭代實(shí)驗(yàn)場景之前,沿用已有研究的實(shí)驗(yàn)設(shè)定，向模型提供完整患者病歷。

表1 上圖為非交互式場景下知識檢索智能體（上半部分）與診斷策略智能體（下半部分）的實(shí)驗(yàn)結(jié)果。‡ 論文僅列出少樣本（標(biāo)準(zhǔn)少樣本、Dyn_BAII 動態(tài)少樣本）結(jié)果，原因是該方案性能始終優(yōu)于 Dyn_BERT 方法，且所有模型均呈現(xiàn)相似變化趨勢。

結(jié)果分析:

在知識檢索智能體中，PubMed 整體表現(xiàn)略優(yōu)于維基百科；在需要復(fù)雜疾病專業(yè)信息的 RareBench 數(shù)據(jù)集上，這一優(yōu)勢尤為明顯。

對于診斷策略智能體，最優(yōu)配置隨數(shù)據(jù)集不同而存在差異：在 DDxPlus 與 RareBench 上，基于 BAII 嵌入向量的動態(tài)少樣本效果最佳，這是因?yàn)橄嗨撇±龢永軌驗(yàn)橐伤萍膊√峁┛煽康纳舷挛膮⒖家罁?jù)。而在 iCraft-MD 數(shù)據(jù)集上，零樣本思維鏈（CoT）更具優(yōu)勢，可針對復(fù)雜臨床病例開展結(jié)構(gòu)化推理。

對 iCraft-MD 而言，少樣本學(xué)習(xí)往往會降低診斷性能，原因是該數(shù)據(jù)集中每例臨床病例特征差異極大，引入額外參考樣例反而會帶入噪聲干擾。

基于以上實(shí)驗(yàn)結(jié)論，論文為后續(xù)迭代實(shí)驗(yàn)場景選定如下配置：知識檢索智能體統(tǒng)一采用 PubMed；

2. 交互式鑒別診斷實(shí)驗(yàn)

交互式鑒別診斷實(shí)驗(yàn)進(jìn)一步評測更具挑戰(zhàn)性進(jìn)一步評測更具挑戰(zhàn)性的交互式鑒別診斷任務(wù)：模型初始僅擁有有限患者信息，由病史采集模擬器構(gòu)建完整交互實(shí)驗(yàn)環(huán)境。

表2 三大數(shù)據(jù)集在無完整患者病歷條件下的交互式實(shí)驗(yàn)性能；其中 KR 代表知識檢索智能體，DS 代表診斷策略智能體；n 為病史采集模擬器的問診輪次；MEDDx 為同時結(jié)合 KR 與 DS 的模型配置。

結(jié)果分析:

當(dāng) n=0 時，模擬器未通過問診獲取任何額外患者信息。以 GPT-4o 在 RareBench 數(shù)據(jù)集上的結(jié)果為例：知識檢索智能體（KR）的 GTPA@1 由 0.45 降至 0.07；診斷策略智能體（零樣本設(shè)置）的 GTPA@1 由 0.46 降至 0.11。該基線結(jié)果表明：以往在完備病歷條件下得到的評測結(jié)論，無法適用于初始信息匱乏的交互式場景。

當(dāng)交互輪次增至 n=5 時，知識檢索智能體與診斷策略智能體的診斷性能均得到大幅提升。這一結(jié)果印證了病史采集對于提升診斷準(zhǔn)確率至關(guān)重要。

在 DDxPlus 數(shù)據(jù)集上，GPT-4o 的 GTPA@1 從 0.69 提升至 0.86，Llama3.1-70B 從 0.54 提升至 0.71。

對于 Llama3.1-8B 小模型，在 DDxPlus 數(shù)據(jù)集上仍保持性能提升趨勢，但在 iCraft-MD 與 RareBench 數(shù)據(jù)集上表現(xiàn)不穩(wěn)定，凸顯了模型參數(shù)量規(guī)模對診斷效果的影響。

平均進(jìn)展率 ΔProgress 始終為正值，說明 MEDDxAgent 能夠通過多輪迭代，持續(xù)抬高真實(shí)疾病在診斷列表中的排名。平均進(jìn)展率在不同數(shù)據(jù)集、不同模型上表現(xiàn)各異，為 MEDDxAgent 的診斷性能提升提供了可解釋依據(jù)。

整體實(shí)驗(yàn)結(jié)果表明：MEDDxAgent 能夠在高難度、貼近真實(shí)臨床的交互式鑒別診斷場景中穩(wěn)定有效運(yùn)行。

結(jié)論

現(xiàn)有的自動鑒別診斷方法存在諸多局限：要么僅采用單一數(shù)據(jù)集開展評估，要么假定患者病歷信息完整可全量獲取，要么只針對孤立的診斷模塊做局部優(yōu)化，或是僅進(jìn)行單次一次性診斷。

論文提出 MEDDxAgent，這是一個具備模塊化、可解釋性的框架，通過迭代學(xué)習(xí)方式提升自動鑒別診斷能力。MEDDxAgent 整合了病史采集模擬器、兩大智能體（知識檢索智能體、診斷策略智能體）以及調(diào)度控制器 DDxDriver，用以應(yīng)對更具挑戰(zhàn)性、更貼近真實(shí)臨床的交互式鑒別診斷場景 —— 這類場景下初始患者病歷并不完整。。該框架采用模塊化設(shè)計(jì)，可對最優(yōu)智能體組合配置進(jìn)行系統(tǒng)性評測；同時通過中間過程日志記錄與全新的平均進(jìn)展率指標(biāo)，為模型推理過程提供關(guān)鍵的可解釋性與透明性

實(shí)驗(yàn)結(jié)果表明：交互式鑒別診斷的難度遠(yuǎn)高于傳統(tǒng)單輪診斷。MEDDxAgent 能夠迭代修正診斷預(yù)測結(jié)果，性能顯著優(yōu)于簡易的單輪診斷方法。希望該框架能夠推動相關(guān)研究持續(xù)進(jìn)步，助力研發(fā)出適應(yīng)性更強(qiáng)、效果更優(yōu)的自動鑒別診斷模型。

撰稿人：姚剛

審稿人：何樂為

登錄用戶可以查看和發(fā)表評論，請前往登錄或注冊。

麻豆精品无码av,欧美1区2区,久久中文字幕乱码人妻,亚洲欧美另类少妇精品,在线看黄射,69pao高清,九九九久久久国产精品,子操大逼1234区,九九爱99热精品

論文概要

研究背景

方法

結(jié)果分析

結(jié)論