麻豆精品无码av,欧美1区2区,久久中文字幕乱码人妻,亚洲欧美另类少妇精品,在线看黄射,69pao高清,九九九久久久国产精品,子操大逼1234区,九九爱99热精品

ACL 2025 |MEDDxAgent:面向可解釋性自動鑒別診斷的統(tǒng)一模塊化智能體框架

該論文發(fā)表于Association for Computational Linguistics

(ACL) 2025,題目為《MEDDxAgent: A Unified Modular Agent Framework for Explainable Automatic Differential Diagnosis》。

加州大學(xué)圣塔芭芭拉分校的Daniel Rose為此文第一作者。

論文鏈接:https://aclanthology.org/2025.acl-long.677.pdf

論文概要

鑒別診斷(DDx) 是臨床決策中一項(xiàng)基礎(chǔ)卻復(fù)雜的核心環(huán)節(jié):醫(yī)生會依據(jù)患者癥狀、既往病史及醫(yī)學(xué)專業(yè)知識,迭代完善并排序潛在疑似疾病列表。盡管大語言模型(LLM)的最新研究進(jìn)展,已在輔助鑒別診斷方面展現(xiàn)出應(yīng)用潛力,但現(xiàn)有研究方案仍存在明顯短板:僅基于單一數(shù)據(jù)集做評測、各模塊孤立優(yōu)化、對患者病歷信息默認(rèn)理想化完整、僅支持單次診斷推理,無法迭代問診。

論文提出模塊化可解釋鑒別診斷智能體框架 MEDDxAgent,面向交互式鑒別診斷場景設(shè)計(jì),其診斷推理過程依托迭代式學(xué)習(xí)逐步推演,而非默認(rèn)一開始就能獲取完整患者病歷。

MEDDxAgent 包含三大模塊化組件:(1) 調(diào)度控制器(DDxDriver);(2) 病史采集模擬器;(3) 分別負(fù)責(zé)知識檢索診斷策略制定的兩個專用智能體。為實(shí)現(xiàn)穩(wěn)健評測,作者構(gòu)建了一套覆蓋呼吸系統(tǒng)疾病、皮膚病及罕見病的綜合性鑒別診斷基準(zhǔn)數(shù)據(jù)集。通過對單輪診斷方法進(jìn)行對比分析,論文證實(shí):在初始無法獲取完整患者病歷的真實(shí)場景下,迭代式診斷優(yōu)化至關(guān)重要。

研究背景

鑒別診斷(DDx)是醫(yī)學(xué)決策中至關(guān)重要的環(huán)節(jié),醫(yī)生會從多種潛在疾病中系統(tǒng)篩選出可能性最大的病癥。在真實(shí)臨床工作中,鑒別診斷必不可少,因?yàn)樗軌驊?yīng)對診斷過程中存在的不確定性。

同時,鑒別診斷的實(shí)施難度極大:人類已知潛在疾病數(shù)量龐大、醫(yī)學(xué)知識更新迭代迅速,且許多癥狀與既往病史特征可同時指向多種不同疾病。但真實(shí)臨床病例表現(xiàn)復(fù)雜多變,因此近年研究開始嘗試構(gòu)建基于大語言模型(LLM) 的計(jì)算框架,用于優(yōu)化輔助鑒別診斷流程。

盡管基于大語言模型的系統(tǒng)在智能輔助診斷方面展現(xiàn)出應(yīng)用潛力,但現(xiàn)有方法仍存在多處明顯局限:

  • 依賴單一數(shù)據(jù)集評估,難以在不同人群、不同疾病類別上保證泛化能力;
  • 僅單獨(dú)優(yōu)化某一個診斷模塊(如只優(yōu)化診斷策略),缺乏可同時提升診斷全流程多環(huán)節(jié)的一體化方案;
  • 默認(rèn)一開始就能獲取完整患者病歷(包含全部癥狀與既往病史),且普遍采用單輪診斷范式,與真實(shí)臨床不符 —— 實(shí)際鑒別診斷是一個逐步探查的過程,需要通過后續(xù)問診不斷補(bǔ)充信息;
  • 缺少迭代學(xué)習(xí)機(jī)制,無法在多輪交互中動態(tài)更新診斷結(jié)論,而這恰恰是真實(shí)臨床決策的核心特征;

醫(yī)學(xué)相關(guān)研究過度依賴醫(yī)學(xué)問答類基準(zhǔn)數(shù)據(jù)集,無法真實(shí)還原實(shí)際鑒別診斷任務(wù)的復(fù)雜程度。

針對以上研究空白,論文提出模塊化可解釋鑒別診斷智能體框架 MEDDxAgent。

方法

圖1 MEDDxAgent 框架整體架構(gòu):該框架整合了中央調(diào)度器(DDxDriver)、病史采集模擬器以及兩個專用智能體(知識檢索、診斷策略)??蚣茏裱?ReAct 范式,即思考 — 行動 — 觀測流程,支持串行推理與分步執(zhí)行,并可在迭代學(xué)習(xí)過程中,對所有交互行為進(jìn)行透明化日志記錄。

論文提出的 MEDDxAgent 框架由中央調(diào)度器(DDxDriver)病史采集模擬器,以及分別負(fù)責(zé)知識檢索診斷策略的兩個專用診斷智能體共同組成。

模擬器與兩個診斷智能體均僅與 DDxDriver 進(jìn)行通信交互;DDxDriver 負(fù)責(zé)監(jiān)控、存儲、維護(hù)并實(shí)時更新患者信息與排序后的鑒別診斷疾病列表。

憑借這一核心中樞角色,DDxDriver 可統(tǒng)籌調(diào)度迭代反饋循環(huán):利用各個智能體返回的觀測信息,結(jié)合智能體指令,對后續(xù)的智能體調(diào)用過程進(jìn)行優(yōu)化與迭代完善。

(一) 病史采集模擬器(Simulator)

病史采集是鑒別診斷中至關(guān)重要的第一步,臨床醫(yī)生通過向患者詢問癥狀、既往病史及生活方式相關(guān)因素,收集關(guān)鍵診療信息。

為模擬這種真實(shí)交互問診場景,論文設(shè)計(jì)了病史采集模擬器。實(shí)驗(yàn)中作者采用雙大語言模型對模擬器進(jìn)行初始化構(gòu)建:第一個大語言模型扮演患者,可讀取完整患者病歷;第二個大語言模型扮演醫(yī)生,僅獲取患者初始病歷。

交互過程中,醫(yī)生角色圍繞診斷流程提出問診問題,患者角色依據(jù)自身完整病歷給出對應(yīng)回答。對話會持續(xù)進(jìn)行,直至完成預(yù)設(shè)問診目標(biāo),或達(dá)到提前設(shè)定的終止條件(如最大提問輪次)。問診對話結(jié)束后,完整對話記錄會被轉(zhuǎn)發(fā)至 DDxDriver 調(diào)度器。

(二) 知識檢索智能體Knowledge Retrieval Agent

該智能體通過從科研文獻(xiàn)、醫(yī)學(xué)數(shù)據(jù)庫、臨床診療指南等外部數(shù)據(jù)源中檢索相關(guān)醫(yī)學(xué)知識,輔助診斷流程。

智能體被觸發(fā)后,會接收由DDxDriver根據(jù)當(dāng)前患者病歷與初步鑒別診斷列表生成的檢索查詢。智能體從查詢中提取核心醫(yī)學(xué)概念,整理為結(jié)構(gòu)化關(guān)鍵詞,再在外部數(shù)據(jù)庫中進(jìn)行定向檢索。

論文采用兩大主要知識來源:維基百科與 PubMed。前者提供高權(quán)重詞條的精簡概述,后者可檢索可全文獲取文獻(xiàn)的摘要內(nèi)容。

(三) 診斷策略智能體Diagnosis Strategy Agent

該智能體負(fù)責(zé)依據(jù)DDxDriver整理好的信息,生成、迭代優(yōu)化并排序各類疑似診斷結(jié)果。

診斷策略智能體提供兩種可選用的工作模式:第一種是零樣本模式:大語言模型僅依靠當(dāng)前患者的病歷信息,直接預(yù)測最有可能的診斷結(jié)果。該方式流程簡單,但面對復(fù)雜病癥或罕見病時,診斷準(zhǔn)確率有限。第二種是少樣本模式:診斷策略智能體借助額外的相似病例作為參考來輔助預(yù)測,實(shí)現(xiàn)更貼合上下文場景的臨床診斷推理。

(四) 中央調(diào)度器Orchestrator

論文將 DDxDriver 設(shè)計(jì)為 MEDDxAgent 框架中的中央?yún)f(xié)調(diào)樞紐。DDxDriver 可實(shí)現(xiàn)診斷智能體與基準(zhǔn)數(shù)據(jù)集之間的模塊化兼容,只需極少適配改造即可接入使用。

DDxDriver 采用 ReAct 范式:在每一輪流程中,DDxDriver 首先獲取環(huán)境交互信息(輸入 / 輸出),以及模擬器和各智能體上一輪運(yùn)行的返回結(jié)果(如有觀測信息);隨后基于現(xiàn)有臨床證據(jù)進(jìn)行狀態(tài)推理(思考),并依據(jù)當(dāng)前患者病歷狀態(tài),生成面向特定智能體的執(zhí)行指令(行動)。它將指令下發(fā)至選定的模擬器或智能體并執(zhí)行,再利用新獲取的信息更新患者病歷。

(五) 迭代學(xué)習(xí)機(jī)制

論文設(shè)計(jì)迭代學(xué)習(xí)機(jī)制,避免僅依賴單一診斷智能體或靜態(tài)決策流程。本機(jī)制設(shè)置兩種迭代模式:(1) 固定迭代、(2) 動態(tài)迭代。

固定迭代按固定順序依次調(diào)度病史采集模擬器、知識檢索智能體、診斷策略智能體循環(huán)運(yùn)行,直至達(dá)到預(yù)設(shè)終止條件(如指定迭代輪次)。

與之相對,動態(tài)迭代不再受預(yù)設(shè)執(zhí)行順序限制,允許DDxDriver 在鑒別診斷過程中自適應(yīng)動態(tài)調(diào)度。每一輪獲得觀測結(jié)果后,DDxDriver 會依據(jù)最新信息(更新后的患者病歷、醫(yī)學(xué)文獻(xiàn)資料、當(dāng)前預(yù)測的鑒別診斷列表),自主推理下一步應(yīng)該調(diào)用哪個模塊:病史采集模擬器、知識檢索智能體 或 診斷策略智能體。

這種設(shè)計(jì)實(shí)現(xiàn)了靈活決策,讓診斷流程能夠隨著新信息的不斷補(bǔ)充而動態(tài)調(diào)整。迭代學(xué)習(xí)機(jī)制使MEDDxAgent 可以持續(xù)優(yōu)化診斷結(jié)果,同時對自身推理過程提供透明、可追溯的解釋。

結(jié)果分析

(一) 數(shù)據(jù)集設(shè)置:

  • DDxPlus: 大規(guī)模結(jié)構(gòu)化數(shù)據(jù)集,包含130 萬例合成呼吸科患者病例,涵蓋 49 種呼吸系統(tǒng)相關(guān)疾病。

  • iCraft-MD:包含 394 種皮膚??;該數(shù)據(jù)集在原有 Craft-MD 數(shù)據(jù)集靜態(tài)皮膚科臨床病例基礎(chǔ)上,改造為交互式評測場景:系統(tǒng)初始只能獲取部分患者信息,需要主動問診、自行收集補(bǔ)充病情信息。

  • RareBench:在 DDxPlus 基礎(chǔ)上進(jìn)行擴(kuò)充,新增 421 種罕見病。

(二) 評估指標(biāo):

1. 正確疾病的平均排名

用于衡量模型能否將真實(shí)診斷結(jié)果排在靠前位置。若真實(shí)診斷未進(jìn)入模型預(yù)測的前10名,則統(tǒng)一將其排名記為11。

2. GTPA@k(真實(shí)病理準(zhǔn)確率)

用于判斷真實(shí)疾病標(biāo)簽是否出現(xiàn)在模型預(yù)測的前 k 個診斷結(jié)果中

3. 平均進(jìn)展率(Δ Progress)

用于追蹤真實(shí)疾病在鑒別診斷列表中的排名變化,對于每一例患者樣本i,先計(jì)算其在N 輪迭代診斷中排名的進(jìn)步值并取平均,再對全部M 例患者做整體聚合統(tǒng)計(jì)。該指標(biāo)可以量化評估系統(tǒng)在多輪迭代中逐步優(yōu)化、收斂至正確診斷的效果。

(三) 模型和任務(wù)

1. LLM模型選擇:

論文在全部實(shí)驗(yàn)任務(wù)上對 GPT-4o、Llama3.1-70B 與 Llama3.1-8B三類大模型開展評測,實(shí)現(xiàn)不同參數(shù)量規(guī)模大語言模型的橫向?qū)Ρ取?/p>

2. 評測方案:

(1) 單智能體單獨(dú)優(yōu)化評測;

在單輪推理場景下,分別評測知識檢索、診斷策略兩大智能體。該方式可以排除信息不完整帶來的干擾因素,獨(dú)立驗(yàn)證各智能體自身推理機(jī)制的有效性。

(2) 交互式鑒別診斷評測;

在交互式鑒別診斷場景下評估 MEDDxAgent 整體性能,并與單輪診斷智能體、病史采集模擬器進(jìn)行對比。交互式鑒別診斷是更具挑戰(zhàn)性、也更貼近真實(shí)臨床的場景:模型僅能獲取患者初始信息,無法拿到完整的癥狀與既往病史列表。

3. 超參數(shù)和實(shí)驗(yàn)設(shè)置:

  1. 對于知識檢索智能體,論文限定每次檢索查詢最多使用3 個醫(yī)學(xué)關(guān)鍵詞。

  2. 動態(tài)少樣本部分采用 BioClinicalBERT(BERT)與 BGE-BASE-EN-V1.5(BAII)具體采用歸一化嵌入向量的 L2 距離計(jì)算相似度,效果與余弦相似度設(shè)置相近。

  3. 在病史采集模擬器部分,論文構(gòu)建迭代問診環(huán)境,4. 分別設(shè)置最大提問輪次為 5、10、15 進(jìn)行評測。

  4. 論文設(shè)置迭代次數(shù)為 1~3 輪,每輪固定 5 次問診提問。

(四) 關(guān)鍵實(shí)驗(yàn)與結(jié)果分析:

1. 單智能體最優(yōu)參數(shù)調(diào)優(yōu)實(shí)驗(yàn)

在將知識檢索智能體與診斷策略智能體融入迭代實(shí)驗(yàn)場景之前,沿用已有研究的實(shí)驗(yàn)設(shè)定,向模型提供完整患者病歷。

表1 上圖為非交互式場景下知識檢索智能體(上半部分)與診斷策略智能體(下半部分)的實(shí)驗(yàn)結(jié)果。‡ 論文僅列出少樣本(標(biāo)準(zhǔn)少樣本、Dyn_BAII 動態(tài)少樣本)結(jié)果,原因是該方案性能始終優(yōu)于 Dyn_BERT 方法,且所有模型均呈現(xiàn)相似變化趨勢。

結(jié)果分析:

在知識檢索智能體中,PubMed 整體表現(xiàn)略優(yōu)于維基百科;在需要復(fù)雜疾病專業(yè)信息的 RareBench 數(shù)據(jù)集上,這一優(yōu)勢尤為明顯。

對于診斷策略智能體,最優(yōu)配置隨數(shù)據(jù)集不同而存在差異:在 DDxPlus 與 RareBench 上,基于 BAII 嵌入向量的動態(tài)少樣本效果最佳,這是因?yàn)橄嗨撇±龢永軌驗(yàn)橐伤萍膊√峁┛煽康纳舷挛膮⒖家罁?jù)。而在 iCraft-MD 數(shù)據(jù)集上,零樣本思維鏈(CoT) 更具優(yōu)勢,可針對復(fù)雜臨床病例開展結(jié)構(gòu)化推理。

對 iCraft-MD 而言,少樣本學(xué)習(xí)往往會降低診斷性能,原因是該數(shù)據(jù)集中每例臨床病例特征差異極大,引入額外參考樣例反而會帶入噪聲干擾。

基于以上實(shí)驗(yàn)結(jié)論,論文為后續(xù)迭代實(shí)驗(yàn)場景選定如下配置:知識檢索智能體統(tǒng)一采用 PubMed;

2. 交互式鑒別診斷實(shí)驗(yàn)

交互式鑒別診斷實(shí)驗(yàn)進(jìn)一步評測更具挑戰(zhàn)性進(jìn)一步評測更具挑戰(zhàn)性的交互式鑒別診斷任務(wù):模型初始僅擁有有限患者信息,由病史采集模擬器構(gòu)建完整交互實(shí)驗(yàn)環(huán)境。

表2 三大數(shù)據(jù)集在無完整患者病歷條件下的交互式實(shí)驗(yàn)性能;其中 KR 代表知識檢索智能體,DS 代表診斷策略智能體;n 為病史采集模擬器的問診輪次;MEDDx 為同時結(jié)合 KR 與 DS 的模型配置。

結(jié)果分析:

當(dāng) n=0 時,模擬器未通過問診獲取任何額外患者信息。以 GPT-4o 在 RareBench 數(shù)據(jù)集上的結(jié)果為例:知識檢索智能體(KR)的 GTPA@1 由 0.45 降至 0.07;診斷策略智能體(零樣本設(shè)置)的 GTPA@1 由 0.46 降至 0.11。該基線結(jié)果表明:以往在完備病歷條件下得到的評測結(jié)論,無法適用于初始信息匱乏的交互式場景。

當(dāng)交互輪次增至 n=5 時,知識檢索智能體與診斷策略智能體的診斷性能均得到大幅提升。這一結(jié)果印證了病史采集對于提升診斷準(zhǔn)確率至關(guān)重要。

在 DDxPlus 數(shù)據(jù)集上,GPT-4o 的 GTPA@1 從 0.69 提升至 0.86,Llama3.1-70B 從 0.54 提升至 0.71。

對于 Llama3.1-8B 小模型,在 DDxPlus 數(shù)據(jù)集上仍保持性能提升趨勢,但在 iCraft-MD 與 RareBench 數(shù)據(jù)集上表現(xiàn)不穩(wěn)定,凸顯了模型參數(shù)量規(guī)模對診斷效果的影響。

平均進(jìn)展率 ΔProgress 始終為正值,說明 MEDDxAgent 能夠通過多輪迭代,持續(xù)抬高真實(shí)疾病在診斷列表中的排名。平均進(jìn)展率在不同數(shù)據(jù)集、不同模型上表現(xiàn)各異,為 MEDDxAgent 的診斷性能提升提供了可解釋依據(jù)。

整體實(shí)驗(yàn)結(jié)果表明:MEDDxAgent 能夠在高難度、貼近真實(shí)臨床的交互式鑒別診斷場景中穩(wěn)定有效運(yùn)行。

結(jié)論

現(xiàn)有的自動鑒別診斷方法存在諸多局限:要么僅采用單一數(shù)據(jù)集開展評估,要么假定患者病歷信息完整可全量獲取,要么只針對孤立的診斷模塊做局部優(yōu)化,或是僅進(jìn)行單次一次性診斷。

論文提出 MEDDxAgent,這是一個具備模塊化、可解釋性的框架,通過迭代學(xué)習(xí)方式提升自動鑒別診斷能力。MEDDxAgent 整合了病史采集模擬器、兩大智能體(知識檢索智能體、診斷策略智能體)以及調(diào)度控制器 DDxDriver,用以應(yīng)對更具挑戰(zhàn)性、更貼近真實(shí)臨床的交互式鑒別診斷場景 —— 這類場景下初始患者病歷并不完整。。該框架采用模塊化設(shè)計(jì),可對最優(yōu)智能體組合配置進(jìn)行系統(tǒng)性評測;同時通過中間過程日志記錄與全新的平均進(jìn)展率指標(biāo),為模型推理過程提供關(guān)鍵的可解釋性與透明性

實(shí)驗(yàn)結(jié)果表明:交互式鑒別診斷的難度遠(yuǎn)高于傳統(tǒng)單輪診斷。MEDDxAgent 能夠迭代修正診斷預(yù)測結(jié)果,性能顯著優(yōu)于簡易的單輪診斷方法。希望該框架能夠推動相關(guān)研究持續(xù)進(jìn)步,助力研發(fā)出適應(yīng)性更強(qiáng)、效果更優(yōu)的自動鑒別診斷模型。

撰稿人:姚剛

審稿人:何樂為


登錄用戶可以查看和發(fā)表評論, 請前往  登錄 或  注冊
SCHOLAT.com 學(xué)者網(wǎng)
免責(zé)聲明 | 關(guān)于我們 | 用戶反饋
聯(lián)系我們:
临夏市| 吉首市| 田林县| 彭州市| 田林县| 忻州市| 西贡区| 固原市| 焉耆| 岳阳县| 定陶县| 珲春市| 馆陶县| 隆子县| 水城县| 靖安县| 神木县| 张家界市| 藁城市| 景德镇市| 苗栗县| 湖州市| 永靖县| 肇东市| 理塘县| 赞皇县| 濮阳市| 西畴县| 滨海县| 昭平县| 噶尔县| 丰原市| 阿尔山市| 许昌县| 临桂县| 喀喇| 松阳县| 开化县| 峡江县| 仪陇县| 台南市|