學(xué)者網(wǎng)訊(編輯/劉伶 通訊員/楊柳)近日,華大-之江Genos團(tuán)隊(duì)發(fā)布Genos-m——一個(gè)面向人體相關(guān)微生物基因組的開(kāi)源基礎(chǔ)模型。

Genos-m以人體相關(guān)微生物基因組為主要預(yù)訓(xùn)練語(yǔ)料,覆蓋多個(gè)人體相關(guān)生態(tài)位,并同時(shí)納入共生微生物、病原微生物和噬菌體。模型可將微生物DNA序列、基因組和宏基因組樣本轉(zhuǎn)化為可復(fù)用的序列表征,在多項(xiàng)微生物基因組任務(wù)和真實(shí)宏基因組應(yīng)用中展現(xiàn)出優(yōu)異的穩(wěn)健性和可遷移性。
面向未來(lái),Genos-m有望為病原微生物耐藥與毒力識(shí)別、候選益生菌篩選與功能評(píng)價(jià)、微生態(tài)評(píng)估與人群分層、個(gè)體化微生態(tài)管理等前沿研究與轉(zhuǎn)化應(yīng)用提供新的模型支撐。
為什么需要一個(gè)專(zhuān)門(mén)面向人體微生物基因組設(shè)計(jì)的模型?
人體微生物組與健康、疾病和個(gè)體差異密切相關(guān)。隨著微生物基因組數(shù)據(jù)積累,研究者關(guān)注的不僅是“有哪些微生物”,更包括其序列攜帶的功能、生態(tài)和表型信息?,F(xiàn)有通用DNA大模型通常面向跨物種、跨生命域序列訓(xùn)練,覆蓋廣、通用性強(qiáng);但聚焦人體相關(guān)微生物時(shí),通用性并不等于專(zhuān)業(yè)性。人體微生物組高度多樣,其功能差異常體現(xiàn)在菌株水平、可變基因區(qū)和長(zhǎng)距離基因組上下文中。
Genos-m正是為這一場(chǎng)景設(shè)計(jì)。研究團(tuán)隊(duì)構(gòu)建了以人體相關(guān)微生物為主體的預(yù)訓(xùn)練語(yǔ)料,整合分離株基因組、高質(zhì)量宏基因組組裝基因組(MAGs)和噬菌體基因組,并輔以全球原核代表基因組,以增強(qiáng)對(duì)微生物序列多樣性和基礎(chǔ)規(guī)律的覆蓋,最終形成約1.2萬(wàn)億核苷酸t(yī)oken的訓(xùn)練數(shù)據(jù)。
Genos-m模型如何工作?單堿基預(yù)測(cè)與長(zhǎng)上下文建模
Genos-m采用單堿基分辨率的next-token prediction,即“下一堿基預(yù)測(cè)”預(yù)訓(xùn)練任務(wù)。模型以A/T/C/G等堿基為基本單位,通過(guò)預(yù)測(cè)下一個(gè)堿基,學(xué)習(xí)微生物DNA序列中的局部模式、基因結(jié)構(gòu)和長(zhǎng)距離上下文關(guān)系。在架構(gòu)上,Genos-m繼承Genos的核心設(shè)計(jì),并針對(duì)微生物基因組語(yǔ)料擴(kuò)展專(zhuān)家容量。它使用稀疏激活的MoE Transformer:總參數(shù)規(guī)模約4.7B,每次推理僅激活約3.3億參數(shù),兼顧模型容量與計(jì)算效率。模型支持最長(zhǎng)1M bp的上下文輸入,可覆蓋短序列、單基因、基因簇、噬菌體基因組及更長(zhǎng)基因組片段,為跨尺度序列表征提供模型基礎(chǔ)。

圖:Genos-m模型架構(gòu):稀疏MoE Transformer使用32個(gè)專(zhuān)家和Top-2路由,支持最高1M bp上下文。
Genos-m模型表現(xiàn)如何?小激活規(guī)模下的跨任務(wù)優(yōu)勢(shì)
Genos-m的評(píng)測(cè)從微生物研究的真實(shí)需求出發(fā),覆蓋從短序列到完整基因組的多個(gè)層級(jí):包括啟動(dòng)子、耐藥基因、毒力因子等局部序列識(shí)別;生物合成基因簇(BGC)等長(zhǎng)片段功能模塊識(shí)別與分類(lèi),以及基于全基因組序列的細(xì)菌表型預(yù)測(cè)。結(jié)果表明,Genos-m在較小激活規(guī)模下獲得了有競(jìng)爭(zhēng)力的跨任務(wù)表現(xiàn),在多項(xiàng)任務(wù)中達(dá)到與Evo2-40B等更大規(guī)模通用DNA模型相當(dāng)?shù)乃?,并在抗生素耐藥基因識(shí)別、BGC分類(lèi)和五項(xiàng)基因適應(yīng)性任務(wù)中取得比較模型中的最佳結(jié)果。這說(shuō)明,Genos-m的核心優(yōu)勢(shì)來(lái)自面向人體相關(guān)微生物基因組場(chǎng)景的一系列整體設(shè)計(jì):高質(zhì)量預(yù)訓(xùn)練語(yǔ)料、長(zhǎng)上下文建模,以及適合微生物序列多樣性的稀疏專(zhuān)家架構(gòu)。
從評(píng)測(cè)走向真實(shí)場(chǎng)景:疾病風(fēng)險(xiǎn)評(píng)估與低深度樣本表征
標(biāo)準(zhǔn)評(píng)測(cè)回答了Genos-m的表征能力是否可穩(wěn)定遷移。團(tuán)隊(duì)進(jìn)一步將模型放到人腸道宏基因組真實(shí)場(chǎng)景中,重點(diǎn)展示了兩個(gè)應(yīng)用方向:微生物組的自監(jiān)督學(xué)習(xí)建模和低深度樣本表征。
案例一:基因組表征增強(qiáng)微生物組的自監(jiān)督學(xué)習(xí)
在本場(chǎng)景中,團(tuán)隊(duì)將Genos-m生成的基因組表征接入微生物組群落自監(jiān)督學(xué)習(xí)模型,使模型在物種豐度之外,可進(jìn)一步利用代表基因組中的序列信息?;谌?4個(gè)腸道宏基因組隊(duì)列的結(jié)直腸癌病例-對(duì)照分類(lèi)評(píng)估顯示,該策略在同隊(duì)列交叉驗(yàn)證和跨隊(duì)列遷移中,明顯優(yōu)于傳統(tǒng)物種豐度隨機(jī)森林模型。這意味著,復(fù)雜疾病相關(guān)的微生物信號(hào)不只體現(xiàn)在“哪些物種更多或更少”,更可能來(lái)自其基因組背景及功能潛力差異。Genos-m的作用,是將這些序列層信息轉(zhuǎn)化為群落模型可使用的表征,通過(guò)提供物種豐度之外的信息維度來(lái)提升疾病風(fēng)險(xiǎn)判別模型的穩(wěn)定性和跨人群可遷移性。
案例二:低深度宏基因組樣本表征
在本場(chǎng)景中,團(tuán)隊(duì)直接從下采樣reads生成宏基因組樣本級(jí)表征。結(jié)果顯示,僅使用1萬(wàn)條reads,Genos-m仍能生成穩(wěn)定的人腸道樣本級(jí)表征,保留樣本間群落結(jié)構(gòu)差異,并捕捉宿主地理來(lái)源和腸型分層等關(guān)鍵群落信號(hào)。這意味著,在極低測(cè)序深度下,Genos-m也能快速、無(wú)需參考數(shù)據(jù)庫(kù)的生成可比較的樣本表征,為大規(guī)模低輸入宏基因組數(shù)據(jù)的樣本比對(duì)、來(lái)源評(píng)估和質(zhì)控預(yù)篩等提供輕量化分析路徑。
結(jié)語(yǔ)
Genos-m建立了一個(gè)面向人體相關(guān)微生物基因組與宏基因組的序列表征框架。通過(guò)高質(zhì)量預(yù)訓(xùn)練語(yǔ)料、稀疏專(zhuān)家架構(gòu)和長(zhǎng)上下文建模,模型在微生物基因、基因組和宏基因組樣本等不同尺度上展現(xiàn)出穩(wěn)定的遷移能力。從標(biāo)準(zhǔn)評(píng)測(cè)到結(jié)直腸癌隊(duì)列建模和低深度樣本表征,Genos-m展示了高維序列信息在微生物研究與轉(zhuǎn)化場(chǎng)景中的應(yīng)用價(jià)值。未來(lái),團(tuán)隊(duì)將繼續(xù)推動(dòng)模型迭代和開(kāi)源應(yīng)用,服務(wù)于更廣泛的人體微生物與健康研究。( 全文完)

評(píng)論 0