論文名: Improving Low-Resource Short Answer Scoring through Large Language Model-Based Data Augmentation
作者:Peichao Lai, Kexuan Zhang, Yilei Wang, Bin Cui
IEEE Transactions on Knowledge and Data Engineering 是數(shù)據(jù)工程與人工智能領(lǐng)域的頂級(jí)國(guó)際期刊(CCF-A類(lèi)),長(zhǎng)期關(guān)注數(shù)據(jù)管理、機(jī)器學(xué)習(xí)與智能系統(tǒng)等方向的前沿研究成果。其在自動(dòng)化教育評(píng)估、數(shù)據(jù)挖掘與智能學(xué)習(xí)系統(tǒng)領(lǐng)域具有重要影響力。PKU-DAIR實(shí)驗(yàn)室論文《Improving Low-Resource Short Answer Scoring through Large Language Model-Based Data Augmentation》被TKDE 2026接收。
問(wèn)題背景與動(dòng)機(jī)
隨著在線教育規(guī)模的迅速增長(zhǎng),如何高效、準(zhǔn)確地對(duì)學(xué)生主觀題進(jìn)行自動(dòng)評(píng)分,成為教育智能化中的關(guān)鍵問(wèn)題。其中,短答案評(píng)分(Short Answer Scoring, SAS)由于具有明確參考答案和更強(qiáng)約束性,比長(zhǎng)文本作文評(píng)分更具實(shí)際落地價(jià)值。
然而,在真實(shí)低資源場(chǎng)景(Low-resource)應(yīng)用中,SAS 面臨三個(gè)核心難題:
1. 新題目不斷出現(xiàn),標(biāo)注數(shù)據(jù)難以獲取
2. 學(xué)生答案表達(dá)多樣,語(yǔ)義空間極其復(fù)雜
3. 不同分?jǐn)?shù)區(qū)間樣本稀疏,模型難以學(xué)習(xí)細(xì)粒度評(píng)分邊界
這些問(wèn)題使得當(dāng)前方法在實(shí)際部署中效果不穩(wěn)定,嚴(yán)重制約了自動(dòng)評(píng)分系統(tǒng)的發(fā)展。
核心挑戰(zhàn):數(shù)據(jù)多樣性 vs 評(píng)分一致性
現(xiàn)有方法主要面臨兩大瓶頸:
1. 數(shù)據(jù)稀缺與分布失衡:真實(shí)學(xué)生答題數(shù)據(jù)存在評(píng)分分布不均問(wèn)題,低資源場(chǎng)景下標(biāo)注樣本稀少,模型易過(guò)擬合,泛化能力受限。
2. 合成數(shù)據(jù)質(zhì)量不足:傳統(tǒng)數(shù)據(jù)增強(qiáng)方法易引入噪聲,且LLM生成的合成樣本與真實(shí)學(xué)生答題風(fēng)格差異較大,導(dǎo)致評(píng)分模型出現(xiàn)偏差;同時(shí),評(píng)分模型難以有效捕捉文本中的關(guān)鍵實(shí)體,影響評(píng)分準(zhǔn)確性。

圖1:與現(xiàn)有基于數(shù)據(jù)增強(qiáng)和遷移學(xué)習(xí)的SAS方法的對(duì)比
為解決上述挑戰(zhàn),本研究提出SCALE框架,通過(guò)知識(shí)圖譜驅(qū)動(dòng)的數(shù)據(jù)生成、雙階段過(guò)濾標(biāo)注與實(shí)體感知建模,實(shí)現(xiàn)低資源場(chǎng)景下SAS性能的顯著提升,核心思路具體如下:
1. 知識(shí)圖譜(KG)驅(qū)動(dòng)數(shù)據(jù)合成:構(gòu)建包含硬邊、軟邊等多類(lèi)型邊的知識(shí)圖譜,結(jié)合風(fēng)格重寫(xiě)提示詞,生成語(yǔ)義一致、風(fēng)格多樣的合成樣本,緩解數(shù)據(jù)稀缺問(wèn)題。
2. 雙階段過(guò)濾與標(biāo)注對(duì)齊:通過(guò)語(yǔ)義距離優(yōu)化的初始過(guò)濾,保留多樣且上下文相關(guān)的樣本;再通過(guò)代理數(shù)據(jù)訓(xùn)練標(biāo)注器,緩解合成樣本與真實(shí)樣本的風(fēng)格偏差,確保評(píng)分準(zhǔn)確性。
3. 實(shí)體感知注意力模型:引入實(shí)體提取與實(shí)體級(jí)注意力機(jī)制,融合文本語(yǔ)義與關(guān)鍵實(shí)體信息,提升模型對(duì)技術(shù)類(lèi)文本(如公式、代碼)的評(píng)分能力。
主要貢獻(xiàn)概括為:
1. 提出SCALE框架,通過(guò)KG驅(qū)動(dòng)的數(shù)據(jù)合成與雙階段過(guò)濾,平衡數(shù)據(jù)多樣性與語(yǔ)義一致性,有效緩解低資源場(chǎng)景的數(shù)據(jù)稀疏問(wèn)題。
2. 設(shè)計(jì)實(shí)體感知注意力機(jī)制,增強(qiáng)模型對(duì)關(guān)鍵實(shí)體的捕捉能力,提升技術(shù)類(lèi)短答案的評(píng)分準(zhǔn)確性。
3. 在多語(yǔ)言、多領(lǐng)域數(shù)據(jù)集上驗(yàn)證了方法的有效性,尤其在少樣本場(chǎng)景下表現(xiàn)突出,同時(shí)具備良好的跨領(lǐng)域遷移能力。
方法介紹

圖2:SCALE框架的整體工作流
數(shù)據(jù)生成階段
數(shù)據(jù)生成階段核心是基于知識(shí)圖譜實(shí)現(xiàn)可控的數(shù)據(jù)增強(qiáng),打破傳統(tǒng)隨機(jī)生成模式的局限,構(gòu)建語(yǔ)義一致且多樣的合成樣本。首先,研究通過(guò)大語(yǔ)言模型從參考答案和真實(shí)學(xué)生答案中,精準(zhǔn)抽取關(guān)鍵語(yǔ)義單元,涵蓋關(guān)鍵短語(yǔ)(如專(zhuān)業(yè)術(shù)語(yǔ)、公式、代碼片段等)、實(shí)體類(lèi)型(包括條件、操作、數(shù)值等不同類(lèi)別)以及語(yǔ)義摘要,這些抽取的信息為后續(xù)知識(shí)圖譜構(gòu)建提供了核心支撐?;谶@些語(yǔ)義單元,研究構(gòu)建了一個(gè)任務(wù)特定的知識(shí)圖譜,該圖譜包含三種關(guān)鍵關(guān)系:
- 類(lèi)型關(guān)系(硬邊),用于明確實(shí)體間的固定關(guān)聯(lián)的;
- 語(yǔ)義共現(xiàn)關(guān)系(軟邊),用于表征實(shí)體間的潛在關(guān)聯(lián);
- 表達(dá)與語(yǔ)義映射關(guān)系,用于關(guān)聯(lián)不同表述形式與同一核心語(yǔ)義。
該知識(shí)圖譜為后續(xù)數(shù)據(jù)生成提供了嚴(yán)格的結(jié)構(gòu)化約束,確保生成過(guò)程不偏離目標(biāo)領(lǐng)域語(yǔ)義。在生成過(guò)程中,模型并非直接對(duì)原始文本進(jìn)行改寫(xiě),而是在知識(shí)圖譜中查找與原始關(guān)鍵短語(yǔ)語(yǔ)義相似的候選節(jié)點(diǎn),對(duì)關(guān)鍵短語(yǔ)進(jìn)行精準(zhǔn)替換,同時(shí)嚴(yán)格保持文本整體語(yǔ)義的一致性,這種方式相比傳統(tǒng)隨機(jī)替換,大幅提高了合成數(shù)據(jù)的質(zhì)量,有效減少了語(yǔ)義偏移問(wèn)題,增強(qiáng)了數(shù)據(jù)生成的可控性。此外,為進(jìn)一步擴(kuò)展數(shù)據(jù)多樣性,SCALE引入了風(fēng)格規(guī)則庫(kù),包含詳細(xì)解釋風(fēng)格、簡(jiǎn)潔回答風(fēng)格、數(shù)學(xué)專(zhuān)家風(fēng)格、分點(diǎn)結(jié)構(gòu)風(fēng)格等多種真實(shí)學(xué)生答題中常見(jiàn)的風(fēng)格,通過(guò)隨機(jī)采樣規(guī)則庫(kù)中的風(fēng)格,對(duì)同一答案進(jìn)行多風(fēng)格重寫(xiě),顯著擴(kuò)展了訓(xùn)練數(shù)據(jù)空間,為后續(xù)模型訓(xùn)練提供了豐富的樣本支撐。
數(shù)據(jù)過(guò)濾與對(duì)齊
該階段主要用于提升合成數(shù)據(jù)質(zhì)量,解決合成樣本與真實(shí)樣本的語(yǔ)義偏差和標(biāo)注偏差問(wèn)題,分為語(yǔ)義過(guò)濾、對(duì)齊標(biāo)注和細(xì)粒度過(guò)濾三個(gè)步驟。首先是語(yǔ)義過(guò)濾階段,核心目標(biāo)是篩選出高質(zhì)量的合成數(shù)據(jù),篩選標(biāo)準(zhǔn)兼顧多樣性與一致性:既要與原始樣本差異較大,以保證數(shù)據(jù)的多樣性,避免樣本冗余;又要與原始樣本的語(yǔ)義鄰域接近,以確保合成數(shù)據(jù)與目標(biāo)領(lǐng)域語(yǔ)義的一致性。為實(shí)現(xiàn)這一目標(biāo),研究設(shè)計(jì)了一個(gè)多目標(biāo)優(yōu)化函數(shù),通過(guò)最大化合成樣本與原始樣本的語(yǔ)義距離來(lái)保證多樣性,同時(shí)最小化合成樣本與原始樣本鄰域樣本的語(yǔ)義距離來(lái)保證一致性,有效平衡了兩者之間的矛盾。其次是對(duì)齊標(biāo)注階段,針對(duì)直接使用原始模型標(biāo)注合成數(shù)據(jù)會(huì)產(chǎn)生標(biāo)注偏差的問(wèn)題,SCALE提出了Proxy Data(代理數(shù)據(jù))機(jī)制,具體做法是利用LLM對(duì)真實(shí)學(xué)生答案進(jìn)行“潤(rùn)色”處理,在保持答案核心語(yǔ)義不變的前提下,使?jié)櫳蟮拇鸢副磉_(dá)風(fēng)格接近生成的合成數(shù)據(jù),再使用這些經(jīng)過(guò)潤(rùn)色的真實(shí)答案作為代理數(shù)據(jù),訓(xùn)練專(zhuān)屬的標(biāo)注模型(Annotator),最后由該訓(xùn)練好的標(biāo)注模型對(duì)篩選后的合成數(shù)據(jù)進(jìn)行打分,從而有效緩解合成樣本與真實(shí)樣本的標(biāo)注偏差。最后是細(xì)粒度過(guò)濾階段,通過(guò)比較合成樣本的原始標(biāo)簽與標(biāo)注模型預(yù)測(cè)的標(biāo)簽,若兩者差異超過(guò)預(yù)設(shè)閾值,則將該合成樣本剔除,最終得到高質(zhì)量、高一致性、高多樣性的訓(xùn)練數(shù)據(jù),為模型訓(xùn)練提供可靠支撐。
模型訓(xùn)練階段
在訓(xùn)練階段,SCALE將引入實(shí)體級(jí)建模,增強(qiáng)模型對(duì)關(guān)鍵信息的捕捉能力,尤其適配含數(shù)學(xué)題、代碼題、技術(shù)問(wèn)答等場(chǎng)景的短答案評(píng)分需求。在該階段,首先進(jìn)行實(shí)體信息注入,將從短答案文本中抽取的關(guān)鍵短語(yǔ)轉(zhuǎn)化為結(jié)構(gòu)化輸入,與原始文本并行輸入模型,使模型能夠清晰識(shí)別文本中的關(guān)鍵實(shí)體及其屬性,打破傳統(tǒng)模型僅關(guān)注文本表面語(yǔ)義的局限。隨后,模型引入實(shí)體注意力機(jī)制,通過(guò)多頭注意力機(jī)制實(shí)現(xiàn)文本語(yǔ)義表示(句子級(jí))與實(shí)體語(yǔ)義表示(實(shí)體級(jí))的深度融合,讓模型在訓(xùn)練過(guò)程中能夠自動(dòng)關(guān)注影響答題準(zhǔn)確性的關(guān)鍵實(shí)體,強(qiáng)化關(guān)鍵實(shí)體特征的權(quán)重,弱化無(wú)關(guān)信息的干擾。這種實(shí)體感知增強(qiáng)設(shè)計(jì)的優(yōu)勢(shì)十分顯著,對(duì)于數(shù)學(xué)題、代碼題、技術(shù)問(wèn)答等關(guān)鍵實(shí)體(如公式、代碼片段、專(zhuān)業(yè)術(shù)語(yǔ))決定答題準(zhǔn)確性的場(chǎng)景,能夠大幅提升模型對(duì)關(guān)鍵信息的捕捉能力,減少因忽略關(guān)鍵實(shí)體導(dǎo)致的評(píng)分偏差。同時(shí),模型基于預(yù)訓(xùn)練語(yǔ)言模型(如BERT、ERNIE 3.0)進(jìn)行微調(diào),結(jié)合經(jīng)過(guò)過(guò)濾對(duì)齊的合成數(shù)據(jù)與原始標(biāo)注數(shù)據(jù)進(jìn)行融合訓(xùn)練,進(jìn)一步提升模型的泛化能力和評(píng)分準(zhǔn)確性,確保在低資源、跨領(lǐng)域場(chǎng)景下仍能保持穩(wěn)定的性能表現(xiàn),最終實(shí)現(xiàn)短答案自動(dòng)評(píng)分的精準(zhǔn)化。
實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)數(shù)據(jù)與場(chǎng)景配置
- 數(shù)據(jù)集:涵蓋多語(yǔ)言、多領(lǐng)域,包括新構(gòu)建的中文ADS數(shù)據(jù)集(含代碼、公式,適配技術(shù)類(lèi)答題場(chǎng)景),以及LE、ASAG、SR等公開(kāi)數(shù)據(jù)集。
- 實(shí)驗(yàn)場(chǎng)景:分為全量數(shù)據(jù)與少樣本(N-way K-shot)場(chǎng)景,模擬低資源環(huán)境,對(duì)比多種強(qiáng)基線模型(BERT、ERNIE 3.0、SPRAG等)。
- 評(píng)價(jià)指標(biāo):采用Pearson相關(guān)系數(shù)(R)、二次加權(quán)Kappa(QWK)、均方根誤差(RMSE),全面衡量評(píng)分準(zhǔn)確性。

表1: 全量數(shù)據(jù)集實(shí)驗(yàn)結(jié)果

表2: 少樣本數(shù)據(jù)集實(shí)驗(yàn)結(jié)果
1. 全量數(shù)據(jù)場(chǎng)景:SCALE在所有數(shù)據(jù)集上均優(yōu)于基線模型,其中SCALE(ERNIE 3.0)在ADS數(shù)據(jù)集上QWK達(dá)到83.85%,較原生ERNIE 3.0提升1.90%,且RMSE最低,評(píng)分誤差最小。
2. 少樣本場(chǎng)景:優(yōu)勢(shì)更顯著,SCALE(BERT)較SPRAG平均提升6.45%的R值,在SR數(shù)據(jù)集k=5的極端低資源場(chǎng)景下,R值較 vanilla BERT提升15.67%,有效緩解數(shù)據(jù)稀疏導(dǎo)致的性能下降。

圖3: 原始訓(xùn)練樣本、合成樣本和測(cè)試集樣本t-SNE可視化
3. 可視化與消融分析:t-SNE可視化顯示,過(guò)濾后的合成樣本能精準(zhǔn)填補(bǔ)原始數(shù)據(jù)的語(yǔ)義空白;消融實(shí)驗(yàn)證明,數(shù)據(jù)增強(qiáng)、實(shí)體注意力、細(xì)粒度過(guò)濾是SCALE性能提升的關(guān)鍵,其中細(xì)粒度過(guò)濾模塊可使QWK平均提升3%以上。

表3: 跨領(lǐng)域少樣本數(shù)據(jù)集實(shí)驗(yàn)結(jié)果
4. 跨領(lǐng)域遷移:在醫(yī)療、金融等領(lǐng)域的文本匹配任務(wù)上,SCALE仍能保持優(yōu)勢(shì),證明其良好的魯棒性與遷移能力。
總 結(jié)
本研究針對(duì)低資源場(chǎng)景下短答案自動(dòng)評(píng)分的核心痛點(diǎn),提出SCALE框架,通過(guò)知識(shí)圖譜驅(qū)動(dòng)的數(shù)據(jù)合成、雙階段過(guò)濾標(biāo)注與實(shí)體感知建模,有效平衡了數(shù)據(jù)多樣性與語(yǔ)義一致性,顯著提升了評(píng)分準(zhǔn)確性與模型泛化能力。實(shí)驗(yàn)表明,SCALE在多語(yǔ)言、多領(lǐng)域及少樣本場(chǎng)景下均達(dá)到當(dāng)前最佳性能,尤其適用于含代碼、公式的技術(shù)類(lèi)答題評(píng)分場(chǎng)景,為低資源環(huán)境下的主觀題自動(dòng)評(píng)分提供了新范式,具有重要的實(shí)際應(yīng)用價(jià)值。
實(shí)驗(yàn)室簡(jiǎn)介
北京大學(xué)數(shù)據(jù)與智能實(shí)驗(yàn)室(Data And Intelligence Research Lab at Peking Univeristy,PKU-DAIR實(shí)驗(yàn)室)由北京大學(xué)計(jì)算機(jī)學(xué)院崔斌教授領(lǐng)導(dǎo),長(zhǎng)期從事數(shù)據(jù)庫(kù)系統(tǒng)、大數(shù)據(jù)管理與分析、人工智能等領(lǐng)域的前沿研究,在理論和技術(shù)創(chuàng)新以及系統(tǒng)研發(fā)上取得多項(xiàng)成果,已在國(guó)際頂級(jí)學(xué)術(shù)會(huì)議和期刊發(fā)表學(xué)術(shù)論文200余篇,發(fā)布多個(gè)開(kāi)源項(xiàng)目。課題組同學(xué)曾數(shù)十次獲得包括CCF優(yōu)博、ACM中國(guó)優(yōu)博、北大優(yōu)博、微軟學(xué)者、蘋(píng)果獎(jiǎng)學(xué)金、谷歌獎(jiǎng)學(xué)金等榮譽(yù)。PKU-DAIR實(shí)驗(yàn)室持續(xù)與工業(yè)界展開(kāi)卓有成效的合作,與騰訊、阿里巴巴、蘋(píng)果、微軟、百度、快手、中興通訊等多家知名企業(yè)開(kāi)展項(xiàng)目合作和前沿探索,解決實(shí)際問(wèn)題,進(jìn)行科研成果的轉(zhuǎn)化落地。

評(píng)論 0