論文名: Improving Low-Resource Short Answer Scoring through Large Language Model-Based Data Augmentation

作者：Peichao Lai, Kexuan Zhang, Yilei Wang, Bin Cui

IEEE Transactions on Knowledge and Data Engineering 是數(shù)據(jù)工程與人工智能領(lǐng)域的頂級(jí)國(guó)際期刊（CCF-A類(lèi)），長(zhǎng)期關(guān)注數(shù)據(jù)管理、機(jī)器學(xué)習(xí)與智能系統(tǒng)等方向的前沿研究成果。其在自動(dòng)化教育評(píng)估、數(shù)據(jù)挖掘與智能學(xué)習(xí)系統(tǒng)領(lǐng)域具有重要影響力。PKU-DAIR實(shí)驗(yàn)室論文《Improving Low-Resource Short Answer Scoring through Large Language Model-Based Data Augmentation》被TKDE 2026接收。

問(wèn)題背景與動(dòng)機(jī)

隨著在線教育規(guī)模的迅速增長(zhǎng)，如何高效、準(zhǔn)確地對(duì)學(xué)生主觀題進(jìn)行自動(dòng)評(píng)分，成為教育智能化中的關(guān)鍵問(wèn)題。其中，短答案評(píng)分（Short Answer Scoring, SAS）由于具有明確參考答案和更強(qiáng)約束性，比長(zhǎng)文本作文評(píng)分更具實(shí)際落地價(jià)值。

然而，在真實(shí)低資源場(chǎng)景（Low-resource）應(yīng)用中，SAS 面臨三個(gè)核心難題：

1. 新題目不斷出現(xiàn)，標(biāo)注數(shù)據(jù)難以獲取

2. 學(xué)生答案表達(dá)多樣，語(yǔ)義空間極其復(fù)雜

3. 不同分?jǐn)?shù)區(qū)間樣本稀疏，模型難以學(xué)習(xí)細(xì)粒度評(píng)分邊界

這些問(wèn)題使得當(dāng)前方法在實(shí)際部署中效果不穩(wěn)定，嚴(yán)重制約了自動(dòng)評(píng)分系統(tǒng)的發(fā)展。

核心挑戰(zhàn)：數(shù)據(jù)多樣性 vs 評(píng)分一致性

現(xiàn)有方法主要面臨兩大瓶頸：

1. 數(shù)據(jù)稀缺與分布失衡：真實(shí)學(xué)生答題數(shù)據(jù)存在評(píng)分分布不均問(wèn)題，低資源場(chǎng)景下標(biāo)注樣本稀少，模型易過(guò)擬合，泛化能力受限。

2. 合成數(shù)據(jù)質(zhì)量不足：傳統(tǒng)數(shù)據(jù)增強(qiáng)方法易引入噪聲，且LLM生成的合成樣本與真實(shí)學(xué)生答題風(fēng)格差異較大，導(dǎo)致評(píng)分模型出現(xiàn)偏差；同時(shí)，評(píng)分模型難以有效捕捉文本中的關(guān)鍵實(shí)體，影響評(píng)分準(zhǔn)確性。

圖1：與現(xiàn)有基于數(shù)據(jù)增強(qiáng)和遷移學(xué)習(xí)的SAS方法的對(duì)比

為解決上述挑戰(zhàn)，本研究提出SCALE框架，通過(guò)知識(shí)圖譜驅(qū)動(dòng)的數(shù)據(jù)生成、雙階段過(guò)濾標(biāo)注與實(shí)體感知建模，實(shí)現(xiàn)低資源場(chǎng)景下SAS性能的顯著提升，核心思路具體如下：

1. 知識(shí)圖譜（KG）驅(qū)動(dòng)數(shù)據(jù)合成：構(gòu)建包含硬邊、軟邊等多類(lèi)型邊的知識(shí)圖譜，結(jié)合風(fēng)格重寫(xiě)提示詞，生成語(yǔ)義一致、風(fēng)格多樣的合成樣本，緩解數(shù)據(jù)稀缺問(wèn)題。

2. 雙階段過(guò)濾與標(biāo)注對(duì)齊：通過(guò)語(yǔ)義距離優(yōu)化的初始過(guò)濾，保留多樣且上下文相關(guān)的樣本；再通過(guò)代理數(shù)據(jù)訓(xùn)練標(biāo)注器，緩解合成樣本與真實(shí)樣本的風(fēng)格偏差，確保評(píng)分準(zhǔn)確性。

3. 實(shí)體感知注意力模型：引入實(shí)體提取與實(shí)體級(jí)注意力機(jī)制，融合文本語(yǔ)義與關(guān)鍵實(shí)體信息，提升模型對(duì)技術(shù)類(lèi)文本（如公式、代碼）的評(píng)分能力。

主要貢獻(xiàn)概括為：

1. 提出SCALE框架，通過(guò)KG驅(qū)動(dòng)的數(shù)據(jù)合成與雙階段過(guò)濾，平衡數(shù)據(jù)多樣性與語(yǔ)義一致性，有效緩解低資源場(chǎng)景的數(shù)據(jù)稀疏問(wèn)題。

2. 設(shè)計(jì)實(shí)體感知注意力機(jī)制，增強(qiáng)模型對(duì)關(guān)鍵實(shí)體的捕捉能力，提升技術(shù)類(lèi)短答案的評(píng)分準(zhǔn)確性。

3. 在多語(yǔ)言、多領(lǐng)域數(shù)據(jù)集上驗(yàn)證了方法的有效性，尤其在少樣本場(chǎng)景下表現(xiàn)突出，同時(shí)具備良好的跨領(lǐng)域遷移能力。

方法介紹

圖2：SCALE框架的整體工作流

數(shù)據(jù)生成階段

數(shù)據(jù)生成階段核心是基于知識(shí)圖譜實(shí)現(xiàn)可控的數(shù)據(jù)增強(qiáng)，打破傳統(tǒng)隨機(jī)生成模式的局限，構(gòu)建語(yǔ)義一致且多樣的合成樣本。首先，研究通過(guò)大語(yǔ)言模型從參考答案和真實(shí)學(xué)生答案中，精準(zhǔn)抽取關(guān)鍵語(yǔ)義單元，涵蓋關(guān)鍵短語(yǔ)（如專(zhuān)業(yè)術(shù)語(yǔ)、公式、代碼片段等）、實(shí)體類(lèi)型（包括條件、操作、數(shù)值等不同類(lèi)別）以及語(yǔ)義摘要，這些抽取的信息為后續(xù)知識(shí)圖譜構(gòu)建提供了核心支撐?；谶@些語(yǔ)義單元，研究構(gòu)建了一個(gè)任務(wù)特定的知識(shí)圖譜，該圖譜包含三種關(guān)鍵關(guān)系：

類(lèi)型關(guān)系（硬邊），用于明確實(shí)體間的固定關(guān)聯(lián)的；
語(yǔ)義共現(xiàn)關(guān)系（軟邊），用于表征實(shí)體間的潛在關(guān)聯(lián)；
表達(dá)與語(yǔ)義映射關(guān)系，用于關(guān)聯(lián)不同表述形式與同一核心語(yǔ)義。

該知識(shí)圖譜為后續(xù)數(shù)據(jù)生成提供了嚴(yán)格的結(jié)構(gòu)化約束，確保生成過(guò)程不偏離目標(biāo)領(lǐng)域語(yǔ)義。在生成過(guò)程中，模型并非直接對(duì)原始文本進(jìn)行改寫(xiě)，而是在知識(shí)圖譜中查找與原始關(guān)鍵短語(yǔ)語(yǔ)義相似的候選節(jié)點(diǎn)，對(duì)關(guān)鍵短語(yǔ)進(jìn)行精準(zhǔn)替換，同時(shí)嚴(yán)格保持文本整體語(yǔ)義的一致性，這種方式相比傳統(tǒng)隨機(jī)替換，大幅提高了合成數(shù)據(jù)的質(zhì)量，有效減少了語(yǔ)義偏移問(wèn)題，增強(qiáng)了數(shù)據(jù)生成的可控性。此外，為進(jìn)一步擴(kuò)展數(shù)據(jù)多樣性，SCALE引入了風(fēng)格規(guī)則庫(kù)，包含詳細(xì)解釋風(fēng)格、簡(jiǎn)潔回答風(fēng)格、數(shù)學(xué)專(zhuān)家風(fēng)格、分點(diǎn)結(jié)構(gòu)風(fēng)格等多種真實(shí)學(xué)生答題中常見(jiàn)的風(fēng)格，通過(guò)隨機(jī)采樣規(guī)則庫(kù)中的風(fēng)格，對(duì)同一答案進(jìn)行多風(fēng)格重寫(xiě)，顯著擴(kuò)展了訓(xùn)練數(shù)據(jù)空間，為后續(xù)模型訓(xùn)練提供了豐富的樣本支撐。

數(shù)據(jù)過(guò)濾與對(duì)齊

該階段主要用于提升合成數(shù)據(jù)質(zhì)量，解決合成樣本與真實(shí)樣本的語(yǔ)義偏差和標(biāo)注偏差問(wèn)題，分為語(yǔ)義過(guò)濾、對(duì)齊標(biāo)注和細(xì)粒度過(guò)濾三個(gè)步驟。首先是語(yǔ)義過(guò)濾階段，核心目標(biāo)是篩選出高質(zhì)量的合成數(shù)據(jù)，篩選標(biāo)準(zhǔn)兼顧多樣性與一致性：既要與原始樣本差異較大，以保證數(shù)據(jù)的多樣性，避免樣本冗余；又要與原始樣本的語(yǔ)義鄰域接近，以確保合成數(shù)據(jù)與目標(biāo)領(lǐng)域語(yǔ)義的一致性。為實(shí)現(xiàn)這一目標(biāo)，研究設(shè)計(jì)了一個(gè)多目標(biāo)優(yōu)化函數(shù)，通過(guò)最大化合成樣本與原始樣本的語(yǔ)義距離來(lái)保證多樣性，同時(shí)最小化合成樣本與原始樣本鄰域樣本的語(yǔ)義距離來(lái)保證一致性，有效平衡了兩者之間的矛盾。其次是對(duì)齊標(biāo)注階段，針對(duì)直接使用原始模型標(biāo)注合成數(shù)據(jù)會(huì)產(chǎn)生標(biāo)注偏差的問(wèn)題，SCALE提出了Proxy Data（代理數(shù)據(jù)）機(jī)制，具體做法是利用LLM對(duì)真實(shí)學(xué)生答案進(jìn)行“潤(rùn)色”處理，在保持答案核心語(yǔ)義不變的前提下，使?jié)櫳蟮拇鸢副磉_(dá)風(fēng)格接近生成的合成數(shù)據(jù)，再使用這些經(jīng)過(guò)潤(rùn)色的真實(shí)答案作為代理數(shù)據(jù)，訓(xùn)練專(zhuān)屬的標(biāo)注模型（Annotator），最后由該訓(xùn)練好的標(biāo)注模型對(duì)篩選后的合成數(shù)據(jù)進(jìn)行打分，從而有效緩解合成樣本與真實(shí)樣本的標(biāo)注偏差。最后是細(xì)粒度過(guò)濾階段，通過(guò)比較合成樣本的原始標(biāo)簽與標(biāo)注模型預(yù)測(cè)的標(biāo)簽，若兩者差異超過(guò)預(yù)設(shè)閾值，則將該合成樣本剔除，最終得到高質(zhì)量、高一致性、高多樣性的訓(xùn)練數(shù)據(jù)，為模型訓(xùn)練提供可靠支撐。

模型訓(xùn)練階段

在訓(xùn)練階段，SCALE將引入實(shí)體級(jí)建模，增強(qiáng)模型對(duì)關(guān)鍵信息的捕捉能力，尤其適配含數(shù)學(xué)題、代碼題、技術(shù)問(wèn)答等場(chǎng)景的短答案評(píng)分需求。在該階段，首先進(jìn)行實(shí)體信息注入，將從短答案文本中抽取的關(guān)鍵短語(yǔ)轉(zhuǎn)化為結(jié)構(gòu)化輸入，與原始文本并行輸入模型，使模型能夠清晰識(shí)別文本中的關(guān)鍵實(shí)體及其屬性，打破傳統(tǒng)模型僅關(guān)注文本表面語(yǔ)義的局限。隨后，模型引入實(shí)體注意力機(jī)制，通過(guò)多頭注意力機(jī)制實(shí)現(xiàn)文本語(yǔ)義表示（句子級(jí)）與實(shí)體語(yǔ)義表示（實(shí)體級(jí)）的深度融合，讓模型在訓(xùn)練過(guò)程中能夠自動(dòng)關(guān)注影響答題準(zhǔn)確性的關(guān)鍵實(shí)體，強(qiáng)化關(guān)鍵實(shí)體特征的權(quán)重，弱化無(wú)關(guān)信息的干擾。這種實(shí)體感知增強(qiáng)設(shè)計(jì)的優(yōu)勢(shì)十分顯著，對(duì)于數(shù)學(xué)題、代碼題、技術(shù)問(wèn)答等關(guān)鍵實(shí)體（如公式、代碼片段、專(zhuān)業(yè)術(shù)語(yǔ)）決定答題準(zhǔn)確性的場(chǎng)景，能夠大幅提升模型對(duì)關(guān)鍵信息的捕捉能力，減少因忽略關(guān)鍵實(shí)體導(dǎo)致的評(píng)分偏差。同時(shí)，模型基于預(yù)訓(xùn)練語(yǔ)言模型（如BERT、ERNIE 3.0）進(jìn)行微調(diào)，結(jié)合經(jīng)過(guò)過(guò)濾對(duì)齊的合成數(shù)據(jù)與原始標(biāo)注數(shù)據(jù)進(jìn)行融合訓(xùn)練，進(jìn)一步提升模型的泛化能力和評(píng)分準(zhǔn)確性，確保在低資源、跨領(lǐng)域場(chǎng)景下仍能保持穩(wěn)定的性能表現(xiàn)，最終實(shí)現(xiàn)短答案自動(dòng)評(píng)分的精準(zhǔn)化。

實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)數(shù)據(jù)與場(chǎng)景配置

數(shù)據(jù)集：涵蓋多語(yǔ)言、多領(lǐng)域，包括新構(gòu)建的中文ADS數(shù)據(jù)集（含代碼、公式，適配技術(shù)類(lèi)答題場(chǎng)景），以及LE、ASAG、SR等公開(kāi)數(shù)據(jù)集。
實(shí)驗(yàn)場(chǎng)景：分為全量數(shù)據(jù)與少樣本（N-way K-shot）場(chǎng)景，模擬低資源環(huán)境，對(duì)比多種強(qiáng)基線模型（BERT、ERNIE 3.0、SPRAG等）。
評(píng)價(jià)指標(biāo)：采用Pearson相關(guān)系數(shù)（R）、二次加權(quán)Kappa（QWK）、均方根誤差（RMSE），全面衡量評(píng)分準(zhǔn)確性。

核心實(shí)驗(yàn)結(jié)果

表1: 全量數(shù)據(jù)集實(shí)驗(yàn)結(jié)果

表2: 少樣本數(shù)據(jù)集實(shí)驗(yàn)結(jié)果

1. 全量數(shù)據(jù)場(chǎng)景：SCALE在所有數(shù)據(jù)集上均優(yōu)于基線模型，其中SCALE（ERNIE 3.0）在ADS數(shù)據(jù)集上QWK達(dá)到83.85%，較原生ERNIE 3.0提升1.90%，且RMSE最低，評(píng)分誤差最小。

2. 少樣本場(chǎng)景：優(yōu)勢(shì)更顯著，SCALE（BERT）較SPRAG平均提升6.45%的R值，在SR數(shù)據(jù)集k=5的極端低資源場(chǎng)景下，R值較 vanilla BERT提升15.67%，有效緩解數(shù)據(jù)稀疏導(dǎo)致的性能下降。

圖3: 原始訓(xùn)練樣本、合成樣本和測(cè)試集樣本t-SNE可視化

3. 可視化與消融分析：t-SNE可視化顯示，過(guò)濾后的合成樣本能精準(zhǔn)填補(bǔ)原始數(shù)據(jù)的語(yǔ)義空白；消融實(shí)驗(yàn)證明，數(shù)據(jù)增強(qiáng)、實(shí)體注意力、細(xì)粒度過(guò)濾是SCALE性能提升的關(guān)鍵，其中細(xì)粒度過(guò)濾模塊可使QWK平均提升3%以上。

表3: 跨領(lǐng)域少樣本數(shù)據(jù)集實(shí)驗(yàn)結(jié)果

4. 跨領(lǐng)域遷移：在醫(yī)療、金融等領(lǐng)域的文本匹配任務(wù)上，SCALE仍能保持優(yōu)勢(shì)，證明其良好的魯棒性與遷移能力。

總結(jié)

本研究針對(duì)低資源場(chǎng)景下短答案自動(dòng)評(píng)分的核心痛點(diǎn)，提出SCALE框架，通過(guò)知識(shí)圖譜驅(qū)動(dòng)的數(shù)據(jù)合成、雙階段過(guò)濾標(biāo)注與實(shí)體感知建模，有效平衡了數(shù)據(jù)多樣性與語(yǔ)義一致性，顯著提升了評(píng)分準(zhǔn)確性與模型泛化能力。實(shí)驗(yàn)表明，SCALE在多語(yǔ)言、多領(lǐng)域及少樣本場(chǎng)景下均達(dá)到當(dāng)前最佳性能，尤其適用于含代碼、公式的技術(shù)類(lèi)答題評(píng)分場(chǎng)景，為低資源環(huán)境下的主觀題自動(dòng)評(píng)分提供了新范式，具有重要的實(shí)際應(yīng)用價(jià)值。

實(shí)驗(yàn)室簡(jiǎn)介

北京大學(xué)數(shù)據(jù)與智能實(shí)驗(yàn)室（Data And Intelligence Research Lab at Peking Univeristy，PKU-DAIR實(shí)驗(yàn)室）由北京大學(xué)計(jì)算機(jī)學(xué)院崔斌教授領(lǐng)導(dǎo)，長(zhǎng)期從事數(shù)據(jù)庫(kù)系統(tǒng)、大數(shù)據(jù)管理與分析、人工智能等領(lǐng)域的前沿研究，在理論和技術(shù)創(chuàng)新以及系統(tǒng)研發(fā)上取得多項(xiàng)成果，已在國(guó)際頂級(jí)學(xué)術(shù)會(huì)議和期刊發(fā)表學(xué)術(shù)論文200余篇，發(fā)布多個(gè)開(kāi)源項(xiàng)目。課題組同學(xué)曾數(shù)十次獲得包括CCF優(yōu)博、ACM中國(guó)優(yōu)博、北大優(yōu)博、微軟學(xué)者、蘋(píng)果獎(jiǎng)學(xué)金、谷歌獎(jiǎng)學(xué)金等榮譽(yù)。PKU-DAIR實(shí)驗(yàn)室持續(xù)與工業(yè)界展開(kāi)卓有成效的合作，與騰訊、阿里巴巴、蘋(píng)果、微軟、百度、快手、中興通訊等多家知名企業(yè)開(kāi)展項(xiàng)目合作和前沿探索，解決實(shí)際問(wèn)題，進(jìn)行科研成果的轉(zhuǎn)化落地。

麻豆精品无码av,欧美1区2区,久久中文字幕乱码人妻,亚洲欧美另类少妇精品,在线看黄射,69pao高清,九九九久久久国产精品,子操大逼1234区,九九爱99热精品

基于大語(yǔ)言模型增強(qiáng)的低資源短答案自動(dòng)評(píng)分方法

問(wèn)題背景與動(dòng)機(jī)

方法介紹

實(shí)驗(yàn)結(jié)果

總結(jié)

實(shí)驗(yàn)室簡(jiǎn)介

評(píng)論 0

近期熱門(mén)新聞

下一篇

麻豆精品无码av,欧美1区2区,久久中文字幕乱码人妻,亚洲欧美另类少妇精品,在线看黄射,69pao高清,九九九久久久国产精品,子操大逼1234区,九九爱99热精品

基于大語(yǔ)言模型增強(qiáng)的低資源短答案自動(dòng)評(píng)分方法

問(wèn)題背景與動(dòng)機(jī)

方法介紹

實(shí)驗(yàn)結(jié)果

總 結(jié)

實(shí)驗(yàn)室簡(jiǎn)介

評(píng)論 0

近期熱門(mén)新聞

下一篇

總結(jié)