論文名: Improving Low-Resource Short Answer Scoring through Large Language Model-Based Data Augmentation

作者：Peichao Lai, Kexuan Zhang, Yilei Wang, Bin Cui

IEEE Transactions on Knowledge and Data Engineering 是數(shù)據(jù)工程與人工智能領(lǐng)域的頂級國際期刊（CCF-A類），長期關(guān)注數(shù)據(jù)管理、機(jī)器學(xué)習(xí)與智能系統(tǒng)等方向的前沿研究成果。其在自動(dòng)化教育評估、數(shù)據(jù)挖掘與智能學(xué)習(xí)系統(tǒng)領(lǐng)域具有重要影響力。PKU-DAIR實(shí)驗(yàn)室論文《Improving Low-Resource Short Answer Scoring through Large Language Model-Based Data Augmentation》被TKDE 2026接收。

問題背景與動(dòng)機(jī)

隨著在線教育規(guī)模的迅速增長，如何高效、準(zhǔn)確地對學(xué)生主觀題進(jìn)行自動(dòng)評分，成為教育智能化中的關(guān)鍵問題。其中，短答案評分（Short Answer Scoring, SAS）由于具有明確參考答案和更強(qiáng)約束性，比長文本作文評分更具實(shí)際落地價(jià)值。

然而，在真實(shí)低資源場景（Low-resource）應(yīng)用中，SAS 面臨三個(gè)核心難題：

1. 新題目不斷出現(xiàn)，標(biāo)注數(shù)據(jù)難以獲取

2. 學(xué)生答案表達(dá)多樣，語義空間極其復(fù)雜

3. 不同分?jǐn)?shù)區(qū)間樣本稀疏，模型難以學(xué)習(xí)細(xì)粒度評分邊界

這些問題使得當(dāng)前方法在實(shí)際部署中效果不穩(wěn)定，嚴(yán)重制約了自動(dòng)評分系統(tǒng)的發(fā)展。

核心挑戰(zhàn)：數(shù)據(jù)多樣性 vs 評分一致性

現(xiàn)有方法主要面臨兩大瓶頸：

1. 數(shù)據(jù)稀缺與分布失衡：真實(shí)學(xué)生答題數(shù)據(jù)存在評分分布不均問題，低資源場景下標(biāo)注樣本稀少，模型易過擬合，泛化能力受限。

2. 合成數(shù)據(jù)質(zhì)量不足：傳統(tǒng)數(shù)據(jù)增強(qiáng)方法易引入噪聲，且LLM生成的合成樣本與真實(shí)學(xué)生答題風(fēng)格差異較大，導(dǎo)致評分模型出現(xiàn)偏差；同時(shí)，評分模型難以有效捕捉文本中的關(guān)鍵實(shí)體，影響評分準(zhǔn)確性。

圖1：與現(xiàn)有基于數(shù)據(jù)增強(qiáng)和遷移學(xué)習(xí)的SAS方法的對比

為解決上述挑戰(zhàn)，本研究提出SCALE框架，通過知識圖譜驅(qū)動(dòng)的數(shù)據(jù)生成、雙階段過濾標(biāo)注與實(shí)體感知建模，實(shí)現(xiàn)低資源場景下SAS性能的顯著提升，核心思路具體如下：

1. 知識圖譜（KG）驅(qū)動(dòng)數(shù)據(jù)合成：構(gòu)建包含硬邊、軟邊等多類型邊的知識圖譜，結(jié)合風(fēng)格重寫提示詞，生成語義一致、風(fēng)格多樣的合成樣本，緩解數(shù)據(jù)稀缺問題。

2. 雙階段過濾與標(biāo)注對齊：通過語義距離優(yōu)化的初始過濾，保留多樣且上下文相關(guān)的樣本；再通過代理數(shù)據(jù)訓(xùn)練標(biāo)注器，緩解合成樣本與真實(shí)樣本的風(fēng)格偏差，確保評分準(zhǔn)確性。

3. 實(shí)體感知注意力模型：引入實(shí)體提取與實(shí)體級注意力機(jī)制，融合文本語義與關(guān)鍵實(shí)體信息，提升模型對技術(shù)類文本（如公式、代碼）的評分能力。

主要貢獻(xiàn)概括為：

1. 提出SCALE框架，通過KG驅(qū)動(dòng)的數(shù)據(jù)合成與雙階段過濾，平衡數(shù)據(jù)多樣性與語義一致性，有效緩解低資源場景的數(shù)據(jù)稀疏問題。

2. 設(shè)計(jì)實(shí)體感知注意力機(jī)制，增強(qiáng)模型對關(guān)鍵實(shí)體的捕捉能力，提升技術(shù)類短答案的評分準(zhǔn)確性。

3. 在多語言、多領(lǐng)域數(shù)據(jù)集上驗(yàn)證了方法的有效性，尤其在少樣本場景下表現(xiàn)突出，同時(shí)具備良好的跨領(lǐng)域遷移能力。

方法介紹

圖2：SCALE框架的整體工作流

數(shù)據(jù)生成階段

數(shù)據(jù)生成階段核心是基于知識圖譜實(shí)現(xiàn)可控的數(shù)據(jù)增強(qiáng)，打破傳統(tǒng)隨機(jī)生成模式的局限，構(gòu)建語義一致且多樣的合成樣本。首先，研究通過大語言模型從參考答案和真實(shí)學(xué)生答案中，精準(zhǔn)抽取關(guān)鍵語義單元，涵蓋關(guān)鍵短語（如專業(yè)術(shù)語、公式、代碼片段等）、實(shí)體類型（包括條件、操作、數(shù)值等不同類別）以及語義摘要，這些抽取的信息為后續(xù)知識圖譜構(gòu)建提供了核心支撐?；谶@些語義單元，研究構(gòu)建了一個(gè)任務(wù)特定的知識圖譜，該圖譜包含三種關(guān)鍵關(guān)系：

類型關(guān)系（硬邊），用于明確實(shí)體間的固定關(guān)聯(lián)的；
語義共現(xiàn)關(guān)系（軟邊），用于表征實(shí)體間的潛在關(guān)聯(lián)；
表達(dá)與語義映射關(guān)系，用于關(guān)聯(lián)不同表述形式與同一核心語義。

該知識圖譜為后續(xù)數(shù)據(jù)生成提供了嚴(yán)格的結(jié)構(gòu)化約束，確保生成過程不偏離目標(biāo)領(lǐng)域語義。在生成過程中，模型并非直接對原始文本進(jìn)行改寫，而是在知識圖譜中查找與原始關(guān)鍵短語語義相似的候選節(jié)點(diǎn)，對關(guān)鍵短語進(jìn)行精準(zhǔn)替換，同時(shí)嚴(yán)格保持文本整體語義的一致性，這種方式相比傳統(tǒng)隨機(jī)替換，大幅提高了合成數(shù)據(jù)的質(zhì)量，有效減少了語義偏移問題，增強(qiáng)了數(shù)據(jù)生成的可控性。此外，為進(jìn)一步擴(kuò)展數(shù)據(jù)多樣性，SCALE引入了風(fēng)格規(guī)則庫，包含詳細(xì)解釋風(fēng)格、簡潔回答風(fēng)格、數(shù)學(xué)專家風(fēng)格、分點(diǎn)結(jié)構(gòu)風(fēng)格等多種真實(shí)學(xué)生答題中常見的風(fēng)格，通過隨機(jī)采樣規(guī)則庫中的風(fēng)格，對同一答案進(jìn)行多風(fēng)格重寫，顯著擴(kuò)展了訓(xùn)練數(shù)據(jù)空間，為后續(xù)模型訓(xùn)練提供了豐富的樣本支撐。

數(shù)據(jù)過濾與對齊

該階段主要用于提升合成數(shù)據(jù)質(zhì)量，解決合成樣本與真實(shí)樣本的語義偏差和標(biāo)注偏差問題，分為語義過濾、對齊標(biāo)注和細(xì)粒度過濾三個(gè)步驟。首先是語義過濾階段，核心目標(biāo)是篩選出高質(zhì)量的合成數(shù)據(jù)，篩選標(biāo)準(zhǔn)兼顧多樣性與一致性：既要與原始樣本差異較大，以保證數(shù)據(jù)的多樣性，避免樣本冗余；又要與原始樣本的語義鄰域接近，以確保合成數(shù)據(jù)與目標(biāo)領(lǐng)域語義的一致性。為實(shí)現(xiàn)這一目標(biāo)，研究設(shè)計(jì)了一個(gè)多目標(biāo)優(yōu)化函數(shù)，通過最大化合成樣本與原始樣本的語義距離來保證多樣性，同時(shí)最小化合成樣本與原始樣本鄰域樣本的語義距離來保證一致性，有效平衡了兩者之間的矛盾。其次是對齊標(biāo)注階段，針對直接使用原始模型標(biāo)注合成數(shù)據(jù)會(huì)產(chǎn)生標(biāo)注偏差的問題，SCALE提出了Proxy Data（代理數(shù)據(jù)）機(jī)制，具體做法是利用LLM對真實(shí)學(xué)生答案進(jìn)行“潤色”處理，在保持答案核心語義不變的前提下，使?jié)櫳蟮拇鸢副磉_(dá)風(fēng)格接近生成的合成數(shù)據(jù)，再使用這些經(jīng)過潤色的真實(shí)答案作為代理數(shù)據(jù)，訓(xùn)練專屬的標(biāo)注模型（Annotator），最后由該訓(xùn)練好的標(biāo)注模型對篩選后的合成數(shù)據(jù)進(jìn)行打分，從而有效緩解合成樣本與真實(shí)樣本的標(biāo)注偏差。最后是細(xì)粒度過濾階段，通過比較合成樣本的原始標(biāo)簽與標(biāo)注模型預(yù)測的標(biāo)簽，若兩者差異超過預(yù)設(shè)閾值，則將該合成樣本剔除，最終得到高質(zhì)量、高一致性、高多樣性的訓(xùn)練數(shù)據(jù)，為模型訓(xùn)練提供可靠支撐。

模型訓(xùn)練階段

在訓(xùn)練階段，SCALE將引入實(shí)體級建模，增強(qiáng)模型對關(guān)鍵信息的捕捉能力，尤其適配含數(shù)學(xué)題、代碼題、技術(shù)問答等場景的短答案評分需求。在該階段，首先進(jìn)行實(shí)體信息注入，將從短答案文本中抽取的關(guān)鍵短語轉(zhuǎn)化為結(jié)構(gòu)化輸入，與原始文本并行輸入模型，使模型能夠清晰識別文本中的關(guān)鍵實(shí)體及其屬性，打破傳統(tǒng)模型僅關(guān)注文本表面語義的局限。隨后，模型引入實(shí)體注意力機(jī)制，通過多頭注意力機(jī)制實(shí)現(xiàn)文本語義表示（句子級）與實(shí)體語義表示（實(shí)體級）的深度融合，讓模型在訓(xùn)練過程中能夠自動(dòng)關(guān)注影響答題準(zhǔn)確性的關(guān)鍵實(shí)體，強(qiáng)化關(guān)鍵實(shí)體特征的權(quán)重，弱化無關(guān)信息的干擾。這種實(shí)體感知增強(qiáng)設(shè)計(jì)的優(yōu)勢十分顯著，對于數(shù)學(xué)題、代碼題、技術(shù)問答等關(guān)鍵實(shí)體（如公式、代碼片段、專業(yè)術(shù)語）決定答題準(zhǔn)確性的場景，能夠大幅提升模型對關(guān)鍵信息的捕捉能力，減少因忽略關(guān)鍵實(shí)體導(dǎo)致的評分偏差。同時(shí)，模型基于預(yù)訓(xùn)練語言模型（如BERT、ERNIE 3.0）進(jìn)行微調(diào)，結(jié)合經(jīng)過過濾對齊的合成數(shù)據(jù)與原始標(biāo)注數(shù)據(jù)進(jìn)行融合訓(xùn)練，進(jìn)一步提升模型的泛化能力和評分準(zhǔn)確性，確保在低資源、跨領(lǐng)域場景下仍能保持穩(wěn)定的性能表現(xiàn)，最終實(shí)現(xiàn)短答案自動(dòng)評分的精準(zhǔn)化。

實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)數(shù)據(jù)與場景配置

數(shù)據(jù)集：涵蓋多語言、多領(lǐng)域，包括新構(gòu)建的中文ADS數(shù)據(jù)集（含代碼、公式，適配技術(shù)類答題場景），以及LE、ASAG、SR等公開數(shù)據(jù)集。
實(shí)驗(yàn)場景：分為全量數(shù)據(jù)與少樣本（N-way K-shot）場景，模擬低資源環(huán)境，對比多種強(qiáng)基線模型（BERT、ERNIE 3.0、SPRAG等）。
評價(jià)指標(biāo)：采用Pearson相關(guān)系數(shù)（R）、二次加權(quán)Kappa（QWK）、均方根誤差（RMSE），全面衡量評分準(zhǔn)確性。

核心實(shí)驗(yàn)結(jié)果

表1: 全量數(shù)據(jù)集實(shí)驗(yàn)結(jié)果

表2: 少樣本數(shù)據(jù)集實(shí)驗(yàn)結(jié)果

1. 全量數(shù)據(jù)場景：SCALE在所有數(shù)據(jù)集上均優(yōu)于基線模型，其中SCALE（ERNIE 3.0）在ADS數(shù)據(jù)集上QWK達(dá)到83.85%，較原生ERNIE 3.0提升1.90%，且RMSE最低，評分誤差最小。

2. 少樣本場景：優(yōu)勢更顯著，SCALE（BERT）較SPRAG平均提升6.45%的R值，在SR數(shù)據(jù)集k=5的極端低資源場景下，R值較 vanilla BERT提升15.67%，有效緩解數(shù)據(jù)稀疏導(dǎo)致的性能下降。

圖3: 原始訓(xùn)練樣本、合成樣本和測試集樣本t-SNE可視化

3. 可視化與消融分析：t-SNE可視化顯示，過濾后的合成樣本能精準(zhǔn)填補(bǔ)原始數(shù)據(jù)的語義空白；消融實(shí)驗(yàn)證明，數(shù)據(jù)增強(qiáng)、實(shí)體注意力、細(xì)粒度過濾是SCALE性能提升的關(guān)鍵，其中細(xì)粒度過濾模塊可使QWK平均提升3%以上。

表3: 跨領(lǐng)域少樣本數(shù)據(jù)集實(shí)驗(yàn)結(jié)果

4. 跨領(lǐng)域遷移：在醫(yī)療、金融等領(lǐng)域的文本匹配任務(wù)上，SCALE仍能保持優(yōu)勢，證明其良好的魯棒性與遷移能力。

總結(jié)

本研究針對低資源場景下短答案自動(dòng)評分的核心痛點(diǎn)，提出SCALE框架，通過知識圖譜驅(qū)動(dòng)的數(shù)據(jù)合成、雙階段過濾標(biāo)注與實(shí)體感知建模，有效平衡了數(shù)據(jù)多樣性與語義一致性，顯著提升了評分準(zhǔn)確性與模型泛化能力。實(shí)驗(yàn)表明，SCALE在多語言、多領(lǐng)域及少樣本場景下均達(dá)到當(dāng)前最佳性能，尤其適用于含代碼、公式的技術(shù)類答題評分場景，為低資源環(huán)境下的主觀題自動(dòng)評分提供了新范式，具有重要的實(shí)際應(yīng)用價(jià)值。

實(shí)驗(yàn)室簡介

北京大學(xué)數(shù)據(jù)與智能實(shí)驗(yàn)室（Data And Intelligence Research Lab at Peking Univeristy，PKU-DAIR實(shí)驗(yàn)室）由北京大學(xué)計(jì)算機(jī)學(xué)院崔斌教授領(lǐng)導(dǎo)，長期從事數(shù)據(jù)庫系統(tǒng)、大數(shù)據(jù)管理與分析、人工智能等領(lǐng)域的前沿研究，在理論和技術(shù)創(chuàng)新以及系統(tǒng)研發(fā)上取得多項(xiàng)成果，已在國際頂級學(xué)術(shù)會(huì)議和期刊發(fā)表學(xué)術(shù)論文200余篇，發(fā)布多個(gè)開源項(xiàng)目。課題組同學(xué)曾數(shù)十次獲得包括CCF優(yōu)博、ACM中國優(yōu)博、北大優(yōu)博、微軟學(xué)者、蘋果獎(jiǎng)學(xué)金、谷歌獎(jiǎng)學(xué)金等榮譽(yù)。PKU-DAIR實(shí)驗(yàn)室持續(xù)與工業(yè)界展開卓有成效的合作，與騰訊、阿里巴巴、蘋果、微軟、百度、快手、中興通訊等多家知名企業(yè)開展項(xiàng)目合作和前沿探索，解決實(shí)際問題，進(jìn)行科研成果的轉(zhuǎn)化落地。

麻豆精品无码av,欧美1区2区,久久中文字幕乱码人妻,亚洲欧美另类少妇精品,在线看黄射,69pao高清,九九九久久久国产精品,子操大逼1234区,九九爱99热精品

基于大語言模型增強(qiáng)的低資源短答案自動(dòng)評分方法

問題背景與動(dòng)機(jī)

方法介紹

實(shí)驗(yàn)結(jié)果

總結(jié)

實(shí)驗(yàn)室簡介

評論 0

近期熱門新聞

下一篇

麻豆精品无码av,欧美1区2区,久久中文字幕乱码人妻,亚洲欧美另类少妇精品,在线看黄射,69pao高清,九九九久久久国产精品,子操大逼1234区,九九爱99热精品

基于大語言模型增強(qiáng)的低資源短答案自動(dòng)評分方法

問題背景與動(dòng)機(jī)

方法介紹

實(shí)驗(yàn)結(jié)果

總 結(jié)

實(shí)驗(yàn)室簡介

評論 0

近期熱門新聞

下一篇

總結(jié)