麻豆精品无码av,欧美1区2区,久久中文字幕乱码人妻,亚洲欧美另类少妇精品,在线看黄射,69pao高清,九九九久久久国产精品,子操大逼1234区,九九爱99热精品

0
點(diǎn)贊
0
評論
0
轉(zhuǎn)載
我要入駐

基于大語言模型增強(qiáng)的低資源短答案自動(dòng)評分方法

 

論文名: Improving Low-Resource Short Answer Scoring through Large Language Model-Based Data Augmentation

作者:Peichao Lai, Kexuan Zhang, Yilei Wang, Bin Cui

IEEE Transactions on Knowledge and Data Engineering 是數(shù)據(jù)工程與人工智能領(lǐng)域的頂級國際期刊(CCF-A類),長期關(guān)注數(shù)據(jù)管理、機(jī)器學(xué)習(xí)與智能系統(tǒng)等方向的前沿研究成果。其在自動(dòng)化教育評估、數(shù)據(jù)挖掘與智能學(xué)習(xí)系統(tǒng)領(lǐng)域具有重要影響力。PKU-DAIR實(shí)驗(yàn)室論文《Improving Low-Resource Short Answer Scoring through Large Language Model-Based Data Augmentation》被TKDE 2026接收。

 

問題背景與動(dòng)機(jī)

 

隨著在線教育規(guī)模的迅速增長,如何高效、準(zhǔn)確地對學(xué)生主觀題進(jìn)行自動(dòng)評分,成為教育智能化中的關(guān)鍵問題。其中,短答案評分(Short Answer Scoring, SAS)由于具有明確參考答案和更強(qiáng)約束性,比長文本作文評分更具實(shí)際落地價(jià)值。

然而,在真實(shí)低資源場景(Low-resource)應(yīng)用中,SAS 面臨三個(gè)核心難題:

1. 新題目不斷出現(xiàn),標(biāo)注數(shù)據(jù)難以獲取

2. 學(xué)生答案表達(dá)多樣,語義空間極其復(fù)雜

3. 不同分?jǐn)?shù)區(qū)間樣本稀疏,模型難以學(xué)習(xí)細(xì)粒度評分邊界

這些問題使得當(dāng)前方法在實(shí)際部署中效果不穩(wěn)定,嚴(yán)重制約了自動(dòng)評分系統(tǒng)的發(fā)展。

核心挑戰(zhàn):數(shù)據(jù)多樣性 vs 評分一致性

現(xiàn)有方法主要面臨兩大瓶頸:

1. 數(shù)據(jù)稀缺與分布失衡:真實(shí)學(xué)生答題數(shù)據(jù)存在評分分布不均問題,低資源場景下標(biāo)注樣本稀少,模型易過擬合,泛化能力受限。

2. 合成數(shù)據(jù)質(zhì)量不足:傳統(tǒng)數(shù)據(jù)增強(qiáng)方法易引入噪聲,且LLM生成的合成樣本與真實(shí)學(xué)生答題風(fēng)格差異較大,導(dǎo)致評分模型出現(xiàn)偏差;同時(shí),評分模型難以有效捕捉文本中的關(guān)鍵實(shí)體,影響評分準(zhǔn)確性。

圖1:與現(xiàn)有基于數(shù)據(jù)增強(qiáng)和遷移學(xué)習(xí)的SAS方法的對比

為解決上述挑戰(zhàn),本研究提出SCALE框架,通過知識圖譜驅(qū)動(dòng)的數(shù)據(jù)生成、雙階段過濾標(biāo)注與實(shí)體感知建模,實(shí)現(xiàn)低資源場景下SAS性能的顯著提升,核心思路具體如下:

1. 知識圖譜(KG)驅(qū)動(dòng)數(shù)據(jù)合成:構(gòu)建包含硬邊、軟邊等多類型邊的知識圖譜,結(jié)合風(fēng)格重寫提示詞,生成語義一致、風(fēng)格多樣的合成樣本,緩解數(shù)據(jù)稀缺問題。

2. 雙階段過濾與標(biāo)注對齊:通過語義距離優(yōu)化的初始過濾,保留多樣且上下文相關(guān)的樣本;再通過代理數(shù)據(jù)訓(xùn)練標(biāo)注器,緩解合成樣本與真實(shí)樣本的風(fēng)格偏差,確保評分準(zhǔn)確性。

3. 實(shí)體感知注意力模型:引入實(shí)體提取與實(shí)體級注意力機(jī)制,融合文本語義與關(guān)鍵實(shí)體信息,提升模型對技術(shù)類文本(如公式、代碼)的評分能力。

主要貢獻(xiàn)概括為:

1. 提出SCALE框架,通過KG驅(qū)動(dòng)的數(shù)據(jù)合成與雙階段過濾,平衡數(shù)據(jù)多樣性與語義一致性,有效緩解低資源場景的數(shù)據(jù)稀疏問題。

2. 設(shè)計(jì)實(shí)體感知注意力機(jī)制,增強(qiáng)模型對關(guān)鍵實(shí)體的捕捉能力,提升技術(shù)類短答案的評分準(zhǔn)確性。

3. 在多語言、多領(lǐng)域數(shù)據(jù)集上驗(yàn)證了方法的有效性,尤其在少樣本場景下表現(xiàn)突出,同時(shí)具備良好的跨領(lǐng)域遷移能力。

 

方法介紹

圖2:SCALE框架的整體工作流

 

數(shù)據(jù)生成階段

數(shù)據(jù)生成階段核心是基于知識圖譜實(shí)現(xiàn)可控的數(shù)據(jù)增強(qiáng),打破傳統(tǒng)隨機(jī)生成模式的局限,構(gòu)建語義一致且多樣的合成樣本。首先,研究通過大語言模型從參考答案和真實(shí)學(xué)生答案中,精準(zhǔn)抽取關(guān)鍵語義單元,涵蓋關(guān)鍵短語(如專業(yè)術(shù)語、公式、代碼片段等)、實(shí)體類型(包括條件、操作、數(shù)值等不同類別)以及語義摘要,這些抽取的信息為后續(xù)知識圖譜構(gòu)建提供了核心支撐?;谶@些語義單元,研究構(gòu)建了一個(gè)任務(wù)特定的知識圖譜,該圖譜包含三種關(guān)鍵關(guān)系:

  1. 類型關(guān)系(硬邊),用于明確實(shí)體間的固定關(guān)聯(lián)的;
  2. 語義共現(xiàn)關(guān)系(軟邊),用于表征實(shí)體間的潛在關(guān)聯(lián);
  3. 表達(dá)與語義映射關(guān)系,用于關(guān)聯(lián)不同表述形式與同一核心語義。

該知識圖譜為后續(xù)數(shù)據(jù)生成提供了嚴(yán)格的結(jié)構(gòu)化約束,確保生成過程不偏離目標(biāo)領(lǐng)域語義。在生成過程中,模型并非直接對原始文本進(jìn)行改寫,而是在知識圖譜中查找與原始關(guān)鍵短語語義相似的候選節(jié)點(diǎn),對關(guān)鍵短語進(jìn)行精準(zhǔn)替換,同時(shí)嚴(yán)格保持文本整體語義的一致性,這種方式相比傳統(tǒng)隨機(jī)替換,大幅提高了合成數(shù)據(jù)的質(zhì)量,有效減少了語義偏移問題,增強(qiáng)了數(shù)據(jù)生成的可控性。此外,為進(jìn)一步擴(kuò)展數(shù)據(jù)多樣性,SCALE引入了風(fēng)格規(guī)則庫,包含詳細(xì)解釋風(fēng)格、簡潔回答風(fēng)格、數(shù)學(xué)專家風(fēng)格、分點(diǎn)結(jié)構(gòu)風(fēng)格等多種真實(shí)學(xué)生答題中常見的風(fēng)格,通過隨機(jī)采樣規(guī)則庫中的風(fēng)格,對同一答案進(jìn)行多風(fēng)格重寫,顯著擴(kuò)展了訓(xùn)練數(shù)據(jù)空間,為后續(xù)模型訓(xùn)練提供了豐富的樣本支撐。

 

數(shù)據(jù)過濾與對齊

該階段主要用于提升合成數(shù)據(jù)質(zhì)量,解決合成樣本與真實(shí)樣本的語義偏差和標(biāo)注偏差問題,分為語義過濾、對齊標(biāo)注和細(xì)粒度過濾三個(gè)步驟。首先是語義過濾階段,核心目標(biāo)是篩選出高質(zhì)量的合成數(shù)據(jù),篩選標(biāo)準(zhǔn)兼顧多樣性與一致性:既要與原始樣本差異較大,以保證數(shù)據(jù)的多樣性,避免樣本冗余;又要與原始樣本的語義鄰域接近,以確保合成數(shù)據(jù)與目標(biāo)領(lǐng)域語義的一致性。為實(shí)現(xiàn)這一目標(biāo),研究設(shè)計(jì)了一個(gè)多目標(biāo)優(yōu)化函數(shù),通過最大化合成樣本與原始樣本的語義距離來保證多樣性,同時(shí)最小化合成樣本與原始樣本鄰域樣本的語義距離來保證一致性,有效平衡了兩者之間的矛盾。其次是對齊標(biāo)注階段,針對直接使用原始模型標(biāo)注合成數(shù)據(jù)會(huì)產(chǎn)生標(biāo)注偏差的問題,SCALE提出了Proxy Data(代理數(shù)據(jù))機(jī)制,具體做法是利用LLM對真實(shí)學(xué)生答案進(jìn)行“潤色”處理,在保持答案核心語義不變的前提下,使?jié)櫳蟮拇鸢副磉_(dá)風(fēng)格接近生成的合成數(shù)據(jù),再使用這些經(jīng)過潤色的真實(shí)答案作為代理數(shù)據(jù),訓(xùn)練專屬的標(biāo)注模型(Annotator),最后由該訓(xùn)練好的標(biāo)注模型對篩選后的合成數(shù)據(jù)進(jìn)行打分,從而有效緩解合成樣本與真實(shí)樣本的標(biāo)注偏差。最后是細(xì)粒度過濾階段,通過比較合成樣本的原始標(biāo)簽與標(biāo)注模型預(yù)測的標(biāo)簽,若兩者差異超過預(yù)設(shè)閾值,則將該合成樣本剔除,最終得到高質(zhì)量、高一致性、高多樣性的訓(xùn)練數(shù)據(jù),為模型訓(xùn)練提供可靠支撐。

 

模型訓(xùn)練階段

在訓(xùn)練階段,SCALE將引入實(shí)體級建模,增強(qiáng)模型對關(guān)鍵信息的捕捉能力,尤其適配含數(shù)學(xué)題、代碼題、技術(shù)問答等場景的短答案評分需求。在該階段,首先進(jìn)行實(shí)體信息注入,將從短答案文本中抽取的關(guān)鍵短語轉(zhuǎn)化為結(jié)構(gòu)化輸入,與原始文本并行輸入模型,使模型能夠清晰識別文本中的關(guān)鍵實(shí)體及其屬性,打破傳統(tǒng)模型僅關(guān)注文本表面語義的局限。隨后,模型引入實(shí)體注意力機(jī)制,通過多頭注意力機(jī)制實(shí)現(xiàn)文本語義表示(句子級)與實(shí)體語義表示(實(shí)體級)的深度融合,讓模型在訓(xùn)練過程中能夠自動(dòng)關(guān)注影響答題準(zhǔn)確性的關(guān)鍵實(shí)體,強(qiáng)化關(guān)鍵實(shí)體特征的權(quán)重,弱化無關(guān)信息的干擾。這種實(shí)體感知增強(qiáng)設(shè)計(jì)的優(yōu)勢十分顯著,對于數(shù)學(xué)題、代碼題、技術(shù)問答等關(guān)鍵實(shí)體(如公式、代碼片段、專業(yè)術(shù)語)決定答題準(zhǔn)確性的場景,能夠大幅提升模型對關(guān)鍵信息的捕捉能力,減少因忽略關(guān)鍵實(shí)體導(dǎo)致的評分偏差。同時(shí),模型基于預(yù)訓(xùn)練語言模型(如BERT、ERNIE 3.0)進(jìn)行微調(diào),結(jié)合經(jīng)過過濾對齊的合成數(shù)據(jù)與原始標(biāo)注數(shù)據(jù)進(jìn)行融合訓(xùn)練,進(jìn)一步提升模型的泛化能力和評分準(zhǔn)確性,確保在低資源、跨領(lǐng)域場景下仍能保持穩(wěn)定的性能表現(xiàn),最終實(shí)現(xiàn)短答案自動(dòng)評分的精準(zhǔn)化。

 

實(shí)驗(yàn)結(jié)果

 

實(shí)驗(yàn)數(shù)據(jù)與場景配置

  1. 數(shù)據(jù)集:涵蓋多語言、多領(lǐng)域,包括新構(gòu)建的中文ADS數(shù)據(jù)集(含代碼、公式,適配技術(shù)類答題場景),以及LE、ASAG、SR等公開數(shù)據(jù)集。
  2. 實(shí)驗(yàn)場景:分為全量數(shù)據(jù)與少樣本(N-way K-shot)場景,模擬低資源環(huán)境,對比多種強(qiáng)基線模型(BERT、ERNIE 3.0、SPRAG等)。
  3. 評價(jià)指標(biāo):采用Pearson相關(guān)系數(shù)(R)、二次加權(quán)Kappa(QWK)、均方根誤差(RMSE),全面衡量評分準(zhǔn)確性。

 

核心實(shí)驗(yàn)結(jié)果

表1: 全量數(shù)據(jù)集實(shí)驗(yàn)結(jié)果

表2: 少樣本數(shù)據(jù)集實(shí)驗(yàn)結(jié)果

1. 全量數(shù)據(jù)場景:SCALE在所有數(shù)據(jù)集上均優(yōu)于基線模型,其中SCALE(ERNIE 3.0)在ADS數(shù)據(jù)集上QWK達(dá)到83.85%,較原生ERNIE 3.0提升1.90%,且RMSE最低,評分誤差最小。

2. 少樣本場景:優(yōu)勢更顯著,SCALE(BERT)較SPRAG平均提升6.45%的R值,在SR數(shù)據(jù)集k=5的極端低資源場景下,R值較 vanilla BERT提升15.67%,有效緩解數(shù)據(jù)稀疏導(dǎo)致的性能下降。

圖3: 原始訓(xùn)練樣本、合成樣本和測試集樣本t-SNE可視化

 3. 可視化與消融分析:t-SNE可視化顯示,過濾后的合成樣本能精準(zhǔn)填補(bǔ)原始數(shù)據(jù)的語義空白;消融實(shí)驗(yàn)證明,數(shù)據(jù)增強(qiáng)、實(shí)體注意力、細(xì)粒度過濾是SCALE性能提升的關(guān)鍵,其中細(xì)粒度過濾模塊可使QWK平均提升3%以上。

表3: 跨領(lǐng)域少樣本數(shù)據(jù)集實(shí)驗(yàn)結(jié)果

4. 跨領(lǐng)域遷移:在醫(yī)療、金融等領(lǐng)域的文本匹配任務(wù)上,SCALE仍能保持優(yōu)勢,證明其良好的魯棒性與遷移能力。

 

總 結(jié)

本研究針對低資源場景下短答案自動(dòng)評分的核心痛點(diǎn),提出SCALE框架,通過知識圖譜驅(qū)動(dòng)的數(shù)據(jù)合成、雙階段過濾標(biāo)注與實(shí)體感知建模,有效平衡了數(shù)據(jù)多樣性與語義一致性,顯著提升了評分準(zhǔn)確性與模型泛化能力。實(shí)驗(yàn)表明,SCALE在多語言、多領(lǐng)域及少樣本場景下均達(dá)到當(dāng)前最佳性能,尤其適用于含代碼、公式的技術(shù)類答題評分場景,為低資源環(huán)境下的主觀題自動(dòng)評分提供了新范式,具有重要的實(shí)際應(yīng)用價(jià)值。

 

 

實(shí)驗(yàn)室簡介

北京大學(xué)數(shù)據(jù)與智能實(shí)驗(yàn)室(Data And Intelligence Research Lab at Peking Univeristy,PKU-DAIR實(shí)驗(yàn)室)由北京大學(xué)計(jì)算機(jī)學(xué)院崔斌教授領(lǐng)導(dǎo),長期從事數(shù)據(jù)庫系統(tǒng)、大數(shù)據(jù)管理與分析、人工智能等領(lǐng)域的前沿研究,在理論和技術(shù)創(chuàng)新以及系統(tǒng)研發(fā)上取得多項(xiàng)成果,已在國際頂級學(xué)術(shù)會(huì)議和期刊發(fā)表學(xué)術(shù)論文200余篇,發(fā)布多個(gè)開源項(xiàng)目。課題組同學(xué)曾數(shù)十次獲得包括CCF優(yōu)博、ACM中國優(yōu)博、北大優(yōu)博、微軟學(xué)者、蘋果獎(jiǎng)學(xué)金、谷歌獎(jiǎng)學(xué)金等榮譽(yù)。PKU-DAIR實(shí)驗(yàn)室持續(xù)與工業(yè)界展開卓有成效的合作,與騰訊、阿里巴巴、蘋果、微軟、百度、快手、中興通訊等多家知名企業(yè)開展項(xiàng)目合作和前沿探索,解決實(shí)際問題,進(jìn)行科研成果的轉(zhuǎn)化落地。

 

學(xué)者網(wǎng)機(jī)構(gòu)號是學(xué)者網(wǎng)提供的學(xué)術(shù)"公眾號"平臺,為學(xué)者團(tuán)隊(duì)、學(xué)術(shù)機(jī)構(gòu)、企業(yè)等提供官方媒體賬號服務(wù),支持發(fā)布動(dòng)態(tài)、活動(dòng)、通知與招生招聘信息等內(nèi)容,支持多人協(xié)作維護(hù),助力機(jī)構(gòu)鏈接學(xué)界資源、擴(kuò)大學(xué)術(shù)影響力。

北京大學(xué)數(shù)據(jù)與智能實(shí)驗(yàn)室,PKU-DAIR,Peking University Data And Intelligence Research Lab,負(fù)責(zé)人為北京大學(xué)計(jì)算機(jī)學(xué)院崔斌教授。
返回頂部
固镇县| 金沙县| 社会| 平和县| 安吉县| 门源| 邮箱| 阿瓦提县| 大荔县| 遂平县| 富民县| 望江县| 额敏县| 驻马店市| 辉南县| 当雄县| 华宁县| 平远县| 阳西县| 峨山| 武汉市| 定西市| 仙桃市| 沾化县| 开原市| 五峰| 凭祥市| 肃宁县| 县级市| 桃园县| 明溪县| 天峨县| 扎赉特旗| 吴旗县| 丹阳市| 庆城县| 西盟| 扶余县| 上犹县| 班戈县| 玉龙|