學(xué)者網(wǎng)訊(編輯/劉秀)大語(yǔ)言模型的縮放定律已經(jīng)得到了廣泛驗(yàn)證:隨著參數(shù)規(guī)模和訓(xùn)練數(shù)據(jù)的增加,模型性能呈現(xiàn)可預(yù)測(cè)的冪律增長(zhǎng)。在token空間也有類(lèi)似的規(guī)模定律現(xiàn)象。例如,通過(guò)擴(kuò)展詞表、使用n-gram或Engram等方式可以提升預(yù)訓(xùn)練模型的性能。那么在視覺(jué)語(yǔ)言模型中,視覺(jué)token的數(shù)量是否也存在類(lèi)似的縮放行為?
廣東工業(yè)大學(xué)自動(dòng)化學(xué)院研究團(tuán)隊(duì)在JMLR上發(fā)表了一項(xiàng)研究,系統(tǒng)地建立了視覺(jué)token數(shù)量與視覺(jué)語(yǔ)言模型性能之間的數(shù)學(xué)框架,揭示了視覺(jué)token空間的縮放規(guī)律。
該研究表明,視覺(jué)token數(shù)量與模型性能遵循可預(yù)測(cè)的數(shù)學(xué)關(guān)系,類(lèi)似于語(yǔ)言模型中參數(shù)和訓(xùn)練數(shù)據(jù)的縮放行為。這一發(fā)現(xiàn)為視覺(jué)語(yǔ)言模型的設(shè)計(jì)和優(yōu)化提供思路。
目前,該論文已被接收,代碼已開(kāi)源。
- 論文地址:https://jmlr.org/papers/v26/24-2243.html
- 代碼鏈接:https://github.com/tenghuilee/ScalingCapFusedVisionLM.git
- 模型權(quán)重:https://modelscope.cn/models/LiTenghui/scalingcapabilitytokenspace
研究背景:視覺(jué)token的權(quán)衡
視覺(jué)語(yǔ)言模型通常將圖像編碼為數(shù)十到數(shù)千個(gè)視覺(jué)token,然后與文本token拼接后輸入Transformer進(jìn)行處理。視覺(jué)token的數(shù)量面臨一個(gè)經(jīng)典的權(quán)衡:
- token過(guò)少:無(wú)法捕捉足夠的圖像細(xì)節(jié),導(dǎo)致信息丟失,影響任務(wù)性能
- token過(guò)多:雖然能捕捉更豐富的視覺(jué)信息,但時(shí)間、空間復(fù)雜度會(huì)隨著token數(shù)量快速增長(zhǎng)
例如,CLIP ViT-L/14 從 224×224 的圖像產(chǎn)生 256 個(gè)token,而高分辨率模型如 InternLM-XComposer2-4KHD 可以為 4K 圖像生成多達(dá) 2377 個(gè)token,這帶來(lái)了巨大的計(jì)算成本。
那么,視覺(jué)token數(shù)量與模型性能之間究竟存在怎樣的數(shù)學(xué)關(guān)系?這就是本研究要回答的核心問(wèn)題。
核心思路:用”距離”衡量模型判別能力
研究團(tuán)隊(duì)并沒(méi)有直接測(cè)量模型在特定任務(wù)上的性能,而是提出了一個(gè)更通用的分析框架:通過(guò)測(cè)量模型在處理兩個(gè)不同輸入序列時(shí)隱藏狀態(tài)的表示距離,來(lái)量化模型的判別能力。
為什么用”距離”作為代理指標(biāo)?
這一方法基于自回歸模型的一個(gè)基本性質(zhì):在確定性生成設(shè)置下(如貪婪解碼),相同的輸入會(huì)產(chǎn)生相同的輸出。因此,可以通過(guò)觀察模型對(duì)系統(tǒng)變化的輸入的響應(yīng),來(lái)分析其判別能力。
直觀地說(shuō): - 當(dāng)兩個(gè)分支序列之間的距離較小時(shí),模型難以區(qū)分它們,導(dǎo)致預(yù)測(cè)模糊,性能降低 - 當(dāng)距離較大時(shí),模型可以可靠地區(qū)分輸入,產(chǎn)生準(zhǔn)確的響應(yīng),性能更好
輸入模式的統(tǒng)一表示
為了系統(tǒng)性地簡(jiǎn)化分析,研究團(tuán)隊(duì)首先將視覺(jué)語(yǔ)言模型的輸入模式統(tǒng)一表示為:

其中:
- 視覺(jué)無(wú)關(guān)token:在所有輸入變化中保持恒定的文本內(nèi)容(如”請(qǐng)描述這張圖片”)
- 視覺(jué)相關(guān)token:包含與視覺(jué)內(nèi)容直接相關(guān)的文本和視覺(jué)token
這種分解的考量是,文本內(nèi)容可能含有視覺(jué)相關(guān)的指示,從而間接提供視覺(jué)信息。
具體樣例:
假設(shè)有兩個(gè)問(wèn)題: 1. “請(qǐng)描述這張圖片” 2. “請(qǐng)描述這張圖片中間白色的物品”
第一個(gè)問(wèn)題沒(méi)有含有任何目標(biāo)圖片的具體內(nèi)容,屬于純粹的指令性文本;而第二個(gè)問(wèn)題則明確指示了位置(“中間”)和顏色信息(“白色”)。這些額外的信息能幫助模型更好地理解圖片內(nèi)容,從而影響模型性能。
再舉一個(gè)視覺(jué)問(wèn)答的例子:
- 問(wèn)題A:“圖片中有什么動(dòng)物?”
- 問(wèn)題B:“圖片左下角的那個(gè)動(dòng)物是什么?”
問(wèn)題B通過(guò)”左下角”這個(gè)位置指示,縮小了模型需要關(guān)注的視覺(jué)區(qū)域,優(yōu)化了模型的搜索范圍,可能提高回答的準(zhǔn)確性。
這些文本中的視覺(jué)相關(guān)指示,實(shí)際上起到了偽擴(kuò)展視覺(jué)序列長(zhǎng)度的作用,相當(dāng)于間接增加了與視覺(jué)內(nèi)容相關(guān)的信息。
分支距離的定義
考慮兩個(gè)輸入序列,它們共享相同的前綴 token,但在視覺(jué)相關(guān)部分有所不同:
研究團(tuán)隊(duì)使用隱藏狀態(tài)差累積和 Frobenius 范數(shù)表示分支的距離:
具體樣例:
假設(shè)有一個(gè)視覺(jué)問(wèn)答場(chǎng)景,共享前綴是“圖片中有什么動(dòng)物?”
幾何解釋:
理論分析:兩種縮放機(jī)制
基于上述定義,研究團(tuán)隊(duì)對(duì)距離的期望進(jìn)行了深入的理論分析,揭示了視覺(jué)token縮放的兩種機(jī)制。
期望距離的上界
兩種縮放機(jī)制
這一期望邊界呈現(xiàn)兩種不同的縮放機(jī)制,反映了模型在處理不同數(shù)量視覺(jué)token時(shí)的行為變化:
與性能的關(guān)聯(lián)
基于上述分析,模型性能與該期望之間存在關(guān)聯(lián):
縮放指數(shù)的具體形式
關(guān)鍵參數(shù)的影響
實(shí)驗(yàn)驗(yàn)證:可控視覺(jué)token模型架構(gòu)
為了驗(yàn)證理論預(yù)測(cè),研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)特定的視覺(jué)語(yǔ)言模型架構(gòu),該架構(gòu)可以靈活調(diào)整視覺(jué)token數(shù)量。
模型架構(gòu)設(shè)計(jì)
遵循LLAVA格式的視覺(jué)語(yǔ)言模型架構(gòu)設(shè)計(jì),該模型基于視覺(jué)編碼器作為視覺(jué)token生成器和大語(yǔ)言模型作為基座。為了驗(yàn)證縮放關(guān)系,設(shè)計(jì)了滿足以下三個(gè)關(guān)鍵架構(gòu)需求的模型:
圖:為驗(yàn)證理論發(fā)現(xiàn)而設(shè)計(jì)的視覺(jué)語(yǔ)言模型架構(gòu),該架構(gòu)可以調(diào)整視覺(jué)token數(shù)量以進(jìn)行系統(tǒng)性實(shí)驗(yàn)
訓(xùn)練策略:
- 大語(yǔ)言模型保持凍結(jié)
- 視覺(jué)編碼器、融合模塊和投影層在微調(diào)階段更新 - 這種方法隔離了視覺(jué)token縮放的影響
視覺(jué)token數(shù)量控制: 通過(guò) Learnable Queries(特殊的占位,用于學(xué)習(xí)選擇視覺(jué)token),可以靈活調(diào)整視覺(jué)token的數(shù)量。
實(shí)驗(yàn)設(shè)置
研究團(tuán)隊(duì)采用了兩階段訓(xùn)練方法以隔離視覺(jué)token縮放的影響:
使用標(biāo)準(zhǔn)化評(píng)估工具(VLMEvalKit),測(cè)試的基準(zhǔn)涵蓋了多個(gè)任務(wù)領(lǐng)域:多模態(tài)理解(MME、HallusionBench、POPE)、圖像描述(COCO VAL的BLEU-1/4、ROUGE-L、CIDEr指標(biāo))以及視覺(jué)問(wèn)答(OCRBench、AI2D、RealWorldQA、MMStar、SEEDBench、SEEDBench2、SEEDBench2 Plus、ScienceQA、OCRVQA、ChartQA、TextVQA)。
實(shí)驗(yàn)結(jié)果:縮放定律的驗(yàn)證
縮放分析
研究團(tuán)隊(duì)對(duì)兩種不同輸入配置的模型進(jìn)行了縮放行為分析:一種是不包含用戶提問(wèn)作為輸入的進(jìn)一步微調(diào)模型,另一種是包含用戶提問(wèn)作為輸入的模型。
主要觀察
- 縮放規(guī)律的普適性:縮放規(guī)律在兩種輸入配置下都成立——無(wú)論是否將用戶提問(wèn)作為輸入的一部分,視覺(jué)token數(shù)量與性能的關(guān)系都遵循類(lèi)似的模式。
- 任務(wù)敏感性差異:不同任務(wù)對(duì)視覺(jué)token數(shù)量的敏感度不同:
- 部分任務(wù)(如OCRBench、ChartQA、TextVQA)需要更精細(xì)的視覺(jué)信息,減少token會(huì)導(dǎo)致較為明顯的性能下降。一些任務(wù)(如ScienceQA TEST、MMStar、AI2D)對(duì)token數(shù)量變化相對(duì)不敏感。
用戶提問(wèn)對(duì)縮放行為的影響
研究團(tuán)隊(duì)還分析了用戶提問(wèn)對(duì)模型性能的影響?;谳斎肽J降慕y(tǒng)一表示,用戶提問(wèn)的影響可以從兩個(gè)互補(bǔ)的角度分析:
- 幫助模型理解用戶意圖并聚焦于相關(guān)圖像區(qū)域(如”圖片左角有什么?“)
- 用戶的提問(wèn)可以視為視覺(jué)相關(guān)token,相當(dāng)于偽擴(kuò)展視覺(jué)序列長(zhǎng)度
實(shí)驗(yàn)結(jié)果表明,當(dāng)用戶提問(wèn)包含有意義的視覺(jué)相關(guān)信息時(shí),模型性能通常會(huì)得到提升;而當(dāng)問(wèn)題缺乏視覺(jué)指向性時(shí)(如COCO VAL的”請(qǐng)描述這張圖片”),這種提升并不明顯。
圖:包含用戶提問(wèn)的模型(Vision Question Queries)與不包含用戶提問(wèn)的進(jìn)一步微調(diào)模型(Vision Queries (ft))的性能差異對(duì)比。綠色表示包含用戶提問(wèn)的模型性能更優(yōu),橙色表示不包含用戶提問(wèn)的模型性能更優(yōu)。
總結(jié)
本研究建立了視覺(jué)token數(shù)量與視覺(jué)語(yǔ)言模型性能之間的縮放關(guān)系理論分析,并在多個(gè)基準(zhǔn)上進(jìn)行了驗(yàn)證。研究的主要貢獻(xiàn)包括:
該論文由廣東工業(yè)大學(xué)自動(dòng)化學(xué)院周郭許教授團(tuán)隊(duì)牽頭,聯(lián)合日本理化學(xué)研究所(RIKEN)完成,第一作者為博士生李騰輝。(全文完)

評(píng)論 0