近日,課題組的論文“Enhancing Cross-domain Correspondence for Unsupervised Image-to-Image Translation”被中科院一區(qū)TOP期刊《IEEE Transactions on Multimedia》接收。
無監(jiān)督圖像翻譯(UNIT)旨在在沒有成對訓練數據的情況下實現不同視覺域之間的圖像轉換,該技術已被廣泛應用于風格遷移、圖像處理、游戲設計等領域。然而,如何確保生成圖像與輸入圖像之間的對應(如目標類別、姿態(tài)、頭部方向等),仍是一個巨大挑戰(zhàn)。

為此,文章提出了一種跨域對應增強的無監(jiān)督圖像翻譯(EC-UNIT)新方案,該方案由三項創(chuàng)新設計組成,旨在增強 UNIT 的跨域對應。具體而言:1.提出多級風格嵌入(MSE)來提取多級風格特征以進行融合,同時在內容和風格特征上施加我們新設計的分級一致性約束(HCC),以保留更多的風格表示并促進特征解耦;2.開發(fā)語義感知匹配(SPM),通過利用多模態(tài)模型 CLIP 來最小化生成圖像與輸入圖像之間的語義分布差異,從而增強語義一致性;3.考慮到以往方法難以通過像素級視覺一致性約束來很好地控制圖像轉換,EC-UNIT設計了視覺感知引導(VPG),通過在 VGG 特征空間中縮小生成圖像與風格輸入之間的感知距離來增強生成圖像的視覺感知對應性,從而防止生成不真實的圖像細節(jié)。
該工作得到了國家自然科學基金(62202507、62272116和62302110)、廣東省自然科學基金(2025A1515012830, 2024A1515012536, 2024A1515011996和2025A1515012807)、廣州大學市校聯(lián)合項目(2025A03J3123)等的支持。
論文信息:
本工作已被IEEE Transactions on Multimedia期刊接收,作者是廣州大學的賴彬鑫(研三),蘇文康(通訊作者) ,梁鈺瀅,王員根(通訊作者) ,李明杰,以及澳門大學的周建濤。
學者網

評論 0