麻豆精品无码av,欧美1区2区,久久中文字幕乱码人妻,亚洲欧美另类少妇精品,在线看黄射,69pao高清,九九九久久久国产精品,子操大逼1234区,九九爱99热精品

7
點贊
0
評論
0
轉(zhuǎn)載
我要入駐

【轉(zhuǎn)載】清華大學(xué)與智譜 AI 聯(lián)合推出 CogAgent:基于多模態(tài)大模型的 GUI Agent,具備視覺問答、視覺定位等能力

收錄于合集: # 學(xué)術(shù)快訊

轉(zhuǎn)載自微信公眾號:AI前線

近日,清華 KEG 實驗室與智譜 AI 聯(lián)合推出了視覺 GUI Agent——CogAgent,CogAgent 是一個通用的視覺理解大模型,具備視覺問答、視覺定位(Grounding)、GUI Agent 等多種能力,可接受 1120×1120 的高分辨率圖像輸入。在 9 個經(jīng)典的圖像理解榜單上(含 VQAv2,STVQA, DocVQA,TextVQA,MM-VET,POPE 等)取得了通用能力第一的成績,并在涵蓋電腦、手機的 GUI Agent 數(shù)據(jù)集上(含 Mind2Web,AITW 等),大幅超過基于 LLM 的 Agent,取得第一。

圖1 在網(wǎng)頁 Agent 數(shù)據(jù)集 Mind2Web 上的性能 

圖2 在手機 Agent 數(shù)據(jù)集 AITW 上的性能 

為了更好地促進(jìn)多模態(tài)大模型、Agent 社區(qū)的發(fā)展,目前團(tuán)隊已將 CogAgent-18B 開源至 GitHub 倉庫,并提供了網(wǎng)頁版 Demo。

 

視覺 GUI Agent

基于語言預(yù)訓(xùn)練模型(LLM)的 Agent 是當(dāng)下熱門的研究話題,其具備良好的應(yīng)用前景。但受限于 LLM 的模態(tài),它只能接受語言形式的輸入。拿網(wǎng)頁 Aagent 為例,WebAgent 等工作將網(wǎng)頁 HTML 連同用戶目標(biāo)(例如“Can you search for CogAgent on google”)作為 LLM 的輸入,從而獲得 LLM 對下一步動作的預(yù)測(例如點擊按鈕,輸入文本)。

然而,一個有趣的觀察是,人類是通過視覺與 GUI 交互的。比如,面對一個網(wǎng)頁,當(dāng)給定一個操作目標(biāo)時,人類會先觀察他的 GUI 界面,然后決定下一步做什么;與此同時,GUI 天然是為了人機交互設(shè)計的,相比于 HTML 等文本模態(tài)的表征,GUI 更為直接簡潔,易于獲取有效信息。也就是說,在 GUI 場景下,視覺是一種更為直接、本質(zhì)的交互模態(tài),能更高效完整提供環(huán)境信息;更進(jìn)一步地,很多 GUI 界面并沒有對應(yīng)的源碼,也難以用語言表示。因此,若能將大模型改進(jìn)為視覺 Agent,將 GUI 界面以視覺的形式直接輸入大模型中用于理解、規(guī)劃和決策,將是一個更為直接有效、具備極大提升空間的方法。

CogAgent 可以實現(xiàn)基于視覺的 GUI Agent,其工作路徑與能力如下:

圖4 CogAgent工作路徑與能力 

CogAgent 模型同時接受當(dāng)前 GUI 截圖(圖像形式)和用戶操作目標(biāo)(文本形式,例如“search for the best paper in CVPR 2023”)作為輸入,就能預(yù)測詳細(xì)的動作,和對應(yīng)操作元素的位置坐標(biāo)??梢詰?yīng)用于包括電腦、手機的各種場景。受益于 GUI Agent 的可泛化性,CogAgent 能在各類沒見過的場景與任務(wù)上都取得良好的性能。論文中展示了更多示例,覆蓋了 PPT、手機系統(tǒng)、社交軟件、游戲等各類場景

 

CogAgent 的模型結(jié)構(gòu)及訓(xùn)練方法

據(jù)介紹,CogAgent 的模型結(jié)構(gòu)基于 CogVLM。為了使模型具備對高分辨率圖片的理解能力,可以看清 720p 的 GUI 屏幕輸入,團(tuán)隊將圖像輸入的分辨率大幅提升至 1120×1120(以往的模型通常小于 500×500,包括 CogVLM,Qwen-VL 等)。然而,分辨率的提升會導(dǎo)致圖像序列急劇增長,帶來難以承受的計算和顯存開銷——這也是現(xiàn)有多模態(tài)預(yù)訓(xùn)練模型通常采用較小分辨率圖像輸入的原因之一。

對此,團(tuán)隊設(shè)計了輕量級的“高分辨率交叉注意力模塊”,在原有低分辨率大圖像編碼器(4.4 B)的基礎(chǔ)上,增加了高分辨率的小圖像編碼器 (0.3 B),并使用交叉注意力機制與原有的 VLM 交互。在交叉注意力中,團(tuán)隊也使用了較小的 hidden size,從而進(jìn)一步降低顯存與計算開銷。

圖5 高分辨率交叉注意力模塊設(shè)計

結(jié)果表明,該方法可以使模型成功理解高分辨率的圖片,并有效降低了顯存與計算開銷。在消融實驗中,團(tuán)隊還比較了該結(jié)構(gòu)與 CogVLM 原始方法的計算量。結(jié)果表明,當(dāng)分辨率提升時,使用文中提出的方案(with cross-module,橙色)將會帶來極少量的計算量增加,并與圖像序列的增長成線性關(guān)系。特別的,1120×1120 分辨率的 CogAgent 的計算開銷(FLOPs),甚至比 490×490 分辨率的 CogVLM 的 1/2 還要小。在 INT4 單卡推理測試中,1120×1120 分辨率的 CogAgent 模型占用約 12.6GB 的顯存,相較于 224×224 分辨率的 CogVLM 僅高出不到 2GB。

圖5 CogAgent 模型理解高分辨率圖片結(jié)果圖

在數(shù)據(jù)方面,除了 CogVLM 用到的 image caption 數(shù)據(jù)集之外,團(tuán)隊在文本識別、視覺定位、GUI 圖像理解方面進(jìn)行了數(shù)據(jù)擴充與增強,從而有效提升了 GUI Agent 場景下的性能。(CogAgent 的預(yù)訓(xùn)練和微調(diào)數(shù)據(jù)的采集、生成方法詳細(xì)介紹于論文的 2.2 和 2.3 部分。)

來源:AI前線(編輯:凌敏 )

關(guān)于學(xué)訊通
學(xué)訊通是學(xué)者網(wǎng)官方機構(gòu)號,致力于為廣大學(xué)者提供權(quán)威、及時的學(xué)術(shù)資訊服務(wù)。我們聚焦學(xué)術(shù)前沿動態(tài)、深度政策解讀與優(yōu)質(zhì)科研資源分享,內(nèi)容涵蓋學(xué)術(shù)會議通知、項目申報信息、期刊動態(tài)、高校招聘及學(xué)者訪談等。作為連接學(xué)者與優(yōu)質(zhì)學(xué)術(shù)信息的橋梁,學(xué)訊通支持關(guān)聯(lián)學(xué)者主頁,助力構(gòu)建真實、可信的學(xué)術(shù)社交網(wǎng)絡(luò)。關(guān)注學(xué)訊通,讓科研信息獲取更高效,學(xué)術(shù)交流更便捷。獲取更多學(xué)術(shù)資訊,歡迎掃描下方二維碼,一鍵關(guān)注學(xué)訊通機構(gòu)號。
學(xué)訊通
學(xué)者網(wǎng)機構(gòu)號是學(xué)者網(wǎng)提供的學(xué)術(shù)"公眾號"平臺,為學(xué)者團(tuán)隊、學(xué)術(shù)機構(gòu)、企業(yè)等提供官方媒體賬號服務(wù),支持發(fā)布動態(tài)、活動、通知與招生招聘信息等內(nèi)容,支持多人協(xié)作維護(hù),助力機構(gòu)鏈接學(xué)界資源、擴大學(xué)術(shù)影響力。

學(xué)者網(wǎng)消息官方發(fā)布號
返回頂部
香港 | 开封市| 惠安县| 吉首市| 徐州市| 大邑县| 长春市| 永胜县| 木里| 定南县| 抚州市| 中方县| 奎屯市| 崇义县| 潜山县| 泰安市| 西贡区| 利川市| 郑州市| 米泉市| 晋宁县| 吴旗县| 漳平市| 辉县市| 潮州市| 温州市| 宜黄县| 连江县| 且末县| 贵州省| 平凉市| 敖汉旗| 泾川县| 闸北区| 长岛县| 黑山县| 大邑县| 黔江区| 资溪县| 寿阳县| 龙江县|