亚洲成人精品国产,久久91n,91精品国产色

轉(zhuǎn)載自微信公眾號：AI前線

近日，清華 KEG 實驗室與智譜 AI 聯(lián)合推出了視覺 GUI Agent——CogAgent，CogAgent 是一個通用的視覺理解大模型，具備視覺問答、視覺定位（Grounding）、GUI Agent 等多種能力，可接受 1120×1120 的高分辨率圖像輸入。在 9 個經(jīng)典的圖像理解榜單上（含 VQAv2，STVQA, DocVQA，TextVQA，MM-VET，POPE 等）取得了通用能力第一的成績，并在涵蓋電腦、手機的 GUI Agent 數(shù)據(jù)集上（含 Mind2Web，AITW 等），大幅超過基于 LLM 的 Agent，取得第一。

圖1 在網(wǎng)頁 Agent 數(shù)據(jù)集 Mind2Web 上的性能

圖2 在手機 Agent 數(shù)據(jù)集 AITW 上的性能

為了更好地促進(jìn)多模態(tài)大模型、Agent 社區(qū)的發(fā)展，目前團(tuán)隊已將 CogAgent-18B 開源至 GitHub 倉庫，并提供了網(wǎng)頁版 Demo。

論文鏈接：https://arxiv.org/pdf/2312.08914.pdf
GitHub 項目地址（含開源模型、網(wǎng)頁版 Demo）：https://github.com/THUDM/CogVLM

視覺 GUI Agent

基于語言預(yù)訓(xùn)練模型（LLM）的 Agent 是當(dāng)下熱門的研究話題，其具備良好的應(yīng)用前景。但受限于 LLM 的模態(tài)，它只能接受語言形式的輸入。拿網(wǎng)頁 Aagent 為例，WebAgent 等工作將網(wǎng)頁 HTML 連同用戶目標(biāo)（例如“Can you search for CogAgent on google”）作為 LLM 的輸入，從而獲得 LLM 對下一步動作的預(yù)測（例如點擊按鈕，輸入文本）。

然而，一個有趣的觀察是，人類是通過視覺與 GUI 交互的。比如，面對一個網(wǎng)頁，當(dāng)給定一個操作目標(biāo)時，人類會先觀察他的 GUI 界面，然后決定下一步做什么；與此同時，GUI 天然是為了人機交互設(shè)計的，相比于 HTML 等文本模態(tài)的表征，GUI 更為直接簡潔，易于獲取有效信息。也就是說，在 GUI 場景下，視覺是一種更為直接、本質(zhì)的交互模態(tài)，能更高效完整提供環(huán)境信息；更進(jìn)一步地，很多 GUI 界面并沒有對應(yīng)的源碼，也難以用語言表示。因此，若能將大模型改進(jìn)為視覺 Agent，將 GUI 界面以視覺的形式直接輸入大模型中用于理解、規(guī)劃和決策，將是一個更為直接有效、具備極大提升空間的方法。

CogAgent 可以實現(xiàn)基于視覺的 GUI Agent，其工作路徑與能力如下：

圖4 CogAgent工作路徑與能力

CogAgent 模型同時接受當(dāng)前 GUI 截圖（圖像形式）和用戶操作目標(biāo)（文本形式，例如“search for the best paper in CVPR 2023”）作為輸入，就能預(yù)測詳細(xì)的動作，和對應(yīng)操作元素的位置坐標(biāo)?？梢詰?yīng)用于包括電腦、手機的各種場景。受益于 GUI Agent 的可泛化性，CogAgent 能在各類沒見過的場景與任務(wù)上都取得良好的性能。論文中展示了更多示例，覆蓋了 PPT、手機系統(tǒng)、社交軟件、游戲等各類場景

CogAgent 的模型結(jié)構(gòu)及訓(xùn)練方法

據(jù)介紹，CogAgent 的模型結(jié)構(gòu)基于 CogVLM。為了使模型具備對高分辨率圖片的理解能力，可以看清 720p 的 GUI 屏幕輸入，團(tuán)隊將圖像輸入的分辨率大幅提升至 1120×1120（以往的模型通常小于 500×500，包括 CogVLM，Qwen-VL 等）。然而，分辨率的提升會導(dǎo)致圖像序列急劇增長，帶來難以承受的計算和顯存開銷——這也是現(xiàn)有多模態(tài)預(yù)訓(xùn)練模型通常采用較小分辨率圖像輸入的原因之一。

對此，團(tuán)隊設(shè)計了輕量級的“高分辨率交叉注意力模塊”，在原有低分辨率大圖像編碼器（4.4 B）的基礎(chǔ)上，增加了高分辨率的小圖像編碼器 (0.3 B），并使用交叉注意力機制與原有的 VLM 交互。在交叉注意力中，團(tuán)隊也使用了較小的 hidden size，從而進(jìn)一步降低顯存與計算開銷。

圖5 高分辨率交叉注意力模塊設(shè)計

結(jié)果表明，該方法可以使模型成功理解高分辨率的圖片，并有效降低了顯存與計算開銷。在消融實驗中，團(tuán)隊還比較了該結(jié)構(gòu)與 CogVLM 原始方法的計算量。結(jié)果表明，當(dāng)分辨率提升時，使用文中提出的方案（with cross-module，橙色）將會帶來極少量的計算量增加，并與圖像序列的增長成線性關(guān)系。特別的，1120×1120 分辨率的 CogAgent 的計算開銷（FLOPs），甚至比 490×490 分辨率的 CogVLM 的 1/2 還要小。在 INT4 單卡推理測試中，1120×1120 分辨率的 CogAgent 模型占用約 12.6GB 的顯存，相較于 224×224 分辨率的 CogVLM 僅高出不到 2GB。

圖5 CogAgent 模型理解高分辨率圖片結(jié)果圖

在數(shù)據(jù)方面，除了 CogVLM 用到的 image caption 數(shù)據(jù)集之外，團(tuán)隊在文本識別、視覺定位、GUI 圖像理解方面進(jìn)行了數(shù)據(jù)擴充與增強，從而有效提升了 GUI Agent 場景下的性能。（CogAgent 的預(yù)訓(xùn)練和微調(diào)數(shù)據(jù)的采集、生成方法詳細(xì)介紹于論文的 2.2 和 2.3 部分。）

來源：AI前線（編輯：凌敏）

關(guān)于學(xué)訊通

學(xué)訊通是學(xué)者網(wǎng)官方機構(gòu)號，致力于為廣大學(xué)者提供權(quán)威、及時的學(xué)術(shù)資訊服務(wù)。我們聚焦學(xué)術(shù)前沿動態(tài)、深度政策解讀與優(yōu)質(zhì)科研資源分享，內(nèi)容涵蓋學(xué)術(shù)會議通知、項目申報信息、期刊動態(tài)、高校招聘及學(xué)者訪談等。作為連接學(xué)者與優(yōu)質(zhì)學(xué)術(shù)信息的橋梁，學(xué)訊通支持關(guān)聯(lián)學(xué)者主頁，助力構(gòu)建真實、可信的學(xué)術(shù)社交網(wǎng)絡(luò)。關(guān)注學(xué)訊通，讓科研信息獲取更高效，學(xué)術(shù)交流更便捷。獲取更多學(xué)術(shù)資訊，歡迎掃描下方二維碼，一鍵關(guān)注學(xué)訊通機構(gòu)號。

麻豆精品无码av,欧美1区2区,久久中文字幕乱码人妻,亚洲欧美另类少妇精品,在线看黄射,69pao高清,九九九久久久国产精品,子操大逼1234区,九九爱99热精品

【轉(zhuǎn)載】清華大學(xué)與智譜 AI 聯(lián)合推出 CogAgent：基于多模態(tài)大模型的 GUI Agent，具備視覺問答、視覺定位等能力

關(guān)于學(xué)訊通

評論 0

近期熱門新聞

下一篇

麻豆精品无码av,欧美1区2区,久久中文字幕乱码人妻,亚洲欧美另类少妇精品,在线看黄射,69pao高清,九九九久久久国产精品,子操大逼1234区,九九爱99热精品

【轉(zhuǎn)載】清華大學(xué)與智譜 AI 聯(lián)合推出 CogAgent：基于多模態(tài)大模型的 GUI Agent，具備視覺問答、視覺定位等能力

關(guān)于學(xué)訊通

評論 0

近期熱門新聞

下一篇

【轉(zhuǎn)載】清華大學(xué)與智譜 AI 聯(lián)合推出 CogAgent：基于多模態(tài)大模型的 GUI Agent，具備視覺問答、視覺定位等能力