清华推出新一代图像理解大模型:可识别《原神》等

2023-12-27 16:17:28 来源:微博 作者:转载 编辑:动次哒次KDS 浏览:loading

清华KEG实验室近日和智谱AI合作,联合推出了新一代图像理解大模型CogAgent。

游民星空

该模型基于此前推出的CogVLM,通过视觉GUI Agent,使用视觉模态(而非文本)对GUI界面进行更全面直接的感知,从而作出规划和决策。

游民星空

CogAgent可以接受1120×1120的高分辨率图像输入,具备视觉问答、视觉定位(Grounding)、GUI Agent等多种能力,在9个经典的图像理解榜单上(含 VQAv2,STVQA, DocVQA,TextVQA,MM-VET,POPE 等)取得了通用能力第一的成绩。

游民星空

例如,用户输入一张关于CogVLM项目的GitHub的图片,然后询问如何给这个项目点“Star”,然后CogAgent就会反馈出结果。

例如用户输入一张原神游戏的截图,可以询问“当前任务中的队友是谁?”,CogAgent会给出相关的回答。

游民星空

人喜欢
游民星空APP
随时掌握游戏情报
code
休闲娱乐
综合热点资讯
单机游戏下载
好物推荐
游民星空联运游戏
清华推出新一代图像理解大模型:可识别《原神》等https://imgs.gamersky.com/upimg/new_preview/2023/12/27/origin_b_202312271614291113.jpg