首页>潮品 > 新技术 > > 正文

文字多模态大模型TextMonkey通用文档理解能力大幅提升

2024-03-19 08:59:32
来源:科技日报 作者:吴纯新 通讯员 汪伟颋 评论:0

  3月15日,记者从华中科技大学获悉,由该校联合金山办公研究人员开发的Monkey多模态大模型已被人工智能领域国际顶级会议CVPR2024接收,且曾在Meta AI公认的权威“司南”多模态大模型排行榜中名列开源模型榜首,仅次于行业领先者OpenAI的GPT4V和谷歌的Gemini等闭源模型。

  TextMonkey是Monkey在文档领域的重要升级,突破了通用文档理解能力边界。该模型在场景文字识别、办公文档摘要生成、数学问题问答、文档版式分析,表格理解、图表问答、电子文档关键信息抽取等12项文档权威数据集,以及国际上规模最大的文档图像智能数据集OCRBench上取得显著突破,通用文档理解性能大幅超越现有方法。

  据介绍,多模态大模型是一类可以同时处理和整合多种感知数据的AI架构,在众多场景中表现出色。凭借丰富的世界知识和出色的对话能力,多模态大模型能如同人类一样深入理解和感知世界。

“司南”多模态大模型排行榜单

  TextMonkey能帮助人们理解结构化图表、表格以及文档数据,通过将图像内容转化为轻量级的数据交换格式,方便记录和提取。也能作为智能手机代理,无需接触后端,仅需语音输入及屏幕截图,即能模仿人类的点击手势,在手机上执行各种任务,自主操控手机应用程序。

TextMonkey充当智能手机代理控制手机应用程序

  该研发团队表示,TextMonkey的成功核心在于模拟人类视觉认知的方法,这使它能自然而然地识别高清文档图像中各部分的相互关联,并灵敏地鉴别出图像内关键要素。

  当前,随着各大企业加速数字化转型,文档与图像的多模态结构化分析及内容提取显得尤为关键。无论处理随意拍摄的图片、电子文档、办公软件文件,还是图表分析报告,快速、自动化、精确的数据处理对提升企业生产效率具有决定性意义。在此背景下,TextMonkey的推出为这一挑战提供了一种创新的通用解决方案,有望在办公自动化、智慧教育、智慧金融等领域率先实现技术突破,为全面提升通用文档理解能力带来曙光。

  (受访单位供图)

(责任编辑:韩梦晨)

版权与免责声明:
①凡本站注明稿件来源为:中国高新技术产业导报、中国高新网、中高新传媒的所有文字、图片和音视频稿件,版权均属本网所有,任何媒体、网站或个人未经本网协议授权不得转载、链接、转贴或以其他方式复制发表。已经本网授权使用作品的,被授权人应在授权范围内使用,并注明“来源:中国高新网、中高新传媒或者中国高新技术产业导报”。违反上述声明者 ,本网将追究其相关法律责任。
② 任何单位或个人认为本网站或本网站链接内容可能涉嫌侵犯其合法权益,应该及时向本网站书面反馈,并提供身份证明,权属证明及详细侵权情况证明,本网站在收到上述文件后,将会尽快移除被控侵权的内容或链接。
③如因作品内容、版权和其他问题需要与本网联系的,请在该事由发生之日起30日内进行。电话:010-68667266 电子邮件:dbrmt#chih.org (请将“#”换为“@”)
排行
  • 全部/
  • 本月

编辑推荐


扫描添加 中国高新技术产业导报

(数字报)

扫描添加 中国高新APP客户端
扫描添加 导报微信公众号