首页>产业 > 信息技术 > > 正文

助力大模型研发 腾讯云AIGC存储解决方案全面升级

2024-04-11 09:27:58
来源:科技日报 作者:都芃 评论:0

  4月8日,腾讯云宣布其云存储解决方案面向AIGC(生成式人工智能)场景全面升级,能够为AI大模型数据采集、清洗、训练、推理、治理全流程提供全面高效的云存储支持。应用数据显示,腾讯云AIGC云存储解决方案可将大模型数据清洗和训练效率提升一倍,所需时间缩短一半。

  AI大模型的研发生产流程,可分为数据采集与清洗、模型训练、推理三大环节,各环节都涉及海量的数据处理。腾讯集团副总裁、腾讯云与智慧产业事业群COO兼腾讯云总裁邱跃鹏曾表示,大模型将开创下一代云服务,腾讯云致力打造“最适合大模型的云”。

  在数据采集环节,由于原始训练数据规模海量,且来源多样,对存储技术提出了多协议支持、高性能、大带宽的需求。腾讯云对象存储(COS)支持单集群管理百EB(1EB=1024PB)级别存储规模,能够提供便捷、高效的数据公网接入能力,并支持多种协议,充分支持大模型PB(1PB=1024x1024GB)级别的海量数据采集。

  在数据清洗环节,大数据引擎需要快速读取并过滤出有效数据,COS通过自研数据加速器GooseFS提升数据访问性能,支撑计算高速运行,大大提升数据清洗效率。

  在模型训练环节,通常需要每2到4小时保存一次训练成果,以便能在GPU(图形处理器)故障时快速回滚。因此,快速读写checkpoint(检查点)文件也成为训练环节高效利用算力资源、提高训练效率的关键。腾讯云自主研发并行文件存储CFS Turbo,面向AIGC训练场景进行了专门优化,总读写吞吐达到TiB/s(太字节每秒)级别,每秒元数据性能高达百万OPS(算力单位)。其3TB checkpoint写入时间从10分钟缩短至10秒内,使大模型训练效率大幅提升。

  大模型推理场景对数据安全与可追溯性提出更高要求。腾讯云数据万象CI为此提供图片隐式水印、AIGC内容审核、智能数据检索等能力,为数据生产“用户输入——预处理——内容审核——版权保护——安全分发——信息检索”业务全流程提供有力支撑,优化AIGC内容生产与管理模式。

  据介绍,腾讯云AIGC云存储解决方案是国内首个实现存储引擎全面自研的云存储解决方案。目前,已在百川智能、智谱、元象等头部大模型企业应用。此外,针对AIGC的checkpoint记录、大视频文件读写、小图片读写等场景,腾讯云CFS Turbo还自研了分级缓存、自适应条带化、分布式元数据的技术,大幅提升了AIGC场景下的读写性能。除大模型研发外,也被广泛应用于自动驾驶与工业仿真等场景。

(责任编辑:韩梦晨)

版权与免责声明:
①凡本站注明稿件来源为:中国高新技术产业导报、中国高新网、中高新传媒的所有文字、图片和音视频稿件,版权均属本网所有,任何媒体、网站或个人未经本网协议授权不得转载、链接、转贴或以其他方式复制发表。已经本网授权使用作品的,被授权人应在授权范围内使用,并注明“来源:中国高新网、中高新传媒或者中国高新技术产业导报”。违反上述声明者 ,本网将追究其相关法律责任。
② 任何单位或个人认为本网站或本网站链接内容可能涉嫌侵犯其合法权益,应该及时向本网站书面反馈,并提供身份证明,权属证明及详细侵权情况证明,本网站在收到上述文件后,将会尽快移除被控侵权的内容或链接。
③如因作品内容、版权和其他问题需要与本网联系的,请在该事由发生之日起30日内进行。电话:010-68667266 电子邮件:dbrmt#chih.org (请将“#”换为“@”)
排行
  • 全部/
  • 本月

编辑推荐


扫描添加 中国高新技术产业导报

(数字报)

扫描添加 中国高新APP客户端
扫描添加 导报微信公众号