首页>研报 > 研究报告 > > 正文

哪些数据产业新兴赛道正在崛起?

2024-04-11 13:56:50
来源:中国高新技术产业导报 作者:朱志华、陈晋雯 评论:0
  自党的十九届四中全会首次提出将数据列为新型生产要素起,数据要素在推动数字经济的发展中发挥着越来越重要的作用,已成为国家重要的基础性、战略性资源,并带动我国数据产业规模大幅提升。2024年初,国家数据局等17部门联合印发《“数据要素×”三年行动计划(2024—2026年)》(国数政策〔2023〕11号),提出到2026年底数据产业年均增速超过20%,数据交易规模倍增,推动数据要素价值创造的新业态成为经济增长新动力。

  当前,由于人工智能的爆发、数据产权制度框架的提出、数据安全产业发展的需求,数据要素市场所涉及到的数据供给、确权评估、流通、安全管理等产业链关键环节,正在涌现一批快速发展的数据产业新赛道。据新经济智库长城战略咨询的分析,目前尤为引人关注的有三个赛道:

  合成数据赛道:在大模型带动下成为产业发展新赛道

  2023年,以ChatGPT等大模型为代表的AIGC技术取得重大突破,使大模型在全球范围内受到了广泛的关注,并开始大规模应用,这离不开大规模、高质量数据的发展。根据公开资料显示,2018年GPT-1数据集约4.6GB,2020年GPT-3数据集达到了753GB,而2021年Gopher数据集已达10550GB,2023年GPT-4的数据量更是GPT-3的数十倍以上。大模型的技术突破将加速通用人工智能(AGI)时代的到来,届时更加需要大规模、高质量、多样化的数据集提升模型效果和泛化能力。在此背景下,合成数据赛道将迎来爆发性发展。

  合成数据是运用计算机模拟生成的人造数据,替代真实数据来训练、测试和验证大模型。当前主流大模型预训练数据主要来源于公开数据集、合作数据分享、大规模网络数据以及通过数据众包方式获取的数据,普遍面临中文数据集缺乏、质量不高、成本过重等问题。专家预测模型训练中必不可少的语言数据将于2030-2040年耗尽,视觉数据将于2030-2060年耗尽,届时合成数据将成为模型训练的关键数据。根据Gartner预测,2024年用于训练大模型的数据中有60%是合成数据,到2030年大模型使用的绝大部分数据都将由人工智能合成。

  当前,合成数据赛道已涌现出快速发展的初创企业。如蔚来前高管创业的光轮智能,2023年成立以来连续获得种子轮、天使轮、天使+三轮融资,累计融资金额达数千万元人民币,其产品已经开始服务于数家自动驾驶和机器人公司。宽客进化(AiQuant)基于AIGC技术提供人造合成数据与数据增强引擎、场景智能体解决方案,服务证券市场投资机构、金融风险管理、电信运营商、政府经济治理、市场监管、金融科研。

  数据确权合规赛道:随着数据产权制度的提出和数据资产的落地始向快车道

  明确产权、设立产权保护制度是生产要素参与生产、获得收益的基础,数据要素也不例外。数据要素产权被定义为附着在数据上的一系列排他性权利的集合,是调整人与人之间关于数据使用的利益关系的制度。数据确权主要包含两个方面,一方面是确定数据的权利主体,另一方面是确定权利的内容。数据确权是数据资产化的基础和交易流通的前提。

  数据确权是数据产业发展的核心问题之一,是后续突破定价、流通、交易等环节,进而令其真正成为一种资产的前提条件。数据确权的主要目的是以法律形式明确数据的产权归属问题,规范数据采集、传输和交易等流程。这有助于保护数据所有权,推动数据资源的整合和利用,降低数据交易的成本,从而激发大数据及其相关产业的活力,促进数据产业的快速发展。随着“数据二十条 ”中“三权分置”数据产权制度框架的提出,以及数据资产入表的落地,数据确权合规赛道发展开始迈向快车道。

  目前,国内的数据确权服务工作主要由一些国有企业搭建的平台承担。人民网旗下的人民数据推出人民数据资产服务平台,以人民网的“人民链”技术为技术基础,成为行业内首个集数据合规性审核、数据确权出版、数据流通登记和数据资产服务于一体的国家级综合数据资产服务平台,也被视为国内首个数据确权平台。同时,制定的数据确权标准“人民数据确权108项名录”正式上线。基于该名录,浙江中国小商品城集团股份有限公司的义乌·中国小商品指数在人民链·数据确权平台完成确权公示。武汉东湖大数据科技股份有限公司和青岛数据资产登记评价中心等联合推出国内首个产业数据资产登记评价平台,提供面向产业数据资源的登记评价服务。目前已实现包括武汉、青岛、厦门和兰州四个城市的互联互通互认。

  隐私计算赛道:在政策和市场的双重驱动下高速发展

  隐私计算是隐私保护计算(Privacy-preserving Computation)的简称,是指在提供数据隐私保护的前提下,对数据进行分析计算的一类技术,可构建“原始数据不出域、数据可用不可见”的数据可信流通范式。隐私计算涵盖了安全多方计算、同态加密、差分隐私、零知识证明、联邦学习、可信执行环境等众多技术子项,以及这些技术子项的组合及相关产品方案。

  隐私计算正处于产业快速增长阶段。在推动“数据二十条”理念落地的途径中,隐私计算作为平衡数据流通与价值释放的关键“技术解”,得到了越来越多的重视。2023年1月《关于促进数据安全产业发展的指导意见》提出加强隐私计算、数据流转分析等关键技术攻关;加强隐私计算等产品研发;推进安全多方计算、联邦学习、全同态加密等数据开发利用支撑技术的部署应用。2022年Gartner技术成熟度曲线列出的25项值得关注的新兴技术中,有6项与隐私计算相关。Gartner报告还指出,至2024年,隐私驱动的数据保护和合规技术支出将在全球突破150亿美元以上。

  当前,隐私计算技术提供商主要有四类:一是蚂蚁集团、百度等为代表的互联网厂商,凭借自己的技术、资金、场景和积累的海量数据源优势,已推出各自基于隐私计算的相关产品;二是高成长初创企业,如华控清交(2022年完成近2亿元B+轮融资)、翼方健数(2023年完成数亿元B++轮融资)、洞见科技(2022年完成超亿元A轮融资)、星环科技(2022年IPO上市)、星云 Clustar(2022年完成千万美元B轮融资)、数牍科技(2021年完成3.08亿人元A轮融资)等;三是瑞莱智慧、云从科技、神州泰岳等集成商,将隐私技术与现有的软件、硬件、数据服务等嫁接或集成,植入到服务中;四是区块链公司、金融科技公司、数据服务商、安全技术商等公司,基于原有业务的客户需求与相关技术来发展隐私计算模块,如趣链科技、联易融、微众银行、冲量在线、信安世纪等。

  在政策的推动和市场各方面参与者的努力下,我国数据要素市场的正走向蓬勃发展的阶段,合成数据、数据确权和隐私计算等赛道迅速崛起。未来更多的数据产业将在数据乘数的作用下,放大劳动力、资本、技术等要素在社会各行业价值链流转中产生的价值,不断促使数据产业裂变或聚合成新的赛道,推动数据产业的发展空间和格局不断扩展。

  (作者单位:北京市长城企业战略研究所)

(责任编辑:韩梦晨)

版权与免责声明:
①凡本站注明稿件来源为:中国高新技术产业导报、中国高新网、中高新传媒的所有文字、图片和音视频稿件,版权均属本网所有,任何媒体、网站或个人未经本网协议授权不得转载、链接、转贴或以其他方式复制发表。已经本网授权使用作品的,被授权人应在授权范围内使用,并注明“来源:中国高新网、中高新传媒或者中国高新技术产业导报”。违反上述声明者 ,本网将追究其相关法律责任。
② 任何单位或个人认为本网站或本网站链接内容可能涉嫌侵犯其合法权益,应该及时向本网站书面反馈,并提供身份证明,权属证明及详细侵权情况证明,本网站在收到上述文件后,将会尽快移除被控侵权的内容或链接。
③如因作品内容、版权和其他问题需要与本网联系的,请在该事由发生之日起30日内进行。电话:010-68667266 电子邮件:dbrmt#chih.org (请将“#”换为“@”)
排行
  • 全部/
  • 本月

编辑推荐


扫描添加 中国高新技术产业导报

(数字报)

扫描添加 中国高新APP客户端
扫描添加 导报微信公众号