我国高质量数据集总量超500PB 推动AI发展
人工智能持续火热背后,今年以来高质量数据集受重视程度明显增加。财联社记者从国家数据局方面最新获悉,截至今年9月底,我国已建成高质量数据集总量超500PB,全社会初步实现了“人工智能+”到哪里,高质量数据集建设和应用就到哪里的良好氛围。
我们在工作中深刻感受到,全社会需要加大数据领域投入,培育‘为高质量数据付费’的意识。日前召开的上海2025科创大会上,国家发展改革委党组成员、国家数据局党组书记、局长刘烈宏这样表示。
据悉,国家数据局通过定政策、促供给、建标准、强技术、育生态,把推动数据要素赋能人工智能发展作为数据要素市场化配置改革的重点工作,加快高质量数据集建设。此前,国家数据局联合26个部委共同制定政策文件,以场景应用为导向,推动各行业领域高质量数据集建设;部署了140项先行先试任务,组织制定了包括高质量数据集建设指南、检测方法等5项技术文件,遴选推广104个典型案例。
财联社记者注意到,仅在11月,北京、重庆、贵州、江西等地最新相关规划中纷纷强调要加快建设高质量数据集。事实上,此前多家科技企业亦表示,在发展人工智能的过程中,数据要素受重视程度还不够。人工智能要发挥更大作用,生成式大模型只是第一步,未来更关键的是行业智能体的开发。而行业智能体的训练,离不开高质量行业数据集的支撑。近期,一位上市公司相关负责人在接受财联社记者采访时表示。
今年以来,业界提出“AI-Ready”(AI就绪度)概念。据了解,AI就绪的数据集应满足技术可行、实用便捷与质量保障三个递进级别的要求。其中,技术可行指数据集必须包含模型训练所需的信息要素,确保训练过程在技术层面具备可行性;实用便捷指数据集中包含模型训练所需的必要信息要素应易于提取,无需进行大量预处理即可直接投入训练使用;质量保障指数据集不仅在形式和结构维度上应满足训练需求,还应能有效提高人工智能模型的性能。达到质量保障这一级别的数据集,即高质量数据集。
除了高质量数据集建设,刘烈宏表示,推动数据要素与人工智能深度融合,促进数智创新,还要把握以下关键两点:数据基础设施是数智创新的重要载体;人才队伍建设是数智创新的关键支撑。
具体而言,数据基础设施方面,去年,国家数据局会同国家发改委、工信部印发建设指引,提出“广泛开展试点试验、实现全国大中城市基本覆盖、建成国家数据基础设施主体架构”三步走的推进思路,先后发布了数据基础设施技术架构、互联互通基本要求等13项技术文件,完成了6项国家标准立项;部署了74个数据基础设施先行先试任务,覆盖了80%以上省区市及科技、教育等15个重要领域,接入数据流通服务机构(数交所、数据基础设施运营方、数据商)近4000家,对外提供数据产品和服务超过1.3万个。
人才队伍建设方面,近日国家数据局联合国家发改委、教育部、科技部、中组部印发了《关于加强数据要素学科专业建设和数字人才队伍建设的意见》,将大力推动数据领域学科设置与人才培养模式创新。此外,国家数据局将和教育部将会同相关部委通过规划和试点“双轮驱动”,加快构建数字人才自主培养新生态。
声明:
- 风险提示:以上内容仅来自互联网,文中内容或观点仅作为原作者或者原网站的观点,不代表本站的任何立场,不构成与本站相关的任何投资建议。在作出任何投资决定前,投资者应根据自身情况考虑投资产品相关的风险因素,并于需要时咨询专业投资顾问意见。本站竭力但不能证实上述内容的真实性、准确性和原创性,对此本站不做任何保证和承诺。
- 本站认真尊重知识产权及您的合法权益,如发现本站内容或相关标识侵犯了您的权益,请您与我们联系删除。
推荐文章: