AI产业数据需求激增 数交所非主要采购途径
AI产业正从通用模型向行业垂直应用快速融合下沉,数据作为人工智能三大基本要素之一,面临高质量数据不足问题。
财联社记者获悉,各大模型企业迫切希望获得更多高质量数据集,需求集中于头部企业行业知识底座构建,人工智能高质量数据集的需求量、交易量激增。不过,高质量数据集的建设、流通环节均面临诸多问题,目前数据交易所并非模型语料最主要的采购途径。
需求、交易爆发式增长
北京国际大数据交易所董事长李振军介绍,人工智能数据集已成为数据流通最活跃的领域,高质量数据集呈现爆发式增长态势。
高质量数据集是用于训练、验证和优化大模型的数据资源集合。国家数据局等部门已提出推动行业共性数据资源库建设,打造高质量人工智能大模型训练数据集。
据了解,北数所已深度服务多家国内人工智能头部企业,主力购买者正是AI头部企业,用于构建行业知识底座。
数据交易网CEO张瑶表示,数据需求主要以行业垂直模型为主,核心点在于对细分行业的理解程度。
大会期间,信通院人士分析称,人工智能对于数据集的需求主要可分为多模态、具身智能、思维链、长视频等四类需求。
财联社记者获悉,北数所已交付的人工智能高质量数据集数据规模达1814TB,总交易量接近2500TB,覆盖20个应用模型场景。
不过张瑶也表示,不同细分行业对模型语料的需求程度不同,需考虑各行业的数字化完成水平。
不仅北数所,贵阳大数据交易所已发布939个高质量数据集,深圳每年设置最高5000万元作为语料券专项资金。
数交所并非语料最主要采购途径
不过据财联社记者了解,数据交易所并非最主要的模型训练数据采购途径,但承担着市场价值发现的职能。
张瑶表示,全国数据交易市场超过95%的交易都来源于非数据交易所参与的场景,但交易所是一个很重要的基础设施提供方。
信通院人士分析,高质量数据集建设层面面临目标定位模糊、实施路径碎片化、技术底座薄弱等挑战。
另据财联社记者了解,高质量数据集流通层面也面临着寻源难、评价难、协同难等问题。
多位受访者介绍了模型训练所需语料数据常见的获取方式,包括互联网公开数据、购买有版权的数据、置换资源、自行生产私域语料数据等。
有专家表示,数据是AI的新战场,AI正在从model-centric到data-centric转变,数据基础设施建设是下一个关键点。
此外,财联社记者采访获悉,当前大模型语料主要面临质量参差不齐、产权不清晰等痛点。
(文章来源:财联社)
声明:
- 风险提示:以上内容仅来自互联网,文中内容或观点仅作为原作者或者原网站的观点,不代表本站的任何立场,不构成与本站相关的任何投资建议。在作出任何投资决定前,投资者应根据自身情况考虑投资产品相关的风险因素,并于需要时咨询专业投资顾问意见。本站竭力但不能证实上述内容的真实性、准确性和原创性,对此本站不做任何保证和承诺。
- 本站认真尊重知识产权及您的合法权益,如发现本站内容或相关标识侵犯了您的权益,请您与我们联系删除。
推荐文章: