中文数据助力AI模型性能跃升，日均Token消耗量激增300倍

网络 2025-08-19 06:26:46

2025-08-19 06:26:46 阅读

　　本报北京8月18日电（记者王云杉）记者从国家数据局获悉：中文数据在国内大模型的训练性能提升方面发挥着重要作用。国内多数模型训练使用的中文数据占比已经超过60%，有的模型达到80%。中文高质量数据的开发和供给能力持续增强，推动我国人工智能模型性能快速提升。这一趋势不仅彰显了中文数据在AI训练中的核心地位，也预示着未来人工智能领域将更加注重高质量数据的积累与应用。

　　在人工智能时代，Token（通常所说的词元）是处理文本的最小数据单元。国家数据局局长刘烈宏介绍，2024年初，我国日均Token的消耗量为1000亿，截至今年6月底，日均Token消耗量已经突破30万亿，1年半时间增长了300多倍，反映了我国人工智能应用规模的快速增长。这一数据增长不仅体现了我国AI技术的迅猛发展，也为未来AI技术的创新与应用提供了坚实的数据基础。

（文章来源：人民日报）

中文数据人工智能模型 Token消耗量 AI训练

声明：

风险提示：以上内容仅来自互联网，文中内容或观点仅作为原作者或者原网站的观点，不代表本站的任何立场，不构成与本站相关的任何投资建议。在作出任何投资决定前，投资者应根据自身情况考虑投资产品相关的风险因素，并于需要时咨询专业投资顾问意见。本站竭力但不能证实上述内容的真实性、准确性和原创性，对此本站不做任何保证和承诺。

本站认真尊重知识产权及您的合法权益，如发现本站内容或相关标识侵犯了您的权益，请您与我们联系删除。

中文数据助力AI模型性能跃升，日均Token消耗量激增300倍

推荐文章：

期货龙虎榜 - 深度市场解析

美国超威半导体准备向中国出口MI308芯片

广西新糖供应增加糖价持续走低

台当局对小红书采取“互联网停止解析及限制接取”措施

国内商品期货开盘涨跌情况

城镇老旧小区改造、碧桂园人事变动及房企销售业绩

中国股份行逼近G-SIBs门槛，面临更严格资本监管

贵金属及有色金属价格震荡，关注美联储政策与全球经济复苏

航运市场12月下旬运价中枢或小幅上移

浙江省支持低空经济发展无人机产业链加速布局

美国超威半导体准备向中国出口MI308芯片

商务部回应稀土出口管制：合规申请及时批准

全球银价创历史新高白银市场高波动

美国11月ADP就业人数减少至2023年3月以来最低水平

新能源重卡市场：高增长背后的挑战与机遇

沪铜期货主力合约创历史新高

全球商业航天牵引火箭发射需求国内复用火箭前景广阔

国内商品期货早盘收盘主力合约多数下跌

商务部发布会、瑞士失业率等经济数据公布

美股、欧股涨跌情况与商品市场油价、黄金走势分析