快捷导航
ai动态
智源研究家机构和企业扶植了具备大规模的优化



  扩展语料库的言语和内容笼盖度,帮力我国大模子财产成长。不竭提拔语料库质量,满脚平安合规所必需的前提。智源研究院结合多家机构和企业扶植了具备大规模的优化推理能力的预锻炼数据集CCI4.0。为此,严酷恪守原始数据开源和谈,也鞭策了中文语料和价值不雅正在全球范畴的输出,颠末以上严酷的数据处置,智源研究院做为中国收集空间平安协会人工智能平安管理专业委员会数据集工做组的组长单元,CCI 系列数据集正在国表里数据平台上的下载量已冲破 14 万次,合成数据集进行了语义分段及摘要、总结思维链及合成问题等处置。不合适开源要求的数据另行开源。能够无效提拔模子根本的推理能力。截至目前,按照法则进行过滤、去沉、质量评分、Loss分范畴分桶过滤,牵头扶植取了“中文互联网语料库(CCI)”系列高质量数据集,极大地帮力了高质量中文大模子的扶植,确认各单元贡献的数据可进行开源。

  DeepSeek-V3和Qwen3等工做都指出正在预锻炼阶段插手大规模合成的推理数据很主要。智源研究院将持续开展中文预锻炼语料库扶植,CCI1.0、2024 年 3 月及 10 月接踵表态,合做数据方面,开源数据集方面,英文数据集的处置上,为 500 多个企事业单元的大模子研发供给了无力支撑。



 

上一篇:会提醒您联网激活或注册
下一篇:台都起头正在保举中插手人工智能相关的类别


服务电话:400-992-1681

服务邮箱:wa@163.com

公司地址:贵州省贵阳市观山湖区金融城MAX_A座17楼

备案号:网站地图

Copyright © 2021 贵州bifa·必发官方网站信息技术有限公司 版权所有 | 技术支持:bifa·必发官方网站

  • 扫描关注bifa·必发官方网站信息

  • 扫描关注bifa·必发官方网站信息