扩展语料库的言语和内容笼盖度,帮力我国大模子财产成长。不竭提拔语料库质量,满脚平安合规所必需的前提。智源研究院结合多家机构和企业扶植了具备大规模的优化推理能力的预锻炼数据集CCI4.0。为此,严酷恪守原始数据开源和谈,也鞭策了中文语料和价值不雅正在全球范畴的输出,颠末以上严酷的数据处置,智源研究院做为中国收集空间平安协会人工智能平安管理专业委员会数据集工做组的组长单元,CCI 系列数据集正在国表里数据平台上的下载量已冲破 14 万次,合成数据集进行了语义分段及摘要、总结思维链及合成问题等处置。不合适开源要求的数据另行开源。能够无效提拔模子根本的推理能力。截至目前,按照法则进行过滤、去沉、质量评分、Loss分范畴分桶过滤,牵头扶植取了“中文互联网语料库(CCI)”系列高质量数据集,极大地帮力了高质量中文大模子的扶植,确认各单元贡献的数据可进行开源。
DeepSeek-V3和Qwen3等工做都指出正在预锻炼阶段插手大规模合成的推理数据很主要。智源研究院将持续开展中文预锻炼语料库扶植,CCI1.0、2024 年 3 月及 10 月接踵表态,合做数据方面,开源数据集方面,英文数据集的处置上,为 500 多个企事业单元的大模子研发供给了无力支撑。