书生·浦语大模型升级,4T数据训出高性能模型

1月15日,上海人工智能实验室对墨客大模型进行重要版别晋级,墨客·浦语3.0(InternLM3)经过精粹数据结构,大幅提高了数据功率,并完成思想密度的跃升。仅运用4T练习数据的InternLM3-8B-Instruct,其归纳功能超过了同量级开源模型,节省练习本钱75%以上;一起,墨客·浦语3.0初次在通用模型中完成了惯例对话与深度考虑才能交融,可应对更多实在运用场景。

数据是大模型才能提高的重要“推进剂”。现在干流开源模型多以扩展预练习数据规划作为功能提高途径,预练习数据量遍及挨近20T token,练习本钱也随之线性增加,一起也引起业界关于数据瓶颈和Scaling Law可持续性的考虑。上海AI实验室研讨团队以为,数据质量的提高带来的增益会明显高于数据规划的提高,而数据的“思想密度”(IQPT,Intelligence Quality per Token)是数据质量的中心,即数据的考虑过程中包含的逻辑性、复杂性、启发性等。为此,团队提出大规划数据精粹结构,大幅提高了练习数据的质量。在详细实践中,墨客·浦语3.0仅运用4T token的预练习数据,即完成干流开源模型18T数据的练习作用。经过构建数据“思想密度”杠杆,撬动模型功能提高,为打破Scaling Law带来了新的研讨范式。

返回资讯列表