大模型原理

基础设施

  • InternEvo,一个高效且轻量级的预训练框架,进行模型训练。该框架使我们能够在数千个 GPU 上扩展模型训练。
  • Transformer 因其出色的并行化能力而主要用作过去大型语言模型 (LLMs) 的骨干,它充分利用了 GPU 的强大功能。LLaMA 建立在 Transformer 架构之上,将 LayerNorm ( 替换为 RMSNorm并将激活函数设置为 SwiGLU ,从而提高了训练效率和性能。

其中的矩阵算法决定了上下文的长度

预训练

对网上不同的数据进行预处理

  • 文本数据
    • 基于规则的过滤,
    • 重复数据删除,MinHash方法,在5G的文档上建立了具有128个哈希函数的签名,并使用0.7作为重复数据删除的阈值。
    • 安全过滤,结合了“域屏蔽”、“单词屏蔽”、“色情分类器”和“毒性分类器”来过滤数据。
    • 质量过滤,通过组织手工数据标注,从四个维度对数据进行评分:一致性、噪声、信息内容和语法,从而得出全面的流利度分数。然后,我们使用手动注释的数据对BERT模型进行了微调,获得了广告分类器和流畅度分类器。最后,我们使用这两个分类器对数据进行二次过滤,过滤掉分数低于阈值的数据,从而产生高质量的预训练数据。
  • 代码
  • 长上下文数据

校准

通常包含两个阶段:监督微调 (SFT) 和来自人类反馈的强化学习 (RLHF)。在SFT期间,我们通过高质量的指令数据对模型进行微调,以遵循不同的人类指令(Sec.1)。然后,我们提出了 COnditionalOnLine RLHF,它应用了一种新颖的条件奖励模型,可以调和不同类型的人类偏好(例如,多步骤推理准确性、有用性、无害性),并进行三轮在线 RLHF 以减少奖励黑客攻击。在对齐阶段,LLMs我们通过在 SFT 和 RLHF 4.3 期间利用长上下文预训练数据来保持长上下文功能。

参考文章