大模型原理

基础设施

InternEvo，一个高效且轻量级的预训练框架，进行模型训练。该框架使我们能够在数千个 GPU 上扩展模型训练。
Transformer 因其出色的并行化能力而主要用作过去大型语言模型（LLMs）的骨干，它充分利用了 GPU 的强大功能。LLaMA 建立在 Transformer 架构之上，将 LayerNorm （替换为 RMSNorm并将激活函数设置为 SwiGLU ，从而提高了训练效率和性能。

其中的矩阵算法决定了上下文的长度

预训练

对网上不同的数据进行预处理

文本数据
- 基于规则的过滤，
- 重复数据删除，MinHash方法，在5G的文档上建立了具有128个哈希函数的签名，并使用0.7作为重复数据删除的阈值。
- 安全过滤，结合了“域屏蔽”、“单词屏蔽”、“色情分类器”和“毒性分类器”来过滤数据。
- 质量过滤，通过组织手工数据标注，从四个维度对数据进行评分：一致性、噪声、信息内容和语法，从而得出全面的流利度分数。然后，我们使用手动注释的数据对BERT模型进行了微调，获得了广告分类器和流畅度分类器。最后，我们使用这两个分类器对数据进行二次过滤，过滤掉分数低于阈值的数据，从而产生高质量的预训练数据。
代码
长上下文数据

校准

通常包含两个阶段：监督微调（SFT）和来自人类反馈的强化学习（RLHF）。在SFT期间，我们通过高质量的指令数据对模型进行微调，以遵循不同的人类指令（Sec.1）。然后，我们提出了 COnditionalOnLine RLHF，它应用了一种新颖的条件奖励模型，可以调和不同类型的人类偏好（例如，多步骤推理准确性、有用性、无害性），并进行三轮在线 RLHF 以减少奖励黑客攻击。在对齐阶段，LLMs我们通过在 SFT 和 RLHF 4.3 期间利用长上下文预训练数据来保持长上下文功能。

🪴 小胖的数字花园

探索

大模型原理

大模型原理

基础设施

预训练

校准

参考文章

关系图谱

目录

反向链接