您的当前位置：首页大模型微调训练：从理论到实践

大模型微调训练：从理论到实践

来源：刀刀网

1. 引言

今天我们来深入探讨一下大模型微调这个话题。你可能听说过，微调大模型就是点点鼠标，下一步下一步就行了，对吧？但是，如果在实际项目中真的要你去微调一个大模型，那可就不是这么简单了。

想象一下，你接到了一个任务，需要用大模型来解决问题。这时候，你脑子里可能会冒出很多问题：现有的大模型能直接用吗？如果不行，需要什么规模的模型来训练？需要多少显卡和数据？你可能会想，"越多越好"呗。但是，这么回答可不够专业。

接下来，我们就一步步来看看，如何科学地回答这些问题。

2. 基础概念

在我们深入讨论之前，先来了解一些基本概念：

理解这两个概念的区别很重要，因为它们将贯穿我们接下来的讨论。

3. 大模型理论最小计算量

当我们开始规划大模型训练时，首先需要估算理论最小计算量。这个计算量可以通过下面的公式来估算：

FLOPs = 6 * 模型的参数量 * 训练数据的token数

你可能会问，为什么是6呢？这个6代表了每个token在模型正向传播和反向传播时需要的基本运算次数。具体来说：

正向传播：每个参数大约需要2次浮点运算（一次乘法，一次加法）
反向传播：计算梯度时，每个参数也需要约2次浮点运算
参数更新：更新每个参数又需要约2次浮点运算

所以，2 + 2 + 2 = 6。

举个例子，假设我们有一个10亿参数的模型，要用100亿token的数据来训练，那么理论最小计算量就是：

6 * 10^9 * 10^10 = 6 * 10^19 FLOPs

这个数字看起来很大，对吧？但别担心，我们接下来会讨论如何将这个理论计算量转化为实际的训练时间估计。

4. 训练内存需求分析

了解了计算量，我们还需要考虑内存需求。在训练大模型时，内存主要用于以下几个方面：

模型参数（float32）：每个参数需要4字节的存储空间。所以，模型参数所需内存 = 模型参数量（B） * 4GB
反向梯度（float32）：反向传播时，我们需要为每个参数存储其梯度。这部分内存需求等同于参数量。反向梯度所需内存 = 模型参数量（B） * 4GB
优化器参数：如果我们使用Adam优化器（这是很常见的选择），每个参数还需要额外的内存。为什么呢？因为Adam需要使用32位浮点数来进行精确计算，否则使用16位浮点数可能导致误差累积，模型难以收敂。

具体来说，每个参数需要：

所以，Adam优化器所需内存 = 模型参数量（B） * 12GB

如果使用像SGD这样的简单优化器，可以省掉variance的存储，只需要8字节。

4字节的32位版本（正向传播用16位，优化时用32位，这叫做mixed-precision）
4字节的momentum
4字节的variance

正向传播状态：在极限情况下，我们可以选择每次都重新计算中间状态，而不是存储它们。这种方法叫做激活重计算（activation recomputation）。虽然会增加计算量，但可以大大减少内存使用。

不过，需要注意的是，正向传播的中间状态（activation）数量与batch size成正比。batch size越大，每次读取模型参数能做的计算就越多，这样对GPU内存带宽的压力就越小。但是，正向传播的中间状态数量也会相应增加，可能使GPU内存容量成为瓶颈。

假设我们有一个10亿参数的模型，使用Adam优化器，那么最小训练内存需求大约是：

(4GB + 4GB + 12GB) * 10 = 200GB

这就是为什么训练大模型通常需要多卡甚至多机并行的原因。

5. 大模型训练耗时估计

知道了理论计算量，我们就可以估算训练时间了。但是，实际训练时间不仅取决于理论计算量，还与硬件性能和利用率有关。让我们来看看如何进行粗略的估计：

首先，我们需要考虑激活重计算技术。使用这种技术，对于每个token，每个模型参数，我们需要进行：

1次前向传递
2次后向传递
1次额外的前向传递（用于重计算）

所以，总共是1 + 2 + 1 = 4次基本操作，每次操作包含2次浮点运算。因此，最终的计算量是：

实际FLOPs = 8 * tokens数 * 模型参数量

有了这个，我们就可以估算训练时间了：

训练时间 = (8 * tokens数 * 模型参数量) / (GPU数量 * 每个GPU的峰值FLOPS * GPU利用率)

这里的GPU利用率是个关键因素。一般来说，GPU利用率在0.3到0.55之间。为什么不能达到100%呢？因为在实际训练中，我们还需要考虑：

CPU加载数据的时间
优化器更新参数的时间
多卡之间的通信时间
记录日志的时间

所有这些因素都会降低GPU的有效利用率。

6. 常见显卡算力峰值

说到GPU，我们来看看一些常见显卡的算力峰值（以FP16精度为例）：

NVIDIA A100 80GB PCIe：312 TFLOPS
NVIDIA A10 24GB PCIe：125 TFLOPS
NVIDIA A800 80GB PCIe：312 TFLOPS

知道这些数据后，我们就可以更准确地估算训练时间了。比如，假设我们用8张A100卡来训练，GPU利用率为0.5，那么有效算力就是：

8 * 312 * 0.5 = 1248 TFLOPS

7. 训练模型参数量与训练数据量的关系

在规划训练时，我们还需要考虑模型参数量和训练数据量之间的关系。根据研究，我们有以下发现：

OpenAI在2020年的研究"Scaling Laws for Neural Language Models"给出了一些初步的结论。
更进一步，DeepMind在2022年的研究"Training Compute-Optimal Large Language Models"提出了一个简略版的结论：每个参数大约需要20个文本token。

这个结论非常有用。比如，如果你有一个10亿参数的模型，那么理想的训练数据量应该在200亿token左右。

需要注意的是，这个比例并不是固定不变的。随着模型规模的增大，这个比例可能会有所变化。但作为一个初步估计，这个"1:20"的比例是一个很好的起点。

8. epoch的设置

在传统的机器学习中，我们常常会进行多轮（多个epoch）的训练，以便模型能够充分学习数据中的模式。但在大语言模型（LLM）的训练中，情况有些不同。

首先，让我们回顾一下epoch的定义：一个epoch指的是模型训练过程中完成一次全体训练样本的全部训练迭代。

在LLM时代，很多模型的epoch只有1次或几次。为什么会这样呢？让我们来看看一些研究发现：

数据重复对模型性能的影响：根据研究"To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis"，多轮epoch的训练实际上会降低模型性能。
数据量和模型规模的关系：模型参数规模的增长与模型需要的tokens数量基本上是呈线性关系的。这意味着，随着模型变大，我们需要更多的不重复数据。
数据质量的影响：即使提高数据集的质量，也无法完全挽救重复训练带来的过拟合问题。
模型规模的影响：有趣的是，无论是小规模还是大规模模型，在重复训练时都表现出类似的过拟合趋势。
正则化技术的作用：Dropout是一个在大语言模型训练中常被忽视的正则化技术。虽然它可能会降低训练速度，但能有效减少多epoch训练的负面影响。一个有效的策略是在训练过程中逐渐增加dropout率。

在大模型训练中，我们倾向于使用更大的数据集和更少的epoch，而不是在同一数据集上反复训练。这不仅能提高模型性能，还能节省计算资源。

9. token和存储之间的关系

在规划训练数据时，了解token和实际存储空间之间的关系很重要。这里有一些粗略的估算：

对于中文文本：

1个token大约对应1.4-1.7个汉字
一个汉字在UTF-8编码下占用2个字节
因此，1B（10亿）token大约对应3GB的中文文本存储空间

对于英文文本：

1个token大约对应3-4个字符
假设每个字符占用1个字节（ASCII编码）
那么，1B token大约对应3-4GB的英文文本存储空间

这些估算可以帮助你在准备训练数据时，大致判断需要多少存储空间。不过，请记住，这只是粗略估计，实际情况可能会有所不同，尤其是在处理混合语言或特殊格式的文本时。

10. 结语

好了，我们已经深入讨论了大模型微调训练的方方面面，从理论计算量到实际训练时间的估算，从内存需求到数据量的选择。记住，在实际项目中，这些因素都需要综合考虑。

比如，当你知道了数据量和目标模型的参数量，你就可以估算出：

所需的理论计算量
训练所需的最小内存
在给定硬件条件下的预计训练时间
所需的存储空间

有了这些信息，你就可以更好地规划资源，也能更专业地向项目负责人或老板解释为什么需要这些资源。

记住，大模型训练是一个复杂的过程，需要不断实践和调整。希望这篇文章能给你一个好的起点，帮助你在大模型微调的道路上走得更远。如果还有什么不明白的，或者想深入讨论某个话题，随时告诉我哦！

那么，如何系统的去学习大模型LLM？

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

作为一名热心肠的互联网老兵，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。

但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

所有资料 ⚡️ ，朋友们如果有需要全套《AI大模型入门+进阶学习资源包**》，扫码获取~

篇幅有限，部分资料如下：

👉LLM大模型学习指南+路线汇总👈

💥大模型入门要点，扫盲必看！

路线图很大就不一一展示了 （文末领取）

👉大模型入门实战训练👈

💥光学理论是没用的，要学会跟着一起做，要动手实操，才能将自己的所用到实际当中去，这时候可以搞点实战案例来学习。

👉国内企业大模型落地应用案例👈

💥两本《中国大模型落地应用案例集》 收录了近两年151个优秀的大模型落地应用案例，这些案例覆盖了金融、医疗、教育、交通、制造等众多领域，无论是对于大模型技术的研究者，还是对于希望了解大模型技术在实际业务中如何应用的业内人士，都具有很高的参考价值。 （文末领取）

👉GitHub海量高星开源项目👈

👉LLM大模型学习视频👈

💥观看零基础学习书籍和视频，看书籍和视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。 （文末领取）

👉0份大模型行业报告（持续更新）👈

💥包含0份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。

👉获取方式：

这份完整版的大模型 LLM 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

😝有需要的小伙伴，可以Vx扫描下方二维码免费领取🆓

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文