本地化模型

可以选择使用ollama,能运行大部分开源模型。

LLM 的参数量和计算量都要大非常多,以 10B 参数为例,一共有 10^10 个参数,如果都用半精度(FP16/BF16)存储,大小为 10^10×16/8 bytes = 20 GB。

所以一般的机子只能装 7b 左右的大模型

目前对于大多数模型,如果想保有近似原始模型性能,Q4 几乎是一个极限选择。我们可以通过一个懒人公式,参数量 (B)/2=内存(GB)来估算。但是实际上推理还需要存 KV Cache、激活等缓存变量,尤其是处理长文档的时候。比如对于 Llama2-7B9,每个 token 需要的 KV Cache 大约为 0.00052 GB(半精度),也就是输入输出在 2000 的时候就需要额外 1 GB 内存。

参考文章