模型量化 本文最后更新于:5 个月前 LLM.int8(论文没读) fp16->int8,需要用scale放缩到对应的值域范围 最大绝对值量化 本种量化方式scale为127除以张量的最大绝对值[1] Xi8=sxf16∗Xf16X_{i8} = s_{x_{f16}} * X_{f16} Xi8=sxf16∗Xf16 sxf16=127max(Xf16ij)s_{x_{f16}} = \frac{127}{\max({X_{f16}^{ij}})} sxf16=max(Xf16ij)127 零点量化 参考文章 ↩ inference large model 本博客所有文章除特别声明外,均采用 CC BY-SA 4.0 协议 ,转载请注明出处! GEMM-intrinsic优化 上一篇 leetcode-learning 下一篇 Please enable JavaScript to view the comments