模型量化 - ayyHA's blog

本文最后更新于：7 个月前

LLM.int8(论文没读)

fp16->int8,需要用scale放缩到对应的值域范围

最大绝对值量化

本种量化方式scale为127除以张量的最大绝对值^[1]

$X_{i8} = s_{x_{f16}} * X_{f16}$

$s_{x_{f16}} = \frac{127}{\max({X_{f16}^{ij}})}$

零点量化

参考文章

↩

inference large model

本博客所有文章除特别声明外，均采用 CC BY-SA 4.0 协议，转载请注明出处！

GEMM-intrinsic优化上一篇

leetcode-learning 下一篇

目录