用户
 找回密码
 立即注册
发表于 2021-4-26 11:34:33
18780
问:请教大家个问题,在做INT8量化的时候,假如某些层不支持int8,那是整个网络fallback到FP32,不进入量化环节,然后生成一个FP32的engine,还是某些层fallback到FP32?
答复:calibration cache只是一个fp32结果的统计值得到的,也就是即使层不支持int8,量化的时候还是会生成这一层calibration cache。精度设置实际上是一个精度的上限,设置为int8,会去测试int8,fp16,fp32及前后相关操作(比如量化)等,确定最快的一个tactic。
使用道具 举报 回复
发新帖
您需要登录后才可以回帖 登录 | 立即注册