Created by: NHZlX
该实现加载paddleslim 训练的int8量化模型。
在预测优化阶段,会通过quant_conv2d_dequant
pass将 fake_quant, fake_dequant 删除,并将input,weight scale 作为attr加入到quant op中。
预测阶段,如果发现该op 被标记为int8,先进行quant将输入量化到int8类型,接着进行int8矩阵运算,输出fp32输出。
Created by: NHZlX
该实现加载paddleslim 训练的int8量化模型。
在预测优化阶段,会通过quant_conv2d_dequant
pass将 fake_quant, fake_dequant 删除,并将input,weight scale 作为attr加入到quant op中。
预测阶段,如果发现该op 被标记为int8,先进行quant将输入量化到int8类型,接着进行int8矩阵运算,输出fp32输出。