v2.3.0 · 标签 · PaddlePaddle / Paddle-Lite

v2.3.0

基础功能

model_optimize_tool 升级为 opt ：模型转化方法
- 支持输出模型算子、Lite所有算子、可以判断模型是否支持提示信息(#2624，opt统计算子方法)；
- model_optimize_tool 工具更名为 opt#2850 （ opt 取自 llvm/opt ），未来会将更多静态模型的分析、优化功能加入到这个工具中。
Paddle-Lite Naive Buffer 模型优化支持输出为单个文件：#2800
- 为了简化移动端模型部署，将原有 Naive Buffer 格式需要的两个文件合并为一个文件；
- 原有的两个文件的模型格式依旧支持，但会在未来 v3.0 废弃；
- 修改 model_optimize_tool (现 opt) 转化出的模型格式为单个文件（由_model变为单个文件modelname.nb）；
- 对应 Naive Buffer 合并后的模型格式，新增加载新格式模型的接口
  - C++接口:
    - MobileConfig::set_model_from_file(model_file)
    - MobileConfig::set_model_from_buffer(model_buffer)
  - Python接口：
    - set_model_from_file(model_file)
    - set_model_from_buffer(model_buffer)
  - Java接口：
    - setModelFromFile(model_file)
    - setModelFromBuffer(model_buffer)
  - 原有加载接口依旧支持，但会在未来 v3.0 废弃
PaddleLite支持“无校准数据的训练后量化方法”产出的量化模型，模型大小减小2~4倍，详细数据见#2719，使用方法见文档。
Arm
1. 新增对multiclass_nms2 op的支持，支持return_index参数#2917
2. 新增5x5 stride = 2 fp32 depthwise conv的kernel实现 #2770
3. 新增5x5 stride = 2 int8 depthwise conv的kernel实现 #2813
4. 重构5x5 stride = 1 fp32 depthwise conv的kernel实现，支持任意padding #2917
5. fp32 conv支持 relu6, leakey relu 融合 #2797 #2781 #2674
6. 新增fc + relu 融合 #2765
X86新增 leaky_relu kernel。#2819
FPGA新增 onehot、yolobox op, 新增支持yolo、ocr模型支持
XPU新增
1. tanh、stack、gather、lookup_table、slice、layer_norm、gelu、dropout、matmul、cast的bridge。
2. 新增BERT模型的支持。
3. 迁移op bridge单测。 (#2640、#2646、#2650、#2653、#2665、#2666、#2668、#2676、#2686、#2700、#2706、#2711、#2714、#2735、#2738、#2817、#2857)
NPU新增
1. dropout、fusion_elementwise_sub_activation、fusion_elementwise_mul_activation、fusion_elementwise_div_activation、matm、unsqueeze、unsqueeze2、instance_norm、layer_norm 的 op bridge。
2. 新增Cycle-GAN模型的支持(需要华为内部Rom的支持)。
3. 迁移op bridge单测。 (#2745、#2747、#2753、#276、#2764、#2767、#2773、#2784、#2790、#2798、#2847、#2849、#2857、#29)
新增OpenCL Image2D Kernel，包含30个Image2D Kernel，涵盖14个OP。包括不限于 nearset_interp、reshape2、concat、sigmoid/relu6/relu、elementwise_add/mul、conv2d/depthwise_conv2d、pool2d。（#2837、#2806、#2771、#2788、#2815、#2802、#2853、#2861、#2844、#2838、#2837、#2818）
ArmLinux编译新增对飞腾CPU的支持 (FT2000PLUS测试通过) #2571

性能

提高Naive模型加载速度: 减少内存拷贝过程，提高模型加载速度 #2726，#2736 性能数据：模型加载过程耗时缩短为v2.2.0的1/4 。(transformer模型单次加载时间从1.2s降低为0.3s)
提升由tensorflow模型转为paddle模型在arm cpu上的性能表现
提升含conv + relu6或conv + leakey relu op的模型在arm cpu上的性能表现
提升含5x5 stride = 2 depthwise conv op的量化模型在arm cpu上的性能表现（rk3288上模型耗时由143ms->68ms，注：模型为内部使用模型）