v2.3.0

基础功能

  • model_optimize_tool 升级为 opt模型转化方法

    • 支持输出模型算子、Lite所有算子、可以判断模型是否支持提示信息(#2624opt统计算子方法);
    • model_optimize_tool 工具更名为 opt#2850opt 取自 llvm/opt ),未来会将更多静态模型的分析、优化功能加入到这个工具中。
  • Paddle-Lite Naive Buffer 模型优化支持输出为单个文件:#2800

  • PaddleLite支持“无校准数据的训练后量化方法”产出的量化模型,模型大小减小2~4倍,详细数据见#2719,使用方法见文档

  • Arm

    1. 新增对multiclass_nms2 op的支持,支持return_index参数#2917
    2. 新增5x5 stride = 2 fp32 depthwise conv的kernel实现 #2770
    3. 新增5x5 stride = 2 int8 depthwise conv的kernel实现 #2813
    4. 重构5x5 stride = 1 fp32 depthwise conv的kernel实现,支持任意padding #2917
    5. fp32 conv支持 relu6, leakey relu 融合 #2797 #2781 #2674
    6. 新增fc + relu 融合 #2765
  • X86新增 leaky_relu kernel。#2819

  • FPGA新增 onehot、yolobox op, 新增支持yolo、ocr模型支持

  • XPU新增

    1. tanh、stack、gather、lookup_table、slice、layer_norm、gelu、dropout、matmul、cast的bridge。
    2. 新增BERT模型的支持。
    3. 迁移op bridge单测。 (#2640、#2646、#2650、#2653、#2665、#2666、#2668、#2676、#2686、#2700、#2706、#2711、#2714、#2735、#2738、#2817、#2857)
  • NPU新增

    1. dropout、fusion_elementwise_sub_activation、fusion_elementwise_mul_activation、fusion_elementwise_div_activation、matm、unsqueeze、unsqueeze2、instance_norm、layer_norm 的 op bridge。
    2. 新增Cycle-GAN模型的支持(需要华为内部Rom的支持)。
    3. 迁移op bridge单测。 (#2745、#2747、#2753、#276、#2764、#2767、#2773、#2784、#2790、#2798、#2847、#2849、#2857、#29)
  • 新增OpenCL Image2D Kernel,包含30个Image2D Kernel,涵盖14个OP。 包括不限于 nearset_interp、reshape2、concat、sigmoid/relu6/relu、elementwise_add/mul、conv2d/depthwise_conv2d、pool2d。 (#2837、#2806、#2771、#2788、#2815、#2802、#2853、#2861、#2844、#2838、#2837、#2818)

  • ArmLinux编译新增对飞腾CPU的支持 (FT2000PLUS测试通过) #2571

性能

  • 提高Naive模型加载速度: 减少内存拷贝过程,提高模型加载速度 #2726#2736 性能数据: 模型加载过程耗时缩短为v2.2.0的1/4 。(transformer模型单次加载时间从1.2s降低为0.3s)

  • 提升由tensorflow模型转为paddle模型在arm cpu上的性能表现

  • 提升含conv + relu6或conv + leakey relu op的模型在arm cpu上的性能表现

  • 提升含5x5 stride = 2 depthwise conv op的量化模型在arm cpu上的性能表现 (rk3288上模型耗时由143ms->68ms,注:模型为内部使用模型)

文档

  • 发布全新的文档官网 https://paddle-lite.readthedocs.io/zh/release-v2.3/
  • 迁移文档到新的官网 。(#2820、#2840、#2923 、#2932、#2934、#2936 )
  • 新增“有校准数据的训练后量化方法”和“无校准数据的训练后量化方法”使用文档。#2960

Demo

  • Cxx Demo新增口罩检测Demo #2682
  • Cxx Demo新增CV预处理库Demo #2691
  • Cxx Demo新增YOLOv3目标检测Demo #2713

bug fix

  1. conv_tranpose支持output_size参数,与paddle fluid对齐。#2749
  2. ch_norm 支持bool格式的参数ist 2846
  3. 修复Mac环境下的cxx_demo不可以编译的问题#2792
  4. 修复部分op set lod_tensor bug #2732 #2750

项目简介

Multi-platform high performance deep learning inference engine (『飞桨』多平台高性能深度学习预测引擎)

发行版本 20

v2.7-beta

全部发行版

贡献者 87

全部贡献者

开发语言

  • C++ 82.3 %
  • Swift 4.1 %
  • CMake 3.0 %
  • Metal 2.6 %
  • C 2.3 %