English | 简体中文
Paddle Lite是一个高性能、轻量级、灵活性强且易于扩展的深度学习推理框架,定位支持包括移动端、嵌入式以及服务器端在内的多硬件平台。
当前Paddle Lite不仅在百度内部业务中得到全面应用,也成功支持了众多外部用户和企业的生产任务。
使用Paddle Lite,只需几个简单的步骤,就可以把模型部署到多种终端设备中,运行高性能的推理任务,使用流程如下所示:
一. 准备模型
Paddle Lite框架直接支持模型结构为PaddlePaddle深度学习框架产出的模型格式。目前PaddlePaddle用于推理的模型是通过save_inference_model这个API保存下来的。 如果您手中的模型是由诸如Caffe、Tensorflow、PyTorch等框架产出的,那么您可以使用 X2Paddle 工具将模型转换为PadddlePaddle格式。
二. 模型优化
Paddle Lite框架拥有优秀的加速、优化策略及实现,包含量化、子图融合、Kernel优选等优化手段。优化后的模型更轻量级,耗费资源更少,并且执行速度也更快。 这些优化通过Paddle Lite提供的opt工具实现。opt工具还可以统计并打印出模型中的算子信息,并判断不同硬件平台下Paddle Lite的支持情况。您获取PaddlePaddle格式的模型之后,一般需要通该opt工具做模型优化。opt工具的下载和使用,请参考 模型优化方法。
三. 下载或编译
Paddle Lite提供了Android/iOS/X86平台的官方Release预测库下载,我们优先推荐您直接下载 Paddle Lite预编译库。
您也可以根据目标平台选择对应的源码编译方法。Paddle Lite 提供了源码编译脚本,位于 lite/tools/
文件夹下,只需要 准备环境 和 调用编译脚本 两个步骤即可一键编译得到目标平台的Paddle Lite预测库。
四. 预测示例
Paddle Lite提供了C++、Java、Python三种API,并且提供了相应API的完整使用示例:
您可以参考示例中的说明快速了解使用方法,并集成到您自己的项目中去。
针对不同的硬件平台,Paddle Lite提供了各个平台的完整示例:
System | X86 Linux | ARM Linux | Android (GCC/Clang) | iOS |
---|---|---|---|---|
CPU(32bit) | ||||
CPU(64bit) | ||||
OpenCL | - | - | - | |
FPGA | - | - | - | |
华为NPU | - | - | - | |
百度 XPU | - | - | ||
RK NPU | - | - | - | |
MTK APU | - | - | - |
Paddle Lite 的架构设计着重考虑了对多硬件和平台的支持,并且强化了多个硬件在一个模型中混合执行的能力,多个层面的性能优化处理,以及对端侧应用的轻量化设计。
其中,Analysis Phase 包括了 MIR(Machine IR) 相关模块,能够对原有的模型的计算图针对具体的硬件列表进行算子融合、计算裁剪 在内的多种优化。Execution Phase 只涉及到Kernel 的执行,且可以单独部署,以支持极致的轻量级部署。
如果您想要进一步了解Paddle Lite,下面是进一步学习和使用Paddle-Lite的相关内容:
微信公众号 官方技术交流QQ群
Paddle-Lite由Apache-2.0 license提供