alibaba
diff --git a/‎CMakeLists.txt‎
Lines changed: 34 additions & 23 deletions b/‎CMakeLists.txt‎
Lines changed: 34 additions & 23 deletions
diff --git a/‎backupcode/cpubackend/compute/DeconvolutionWithStride.cpp‎
Lines changed: 3 additions & 3 deletions b/‎backupcode/cpubackend/compute/DeconvolutionWithStride.cpp‎
Lines changed: 3 additions & 3 deletions
diff --git a/‎demo/exec/pictureRecognition_module.cpp‎
Lines changed: 2 additions & 2 deletions b/‎demo/exec/pictureRecognition_module.cpp‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎docs/compile/cmake.md‎
Lines changed: 1 addition & 0 deletions b/‎docs/compile/cmake.md‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎docs/compile/other.md‎
Lines changed: 2 additions & 0 deletions b/‎docs/compile/other.md‎
Lines changed: 2 additions & 0 deletions
diff --git a/‎docs/inference/npu.md‎
Lines changed: 108 additions & 42 deletions b/‎docs/inference/npu.md‎
Lines changed: 108 additions & 42 deletions
@@ -82,15 +82,15 @@ option(MNN_BUILD_AUDIO "Build audio api in MNN." OFF)
 option(MNN_SME2 "Use Arm sme2 instructions" ON)
 
 if (MNN_BUILD_MINI)
-    set(MNN_SKIPBUILD_GEOMETRY ON)
-    set(MNN_REDUCE_SIZE ON)
+    set(MNN_SKIPBUILD_GEOMETRY ON CACHE BOOL "<docstring>" FORCE)
+    set(MNN_REDUCE_SIZE ON CACHE BOOL "<docstring>" FORCE)
 endif()
 
 if (MNN_REDUCE_SIZE)
-    set(MNN_SUPPORT_DEPRECATED_OP OFF)
-    set(MNN_SUPPORT_DEPRECATED_OPV2 OFF)
-    set(MNN_SUPPORT_QUANT_EXTEND OFF)
-    set(MNN_USE_SPARSE_COMPUTE OFF)
+    set(MNN_SUPPORT_DEPRECATED_OP OFF CACHE BOOL "<docstring>" FORCE)
+    set(MNN_SUPPORT_DEPRECATED_OPV2 OFF CACHE BOOL "<docstring>" FORCE)
+    set(MNN_SUPPORT_QUANT_EXTEND OFF CACHE BOOL "<docstring>" FORCE)
+    set(MNN_USE_SPARSE_COMPUTE OFF CACHE BOOL "<docstring>" FORCE)
 endif()
 
 IF (OHOS AND MNN_INTERNAL)
@@ -106,18 +106,19 @@ IF (NOT DEFINED MNN_USE_SPARSE_COMPUTE)
 ENDIF()
 
 IF (MNN_BUILD_LLM)
-    set(MNN_LOW_MEMORY ON)
-    set(MNN_SUPPORT_TRANSFORMER_FUSE ON)
+    set(MNN_LOW_MEMORY ON CACHE BOOL "<docstring>" FORCE)
+    set(MNN_SUPPORT_TRANSFORMER_FUSE ON CACHE BOOL "<docstring>" FORCE)
     IF (MNN_BUILD_LLM_OMNI)
-        set(MNN_BUILD_OPENCV ON)
-        set(MNN_BUILD_AUDIO ON)
+        set(MNN_BUILD_OPENCV ON CACHE BOOL "<docstring>" FORCE)
+        set(MNN_BUILD_AUDIO ON CACHE BOOL "<docstring>" FORCE)
+        set(MNN_IMGCODECS ON CACHE BOOL "<docstring>" FORCE)
     ENDIF()
 ENDIF()
 
 IF (MNN_BUILD_DIFFUSION)
-    set(MNN_LOW_MEMORY ON)
-    set(MNN_SUPPORT_TRANSFORMER_FUSE ON)
-    set(MNN_BUILD_OPENCV ON)
+    set(MNN_LOW_MEMORY ON CACHE BOOL "<docstring>" FORCE)
+    set(MNN_SUPPORT_TRANSFORMER_FUSE ON CACHE BOOL "<docstring>" FORCE)
+    set(MNN_BUILD_OPENCV ON CACHE BOOL "<docstring>" FORCE)
 ENDIF()
 
 IF(NOT MNN_BUILD_SHARED_LIBS AND MNN_SEP_BUILD)
@@ -656,6 +657,15 @@ IF(MNN_QNN)
     list(APPEND MNN_OBJECTS_TO_LINK $<TARGET_OBJECTS:MNN_QNN>)
 ENDIF()
 
+# NEUROPILOT
+IF(MNN_NEUROPILOT)
+    target_compile_options(MNNCore PRIVATE -DMNN_NEUROPILOT=1)
+    add_subdirectory(${CMAKE_CURRENT_LIST_DIR}/source/backend/neuropilot)
+    list(APPEND MNN_OBJECTS_TO_LINK $<TARGET_OBJECTS:MNN_NEUROPILOT>)
+ENDIF()
+
+# Vulkan
+
 # Vulkan
 IF(MNN_VULKAN)
   add_subdirectory(${CMAKE_CURRENT_LIST_DIR}/source/backend/vulkan/)
@@ -807,6 +817,16 @@ ELSE()
 ENDIF()
 ENDIF()
 
+add_subdirectory(${CMAKE_CURRENT_LIST_DIR}/tools/audio)
+IF(MNN_BUILD_AUDIO)
+  IF(MNN_SEP_BUILD)
+    list(APPEND MNN_DEPS MNNAudio)
+  ELSE()
+    list(APPEND MNN_TARGETS MNNAudio)
+    list(APPEND MNN_OBJECTS_TO_LINK $<TARGET_OBJECTS:MNNAudio>)
+  ENDIF()
+ENDIF()
+
 IF(MNN_BUILD_LLM)
     include(${CMAKE_CURRENT_LIST_DIR}/transformers/llm/engine/CMakeLists.txt)
     IF(NOT MNN_SEP_BUILD)
@@ -887,21 +907,12 @@ IF(WIN32 AND MNN_BUILD_CONVERTER AND MNN_BUILD_SHARED_LIBS)
 ENDIF()
 # Merge MNN/MNNExpress/MNNOpenCV and other backends into one .lib/.dll on Windows
 
-add_subdirectory(${CMAKE_CURRENT_LIST_DIR}/tools/audio)
-IF(MNN_BUILD_AUDIO AND NOT MNN_SEP_BUILD)
-  IF(MSVC)
-    target_compile_definitions(MNNAudio PRIVATE "-DBUILDING_MNN_DLL" INTERFACE "-DUSING_MNN_DLL")
-  ENDIF()
-  target_sources(MNN PRIVATE $<TARGET_OBJECTS:MNNAudio>)
-ENDIF()
-
-
 if(CMAKE_SYSTEM_NAME MATCHES "^Linux")
 # Using -pthread, needed by thread-safe implemention of glibc, is better than only using -lpthread
 # https://stackoverflow.com/questions/23250863/difference-between-pthread-and-lpthread-while-compiling
   target_link_libraries(MNN PUBLIC -pthread dl)
 elseif(CMAKE_SYSTEM_NAME MATCHES "^Android")
-  target_link_libraries(MNN PUBLIC log m)
+  target_link_libraries(MNN PUBLIC log m android)
 else()
 endif()
 if (NOT MNN_BUILD_SHARED_LIBS)
 
@@ -70,7 +70,7 @@ static void _winograd(const DeconvolutionWithStride::ComputeUnit& unit, int thre
     el[2] = 0;
     el[3] = 0;
     size_t parameters[6];
-    parameters[0] = eP * sizeof(float);
+    parameters[0] = eP * lP * sizeof(float);
     parameters[1] = ROUND_UP(ic, lP);
     parameters[2] = oc;
     parameters[3] = eP * 4 * sizeof(float);
@@ -129,7 +129,7 @@ static void _gemmAndIm2col(const DeconvolutionWithStride::ComputeUnit& unit, int
     el[2] = 0;
     el[3] = 0;
     size_t parameters[6];
-    parameters[0] = eP * sizeof(float);
+    parameters[0] = eP * lP * sizeof(float);
     parameters[1] = ROUND_UP(ic, lP);
     parameters[2] = oc;
     parameters[3] = eP * 4 * sizeof(float);
@@ -272,7 +272,7 @@ void DeconvolutionWithStride::_extract(const Op* convOp) {
     std::shared_ptr<ConvolutionCommon::Int8Common> quanCommon;
     ConvolutionCommon::getConvParameters(&quanCommon, backend(), convOp, &tempWeight, &tempWeightSize);
     srcCount = tempWeightSize / kx / ky / outputCount;
-    
+
     std::shared_ptr<Tensor> weightWrap(
         Tensor::create<float>(std::vector<int>{srcCount, outputCount, ky * kx}, (void*)tempWeight));
 
 
@@ -217,7 +217,7 @@ int main(int argc, const char* argv[]) {
 
     // Create Input
     int batchSize = argc - 3;
-    auto input = MNN::Express::_Input({batchSize, 3, width, height}, MNN::Express::NC4HW4);
+    auto input = MNN::Express::_Input({batchSize, 3, height, width}, MNN::Express::NC4HW4);
     for (int batch = 0; batch < batchSize; ++batch) {
         int size_w   = width;
         int size_h   = height;
@@ -257,4 +257,4 @@ int main(int argc, const char* argv[]) {
     rtmgr->updateCache();
 
     return 0;
-}
+}
@@ -59,6 +59,7 @@ MNN使用CMake构建项目，CMake中的宏定义列表如下：
 | MNN_QNN              | 是否构建`QNN`后端，默认为`OFF` |
 | MNN_QNN_ONLINE_FINALIZE | 在`MNN_QNN`开启的基础上,是否构建在线编译模式的QNN后端，默认为`ON` |
 | MNN_QNN_CONVERT_MODE | 在`MNN_QNN`开启的基础上,是否构建Convert模式的QNN后端，默认为`OFF` |
+| MNN_NEUROPILOT            | 是否构建MLA的`NPU`离线转换后端或执行插件，默认为`OFF`  |
 | MNN_NPU            | 是否构建HIAI的`NPU`后端，默认为`OFF`  |
 | MNN_USE_SPARSE_COMPUTE | 是否使用稀疏计算，默认为`ON` |
 | MNN_BUILD_BENCHMARK  | 是否构建MNN的性能测试，默认为`OFF` |
 
@@ -63,6 +63,7 @@
   - `llm_demo` 大语言模型推理示例程序
   - `diffusion_demo` 扩散模型示例程序
   - `llm_bench` 大语言模型测评工具
+  - `quantize_llm` 大语言模型feature map量化工具
 ## 测试工具
 - 相关编译选项
   - `MNN_BUILD_TOOLS` 是否编译测试工具
@@ -93,6 +94,7 @@
   - `fuseTest` 测试 GPU 自定义算子的功能，目前仅支持 Vulkan Buffer 模式
   - `GpuInterTest.out` 测试 GPU 内存输入的功能，目前仅支持 OpenCL Buffer 模式与 OpenGL texture 模式，编译时需打开 MNN_OPENCL 与 MNN_OPENGL
   - `LoRA` 将LorA权重添加到模型权重中
+  - `compilefornpu` 将Npu要运行的部分转换为Plugin算子
 ## Benchmark工具
 - 相关编译选项
   - `MNN_BUILD_BENCHMARK` 是否编译Benchmark工具
 
@@ -6,63 +6,129 @@
 - NNAPI
 - HIAI
 
-目前NPU相关后端均不支持可变形状、控制流等动态模型，算子数相比CPU/GPU支持要少，建议根据NPU是否能跑通，反复调整模型结构。
+## QNN
 
-同时，由于QNN、CoreML与NNAPI在MNN中共用同一个Backend Type，这三个后端对应的编译宏MNN_QNN、MNN_COREML、MNN_NNAPI在编译时，至多只能打开一个。
+### QNN后端整体介绍
 
-## QNN
-适用于使用高通芯片且配备高通Hexagon张量处理器（Hexagon Tensor Processor，HTP）的机型，可参考[高通官网的设备支持列表](https://docs.qualcomm.com/bundle/publicresource/topics/80-63442-50/overview.html#supported-snapdragon-devices)。
+- MNN通过调用QNN SDK的CPP API构建了MNN-QNN后端，以期在能够使用高通NPU的设备上取得推理加速。
+- 我们支持了两种运行模式：
+  - 在线构图模式，在线编译和序列化QNN计算图。
+    - 支持静态形状的常规模型的推理。
+  - 离线构图模式则先借助MNN的离线工具缓存QNN计算图的序列化产物，接着在运行时直接读取产物，可以节省初始化时间。
+    - 支持静态形状/有限形状组合的常规模型的推理。
+    - 可支持部分llm模型的推理加速。
+
+### 准备工作
+
+#### 开发环境
+- Host
+  - 在线构图模式：无要求。
+  - 离线构图模式：一台x86_64，Linux的机器（链路中的部分QNN工具必须在此环境中运行）。
+- Device
+  - 一台可以使用高通NPU的设备；为便于陈述，下文假设这是一台Android系统的设备。
+
+#### 明确硬件架构
+
+QNN后端的部分使用步骤（如生成离线产物，确定QNN的NPU库依赖等）需要指定device的硬件架构对应的SOC ID以及HEXAGON ARCH。对于一些常见的硬件架构，我们列举如下供你参考：
+
+| 硬件    | SOC ID | HEXAGON ARCH |
+| :------ | :----- | :----------- |
+| 8 Gen 1 | 36     | 69           |
+| 8 Gen 2 | 43     | 73           |
+| 8 Gen 3 | 57     | 75           |
+| 8 Elite | 69     | 79           |
+
+对于其他的硬件架构，你可以参考高通官网的设备支持列表。
+
+#### 获得QNN依赖
 
-### 获得QNN依赖
-QNN后端依赖QNN SDK中的`/include/QNN`与`lib`，首先，我们需要获得相关依赖。
+MNN-QNN后端依赖QNN SDK中的`include/QNN`与`lib`，可通过以下步骤获取依赖：
 - [注册高通账号](https://myaccount.qualcomm.com/signup)
-- 访问Qualcomm AI Engine Direct SDK（即QNN SDK）[官网](https://www.qualcomm.com/developer/software/qualcomm-ai-engine-direct-sdk)，下载SDK。
-- 参考以下指令，将下载的sdk中的`/include/QNN`与`lib`拷贝到MNN源码中的对应位置。
+- 访问Qualcomm AI Engine Direct SDK（即QNN SDK），下载SDK，并解压。比如`/home/xiaying/third/qnn/qairt/2.38.0.250901`
+- 修改`~/.bashrc` ，增加SDK路径到环境变量, 然后运行 `source ~/.bashrc` 或者重启终端。eg：
+
 ```
-QNN_SDK_ROOT="/YOUR/QNN/SDK/PATH" # modify this variable according to your environment
-MNN_ROOT="/YOUR/MNN/PATH" # modify this variable according to your environment
-INCLUDE_SRC="${QNN_SDK_ROOT}/include/QNN"
-LIB_SRC="${QNN_SDK_ROOT}/lib"
-INCLUDE_DEST="${MNN_ROOT}/source/backend/qnn/3rdParty/include"
-LIB_DEST="${MNN_ROOT}/source/backend/qnn/3rdParty/lib"
-mkdir "${MNN_ROOT}/source/backend/qnn/3rdParty"
-cp -r ${INCLUDE_SRC} ${INCLUDE_DEST}
-cp -r ${LIB_SRC} ${LIB_DEST}
+export QNN_SDK_ROOT=/home/xiaying/third/qnn/qairt/2.38.0.250901
+export QNN_ROOT=/home/xiaying/third/qnn/qairt/2.38.0.250901
+export HEXAGON_SDK_ROOT=/home/xiaying/third/qnn/qairt/2.38.0.250901
 ```
 
-### QNN后端编译
-- 编译 MNN 时打开编译宏`MNN_QNN`，即`-DMNN_QNN=ON`。
-- 如果运行离线编译QNN模型(离线编译方法：使用MNN2QNNModel工具)，需要开启`MNN_WITH_PLUGIN`宏。若需要减小库体积，可以选择关闭`MNN_QNN_ONLINE_FINALIZE`宏
+### 在线构图模式，推理常规模型
+在线构图模式的使用步骤与其他后端基本一致，主要包含以下三部分。
+
+#### Host，交叉编译Device侧的MNN库及AI应用程序
+- 参考[“主库编译”](../compile/engine.md#主库编译)，配置Android系统的编译环境及CMake变量。
+- 添加额外的CMake变量并编译：`-DMNN_QNN=ON`、`-DMNN_QNN_CONVERT_MODE=OFF`、`-DMNN_WITH_PLUGIN=OFF`。
 
+#### 推送资源至Device
 
-### QNN后端运行
-- Backend Type设置为`MNN_FORWARD_NN`，即 5 。
-- 除MNN相关的库之外，QNN后端在运行时还依赖四个QNN库，可参考以下指令，将QNN中的库拷贝到设备中。其中变量`HEXAGON_ARCH`需要与你的目标机型匹配，可参考[高通官网的设备支持列表](https://docs.qualcomm.com/bundle/publicresource/topics/80-63442-50/overview.html#supported-snapdragon-devices)，如8gen3的设备，需要设定`HEXAGON_ARCH="75"`。
+参考下面的指令，将以下资源推送到Device侧
+- AI应用程序。
+- 交叉编译得到的Device侧的MNN库。
+- QNN库（`libQnnHtp.so`、`libQnnHtpV${HEXAGON_ARCH}Stub.so`、`libQnnHtpV${HEXAGON_ARCH}Skel.so`、`libQnnHtpPrepare.so`）。
+- MNN模型。
 ```
 HEXAGON_ARCH="75" # modify this variable according to your environment
-MNN_ROOT="/YOUR/MNN/PATH" # modify this variable according to your environment
-ANDROID_PATH="/data/local/tmp"
-adb push ${MNN_ROOT}/source/backend/qnn/3rdParty/lib/aarch64-android/libQnnHtp.so ${ANDROID_PATH}/libQnnHtp.so
-
-/*
-如下libQnnHtpPrepare.so和libQnnSystem.so两个库，根据情况二选一
-- 如果在线生成qnn图模型，运行时需要libQnnHtpPrepare.so
-- 如果离线生成qnn图模型，运行时需要libQnnSystem.so
-*/
-adb push ${MNN_ROOT}/source/backend/qnn/3rdParty/lib/aarch64-android/libQnnHtpPrepare.so ${ANDROID_PATH}/libQnnHtpPrepare.so
-adb push ${MNN_ROOT}/source/backend/qnn/3rdParty/lib/aarch64-android/libQnnSystem.so ${ANDROID_PATH}/libQnnSystem.so
-
-adb push ${MNN_ROOT}/source/backend/qnn/3rdParty/lib/aarch64-android/libQnnHtpV${HEXAGON_ARCH}Stub.so ${ANDROID_PATH}/libQnnHtpV${HEXAGON_ARCH}Stub.so
-adb push ${MNN_ROOT}/source/backend/qnn/3rdParty/lib/hexagon-v${HEXAGON_ARCH}/unsigned/libQnnHtpV${HEXAGON_ARCH}Skel.so ${ANDROID_PATH}/libQnnHtpV${HEXAGON_ARCH}Skel.so
+MNN_ROOT_PATH="/YOUR/MNN/ROOT/PATH" # modify this variable according to your environment
+BUILD_ANDROID_PATH="/your/build/andorid/path" # modify this variable according to your environment
+ANDROID_WORKING_DIR="/data/local/tmp" # modify this variable according to your environment
+
+# push mnn libs
+cd ${BUILD_ANDROID_PATH}
+find . -name "*.so" | while read solib; do
+    adb push $solib ${ANDROID_WORKING_DIR}
+done
+cd -
+
+# push your AI exe
+adb push /your/AI/exe ${ANDROID_WORKING_DIR}
+
+# push QNN libs
+adb push ${QNN_SDK_ROOT}/lib/aarch64-android/libQnnHtp.so ${ANDROID_WORKING_DIR}
+adb push ${QNN_SDK_ROOT}/lib/aarch64-android/libQnnHtpV${HEXAGON_ARCH}Stub.so ${ANDROID_WORKING_DIR}
+adb push ${QNN_SDK_ROOT}/lib/hexagon-v${HEXAGON_ARCH}/unsigned/libQnnHtpV${HEXAGON_ARCH}Skel.so ${ANDROID_WORKING_DIR}
+# The following lib is only needed in the online case.
+adb push ${QNN_SDK_ROOT}/lib/aarch64-android/libQnnHtpPrepare.so ${ANDROID_WORKING_DIR}
+
+# push MNN models
+adb push model.mnn ${ANDROID_WORKING_DIR}
 ```
-- 为了动态链接到QNN HTP相关的库，需要在环境变量`ADSP_LIBRARY_PATH`中添加QNN HTP库所在的目录（部分机型上有效）。如果这样也没法成功链接，可将可执行文件push到QNN HTP库所在目录（如`/data/local/tmp`），cd到对应目录后，再运行可执行文件，参考如下指令。
+
+#### Device，链接并运行
+- 链接QNN库
+  - 为了动态链接到QNN HTP相关的库，需要在环境变量`ADSP_LIBRARY_PATH`中添加QNN HTP库所在的目录（部分机型上有效）。如果这样也没法成功链接，可将可执行文件，QNN HTP库推送至同一目录，cd到对应目录后，再运行可执行文件，参考如下指令。
 ```
-adb shell "cd /data/local/tmp && LD_LIBRARY_PATH=/data/local/tmp ADSP_LIBRARY_PATH=/data/local/tmp ./MyExe.out"
+adb shell "cd ${ANDROID_WORKING_DIR} && export LD_LIBRARY_PATH=.:${ANDROID_LD_LIBRARY_PATH} && export ADSP_LIBRARY_PATH=.:${ANDROID_ADSP_LIBRARY_PATH} && ./your/mnn/qnn/ai/exe"
 ```
+- 配置MNN
+  - Backend Type设置为`MNN_FORWARD_NN`，即5。
+  - 在使用Module API推理时，需要设定`Module::Config`中的`shapeMutable`字段为`false`。
+
+### 离线构图模式，推理常规模型
+相较于在线构图模式，离线构图模式额外包含一次编译（构建生成离线产物需要的MNN库）以及一个模型转换步骤（将原始的MNN模型转化成QNN产物），具体如下。
+
+#### Host，编译生成离线模式产物需要的的MNN库及相应MNN离线工具
+- 添加额外的CMake变量并编译：`-DMNN_QNN=ON`、`-DMNN_QNN_CONVERT_MODE=ON`、`-DMNN_WITH_PLUGIN=OFF`、`-DMNN_BUILD_TOOLS=ON`。
+
+#### Host，生成QNN离线构图产物
+调用`MNN2QNNModel`工具，针对Device的硬件架构，生成QNN离线产物（`model_${SOC_ID}_${HEXAGON_ARCH}.bin`）以及替代模型（`model_${SOC_ID}_${HEXAGON_ARCH}.mnn`），具体可参考[该工具的用法](../tools/convert.md#mnn2qnnmodel)。
+
+#### Host，交叉编译Device侧的MNN库及AI应用程序
+- 参考[“主库编译”](../compile/engine.md#主库编译)，配置Android系统的编译环境及CMake变量。
+- 添加额外的CMake变量并编译：`-DMNN_QNN=ON`、`-DMNN_QNN_CONVERT_MODE=OFF`、`-DMNN_WITH_PLUGIN=ON`。
+
+#### 推送资源至Device
+与[在线构图模式的情况](#推送资源至device)类似，但有以下两点不同：
+- 依赖的QNN库变为`libQnnHtp.so`、`libQnnHtpV${HEXAGON_ARCH}Stub.so`、`libQnnHtpV${HEXAGON_ARCH}Skel.so`、`libQnnSystem.so`（不再依赖`libQnnHtpPrepare.so`，而是依赖`libQnnSystem.so`）。
+- 不再使用原始的MNN模型，而是需要QNN离线产物（`model_${SOC_ID}_${HEXAGON_ARCH}.bin`）以及替代模型（`model_${SOC_ID}_${HEXAGON_ARCH}.mnn`）。
+
+#### Device，链接并运行
+- 配置MNN
+    - 指定backend type为0（CPU）。读取并推理QNN离线产物的功能被封装在Plugin算子内，该算子被注册在CPU后端，因此，此时需要指定backend type为CPU。
+    - 在Device侧，如果你的离线产物和你的应用的工作目录不一致，那么你需要在程序中通过`Executor::RuntimeManager::setExternalPath`接口设定离线产物所在的目录。
+- 链接QNN库
+    - 离线构图模式对于链接的要求和在线构图模式一致。
 
-### QNN量化功能说明
-- 仅权重量化（激活是浮点）：只支持Linear权重int8、channel-wise的对称量化。
-- 激活&权重都量化：支持激活per-tensor对称量化，权重是int8/int4、channel-wise的对称量化。
 
 ## CoreML
 适用于 Mac / iOS / iPad