Python深度學習之Keras模型轉換成ONNX模型流程詳解

更新時間：2022年09月21日 11:07:10 作者：FeathersMouch

這篇文章主要介紹了Python深度學習之Keras模型轉換成ONNX模型流程，文中通過示例代碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值，需要的朋友們下面隨著小編來一起學習吧

從Keras轉換成PB模型

請注意，如果直接使用Keras2ONNX進行模型轉換大概率會出現(xiàn)報錯，這里筆者曾經進行過不同的嘗試，最后都失敗了。

所以筆者的推薦的情況是：首先將Keras模型轉換為TensorFlow PB模型。

那么通過tf.keras.models.load_model()這個函數(shù)將模型進行加載，前提是你有一個基于h5格式或者hdf5格式的模型文件，最后再通過改變模型的保存格式save_format參數(shù)改為tf。即可實現(xiàn)從Keras轉換為TensorFow的格式文件了。

import tensorflow as tf
model_path = './models/model.h5'                    # 模型文件
model = tf.keras.models.load_model(model_path)
model.save('tfmodel', save_format='tf')

轉換后的模型文件結構是這樣的：

.
├── assets
├── keras_metadata.pb
├── saved_model.pb
└── variables
├── variables.data-00000-of-00001
└── variables.index

2 directories, 4 files

從PB模型轉換成ONNX模型

從PB模型轉換為ONNX模型是很簡單的，通過調用tf2onnx這個模塊下的convert來進行處理。

你需要做的，只需要將--save-model來指定你已經轉換好的TensorFlow模型，使用--output來指定你的ONNX模型輸出的路徑（需要指定一個獨立的文件，如./xx/xx.onnx）

python -m tf2onnx.convert --saved-model ./tfmodel/ --output ./models/model.onnx --opset 11 --verbose

這樣我們就得到一個ONNX模型：

.
├── model.h5
├── model.onnx
└── model_fp16.onnx

改變現(xiàn)有的ONNX模型精度

考慮到在不同的計算設備上，半精度和雙精度鎖帶來的性能提升是顯而易見的。

這里我使用了一個VGG16的模型來測試了fp16和fp32的性能。

----------------------
VGG Full Precision:
   Data Size: 124
   VGGFullPrecision Timing: 7.462206602096558 Seconds
   Connections: 1824812148
----------------------
VGG Half Precision:
   Data Size: 124
   VGGHalfPrecision Timing(In TensorRT): 2.563319444656372 Seconds
   Connections: 1824812148
----------------------

可以看到，在我這張RTX2060上，啟用fp16相較于fp32的性能提升接近3倍。

那么我們該如何將現(xiàn)有的ONNX模型從fp32模型轉換成fp16模型呢？

首先我們需要準備一個叫onnxmltools的庫?？梢酝ㄟ^pip來進行安裝。

pip install onnxmltools

確認安裝好onnxmltools后，我們通過如下的一段腳本進行精度的轉換：

import onnxmltools
# 加載float16_converter轉換器
from onnxmltools.utils.float16_converter import convert_float_to_float16
# 使用onnxmltools.load_model()函數(shù)來加載現(xiàn)有的onnx模型
# 但是請確保這個模型是一個fp32的原始模型
onnx_model = onnxmltools.load_model('../module/models/model.onnx')
# 使用convert_float_to_float16()函數(shù)將fp32模型轉換成半精度fp16
onnx_model_fp16 = convert_float_to_float16(onnx_model)
# 使用onnx.utils.save_model()函數(shù)來保存，
onnxmltools.utils.save_model(onnx_model_fp16, '../module/models/model_fp16.onnx')

部署ONNX 模型

在部署ONNX模型階段，我們將使用onnxruntime這個模塊。

針對你所將使用的計算設備，如果你是CPU用戶，那么你需要使用如下的指令來安裝onnxruntime

pip install onnxruntime

反之，如果你的計算設備是是GPU，那么你需要使用如下的指令來安裝onnxruntime

pip install onnxruntime-gpu

確認好onnxruntime安裝完成后，你只需要使用如下的指令來加載你的ONNX模型即可

import onnxruntime as ort
# 指定onnx模型所在的位置
model_path = './module/models/model.onnx'
# 創(chuàng)建providers參數(shù)列表
providers = [
		# 指定模型可用的CUDA計算設備參數(shù)
        ('CUDAExecutionProvider', {
        	# 因為這里筆者只有一張GPU，因此GPU ID序列就為0
            'device_id': 0,
            # 這里網(wǎng)絡額外策略使用官方默認值
            'arena_extend_strategy': 'kNextPowerOfTwo',
            # 官方這里默認建議的GPU內存迭代上限是2GB，如果你的GPU顯存足夠大
            # 可以將這里的2修改為其它數(shù)值
            'gpu_mem_limit': 2 * 1024 * 1024 * 1024,
            # cudnn轉換算法的調用參數(shù)設置為完整搜索
            'cudnn_conv_algo_search': 'EXHAUSTIVE',
            # 確認從默認流進行CUDA流賦值
            'do_copy_in_default_stream': True,
        }),
        'CPUExecutionProvider',
    ]
# 使用onnxruntime.InferenceSession()函數(shù)創(chuàng)建Session
# 第一參數(shù)為模型所在的路徑，第二參數(shù)為模型的providers參數(shù)列表
session = ort.InferenceSession(model_path, providers=providers)
# 通過get_input()函數(shù)和get_output()函數(shù)獲取網(wǎng)絡的輸入和輸出名稱
input_name = session.get_inputs()[0].name
output_name = session.get_outputs()[0].name 
# 使用session.run()函數(shù)執(zhí)行ONNX任務
# 值得注意的是，這里演示使用的ONNX模型是FP32精度的模型
# 如果你使用的fp16模型但傳入的數(shù)據(jù)是fp32類型的會拋出數(shù)據(jù)異常的錯誤
# 另外ONNX的異常拋出是十分人性化的，它會指明你在推理是發(fā)生異常的具體位置以及應對策略
result = session.run(
                [output_name], {input_name: image.astype(np.float32)})[0]
result = result.argmax()