快捷導(dǎo)航

在C#中如何使用ResNet50v2進(jìn)行圖像識(shí)別

更新時(shí)間：2024年07月03日 10:17:15 作者：mingupupup

ONNX?運(yùn)行時(shí)推理可以實(shí)現(xiàn)更快的客戶體驗(yàn)和更低的成本,支持來自深度學(xué)習(xí)框架如?PyTorch和TensorFlow/Keras以及經(jīng)典機(jī)器學(xué)習(xí)庫如?scikit-learn、LightGBM、XGBoost?等的模型,這篇文章主要介紹了在C#中如何使用ResNet50v2進(jìn)行圖像識(shí)別,需要的朋友可以參考下

ONNX Runtime簡(jiǎn)介

ONNX Runtime 是一個(gè)跨平臺(tái)的推理和訓(xùn)練機(jī)器學(xué)習(xí)加速器。ONNX 運(yùn)行時(shí)推理可以實(shí)現(xiàn)更快的客戶體驗(yàn)和更低的成本，支持來自深度學(xué)習(xí)框架（如 PyTorch 和 TensorFlow/Keras）以及經(jīng)典機(jī)器學(xué)習(xí)庫（如 scikit-learn、LightGBM、XGBoost 等）的模型。 ONNX 運(yùn)行時(shí)與不同的硬件、驅(qū)動(dòng)程序和操作系統(tǒng)兼容，并通過利用硬件加速器（如果適用）以及圖形優(yōu)化和轉(zhuǎn)換來提供最佳性能。

ResNet50v2簡(jiǎn)介

ResNet50v2 是一種深度卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)，是 ResNet（Residual Network，殘差網(wǎng)絡(luò)）系列的一部分。ResNet 是由何凱明等人在 2015 年提出的，它通過引入殘差塊（Residual Block）解決了深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中梯度消失和梯度爆炸的問題，使得構(gòu)建非常深的網(wǎng)絡(luò)成為可能。ResNet50v2 被廣泛應(yīng)用于各種計(jì)算機(jī)視覺任務(wù)，如圖像分類、目標(biāo)檢測(cè)、圖像分割等。由于其深度和強(qiáng)大的特征學(xué)習(xí)能力，ResNet50v2 在眾多基準(zhǔn)測(cè)試中表現(xiàn)出色，是許多研究和應(yīng)用中的首選模型之一。

示例

這個(gè)示例代碼在

https://github.com/microsoft/onnxruntime/tree/main/csharp/sample/Microsoft.ML.OnnxRuntime.ResNet50v2Sample

fork一份，克隆到本地，在本地打開這個(gè)項(xiàng)目，項(xiàng)目結(jié)構(gòu)如下所示：

依賴的包除了OnnxRuntime還有ImageSharp。

ImageSharp簡(jiǎn)介

ImageSharp 是一個(gè)新的、功能齊全、完全托管的跨平臺(tái) 2D 圖形庫。ImageSharp 旨在簡(jiǎn)化圖像處理，為您帶來一個(gè)非常強(qiáng)大而又非常簡(jiǎn)單的 API。

ImageSharp 從頭開始設(shè)計(jì)，具有靈活性和可擴(kuò)展性。該庫為常見的圖像處理操作提供了 API 端點(diǎn)，并為開發(fā)其他操作提供了構(gòu)建塊。

ImageSharp 針對(duì) .NET 8 構(gòu)建，可用于設(shè)備、云和嵌入式/IoT 方案。

下載 ResNet50 v2 ONNX 模型，下載地址在：

https://github.com/onnx/models/blob/main/validated/vision/classification/resnet/model/resnet50-v2-7.onnx

讀取路徑

首先，源代碼中是通過程序參數(shù)讀取模型的路徑和要測(cè)試的圖像的路徑，也可以直接賦值：

// Read paths
//string modelFilePath = args[0];
//string imageFilePath = args[1];
string modelFilePath = @"你的路徑\Microsoft.ML.OnnxRuntime.ResNet50v2Sample\resnet50-v2-7.onnx";
string imageFilePath = @"你的路徑\Microsoft.ML.OnnxRuntime.ResNet50v2Sample\獅子.jpg";

讀取圖像

接下來，我們將使用跨平臺(tái)圖像庫 ImageSharp 讀取圖像：

 // Read image
 using Image<Rgb24> image = Image.Load<Rgb24>(imageFilePath);

調(diào)整圖像大小

接下來，我們將圖像大小調(diào)整為模型期望的適當(dāng)大小;224 像素 x 224 像素：

using Stream imageStream = new MemoryStream();
image.Mutate(x =>
{
    x.Resize(new ResizeOptions
    {
        Size = new Size(224, 224),
        Mode = ResizeMode.Crop
    });
});
image.Save(imageStream, format);

預(yù)處理圖像

接下來，我們將根據(jù)模型的要求對(duì)圖像進(jìn)行預(yù)處理，具體要求見：

https://github.com/onnx/models/tree/main/validated/vision/classification/resnet

// We use DenseTensor for multi-dimensional access to populate the image data
var mean = new[] { 0.485f, 0.456f, 0.406f };
var stddev = new[] { 0.229f, 0.224f, 0.225f };
DenseTensor<float> processedImage = new(new[] { 1, 3, 224, 224 });
image.ProcessPixelRows(accessor =>
{
    for (int y = 0; y < accessor.Height; y++)
    {
        Span<Rgb24> pixelSpan = accessor.GetRowSpan(y);
        for (int x = 0; x < accessor.Width; x++)
        {
            processedImage[0, 0, y, x] = ((pixelSpan[x].R / 255f) - mean[0]) / stddev[0];
            processedImage[0, 1, y, x] = ((pixelSpan[x].G / 255f) - mean[1]) / stddev[1];
            processedImage[0, 2, y, x] = ((pixelSpan[x].B / 255f) - mean[2]) / stddev[2];
        }
    }
});

在這里，我們正在創(chuàng)建一個(gè)所需大小 (batch-size, channels, height, width) 的張量，訪問像素值，對(duì)其進(jìn)行預(yù)處理，最后將它們分配給適當(dāng)指示的張量。

設(shè)置輸入

接下來，我們將創(chuàng)建模型的輸入：

using var inputOrtValue = OrtValue.CreateTensorValueFromMemory(OrtMemoryInfo.DefaultInstance,
    processedImage.Buffer, new long[] { 1, 3, 224, 224 });
var inputs = new Dictionary<string, OrtValue>
{
    { "data", inputOrtValue }
}

要檢查 ONNX 模型的輸入節(jié)點(diǎn)名稱，您可以使用 Netron 可視化模型并查看輸入/輸出名稱。在本例中，此模型具有 data 作為輸入節(jié)點(diǎn)名稱。

運(yùn)行推理

接下來，我們將創(chuàng)建一個(gè)推理會(huì)話并通過它運(yùn)行輸入：

using var session = new InferenceSession(modelFilePath);
using var runOptions = new RunOptions();
using IDisposableReadOnlyCollection<OrtValue> results = session.Run(runOptions, inputs, session.OutputNames);

后處理輸出

接下來，我們需要對(duì)輸出進(jìn)行后處理以獲得 softmax 向量，因?yàn)檫@不是由模型本身處理的：

var output = results[0].GetTensorDataAsSpan<float>().ToArray();
float sum = output.Sum(x => (float)Math.Exp(x));
IEnumerable<float> softmax = output.Select(x => (float)Math.Exp(x) / sum);

其他型號(hào)可能會(huì)在輸出之前應(yīng)用 Softmax 節(jié)點(diǎn)，在這種情況下，您不需要此步驟。同樣，您可以使用 Netron 查看模型輸出。

提取前10個(gè)預(yù)測(cè)結(jié)果

IEnumerable<Prediction> top10 = softmax.Select((x, i) => new Prediction { Label = LabelMap.Labels[i], Confidence = x })
                   .OrderByDescending(x => x.Confidence)
                   .Take(10);

打印結(jié)果

Console.WriteLine("Top 10 predictions for ResNet50 v2...");
Console.WriteLine("--------------------------------------------------------------");
foreach (var t in top10)
{
Console.WriteLine($"Label: {t.Label}, Confidence: {t.Confidence}");
}

本例的示例圖片是一只獅子，如下所示：