TensorRT(2):TensorRT的使用流程

2023-11-08


TensorRT系列传送门(不定期更新): 深度框架|TensorRT



  以caffe分类模型为例,简单介绍TRT的使用流程,这里不涉及量化,就以fp32为例,验证trt的结果是否和python端的结果一致。

caffe为例,需要提供以下文件
deploy.prototxt 网络结构文件
weight.caffemodel 权重文件

TensorRT的使用过程包括两个阶段, build和 deployment
在这里插入图片描述
build阶段主要完成模型转换,从caffe或者tf或者pyTorch到TensorRT
TRT加载模型,并构建TRT的引擎,主要分为六步:

  • 1、建立一个logger日志,必须要有,但又不是那么重要
  • 2、创建一个builder
  • 3、创建一个netwok,这时候netWork只是一个空架子
  • 4、建立一个 Parser,caffe模型、onnx模型和TF模型都有对应的paser,顾名思义,就用用来解析模型文件的
  • 5、建立 engine,进行层之间融合或者进度校准方式,可以fp32、fp16或者fp8
  • 6、建议一个context,这个是用来做inference推断的。上面连接engine,下对应推断数据,所以称之为上下文联系器(博主自取的)
    (PS:感谢晖神提供流程图)
    在这里插入图片描述

一、在线加载caffe模型,序列化保存到本地

主要功能:
1、opencv读取图像,减均值除方差,在NHWC转NCHW
2、trt解析caffe模型
3、保存序列化后的模型
4、建立engine,推断模型、生成结果

/*====================================================================
文件 : sampleCaffeClassf.cc
功能 : TensorRT学习系列1、走通流程

====================================================================*/
#include "NvCaffeParser.h"
#include "NvInfer.h"
#include "NvInferPlugin.h"
#include "logger.h"
#include "cuda_runtime_api.h"
#include "common.h"

#include <cstdlib>
#include <fstream>
#include <iostream>
#include <sstream>
#include <opencv2/opencv.hpp>

using namespace nvinfer1;
using namespace plugin;
using namespace nvcaffeparser1;

const int MODEL_HEIGHT = 256;
const int MODEL_WIDTH = 256;
const int MODEL_CHANNEL = 3;
const int MODEL_OUTPUT_SIZE = 5; // 5分类

/**********************************
 * @brief 先resize、再减均值、除方差
 *
 * @param src 
 * @param dst 
 * @return 
 *********************************/
void preData(cv::Mat &matSrc, cv::Mat &matDst)
{   
    cv::resize(matSrc, matSrc, cv::Size(MODEL_WIDTH, MODEL_HEIGHT));
    cv::Mat matMean(MODEL_HEIGHT, MODEL_WIDTH, CV_32FC3, \
                        cv::Scalar(103.53f, 116.28f, 123.675f)); // 均值
    cv::Mat matStd(256, 256, CV_32FC3, \
                        cv::Scalar(1.0f, 1.0f, 1.0f)); // 方差
    cv::Mat matF32Img;
    matSrc.convertTo(matF32Img, CV_32FC3);
    matDst = (matF32Img - matMean) / matStd;
}

int main()
{
    std::string strTrtSavedPath = "./savedTrt.trt";
    // gLogger
    // 1、创建一个builder, gLogger是一个日志类,必须要有,但又不是那么重要,可以自己继承
    IBuilder* builder = createInferBuilder(gLogger);
    // 2、创建一个netwok,推荐使用V2,这时候netWork只是一个空架子,因为是解析caffe模型,那后面的必须是0U
    // 别问我为啥,官方这么写的
    INetworkDefinition* network = builder->createNetworkV2(0U);
    // TensorRt提供了一个高级别的API,CaffePaser,用于解析caffe模型
    ICaffeParser *parser = createCaffeParser();
    const IBlobNameToTensor *blobNameToTensor = parser->parse("./model/caffeProfile/deploy_vgg16_places365.prototxt",
                                        "./model/caffeProfile/vgg_iter_100000.caffemodel",
                                        *network,
                                        DataType::kFLOAT);
    // 3、标记输入Tensor的节点名
    network->markOutput(*blobNameToTensor->find("prob"));

    //  config是用来填充network的参数
    IBuilderConfig *config = builder->createBuilderConfig();
    // 设置最大batchSize的大小
    builder->setMaxBatchSize(1);
    // 设置工作空间
    config->setMaxWorkspaceSize(1 << 20);
    // 4、建立 engine,进行层之间融合或者进度校准方式
    ICudaEngine *engine = builder->buildEngineWithConfig(*network, *config);

    if (1) // 如果需要离线保存模型
    {
        IHostMemory* trtModelStream{ nullptr };
        trtModelStream = engine->serialize();
        std::ofstream modeStreamoutfile(strTrtSavedPath, std::ofstream::binary);
        assert(!modeStreamoutfile.fail());
        modeStreamoutfile.write((char*)trtModelStream->data(), trtModelStream->size());
        gLogInfo<<"Saving TRT engine " << strTrtSavedPath << "." <<std::endl;
    }
    
    // inference推断过程
    IExecutionContext *context = engine->createExecutionContext();

   int nInputIdx = engine->getBindingIndex("data");
    int nOutputIndex = engine->getBindingIndex("prob");
    std::cout << " nINputIdx = " << nInputIdx << std::endl;
    std::cout << " nOutputIdx = " << nOutputIndex << std::endl;
    // 
    std::cout << " n = " << engine->getNbBindings() << std::endl;
    //申请GPU显存
    // Allocate GPU memory for Input / Output data
    void* buffers[2] = {NULL, NULL};
    int nBatchSize = 1;
    int nOutputSize = MODEL_OUTPUT_SIZE;
    CHECK(cudaMalloc(&buffers[nInputIdx], nBatchSize * MODEL_CHANNEL * MODEL_HEIGHT * MODEL_WIDTH * sizeof(float)));
    CHECK(cudaMalloc(&buffers[nOutputIndex], nBatchSize * nOutputSize * sizeof(float)));

    // 创建cuda流
    cudaStream_t stream;
    CHECK(cudaStreamCreate(&stream));
    cudaEvent_t start, end; //calculate run time
    CHECK(cudaEventCreate(&start));
    CHECK(cudaEventCreate(&end));

    cv::Mat matBgrImg = cv::imread("./data/fram_25.jpg");
    cv::Mat matNormImage;
    preData(matBgrImg, matNormImage); // 减均值除方差


    std::vector<std::vector<cv::Mat>> nChannels;
    std::vector<cv::Mat> rgbChannels(3);
    cv::split(matNormImage, rgbChannels);
    nChannels.push_back(rgbChannels); //  NHWC  转NCHW 

    void *data = malloc(nBatchSize * MODEL_CHANNEL * MODEL_HEIGHT * MODEL_WIDTH *sizeof(float));;
    if (NULL == data)
    {
        printf("malloc error!\n");
        return 0;
    }
    for (int c = 0; c < 3; ++c) 
    {
        cv::Mat cur_imag_plane = nChannels[0][c];
        memcpy(data + c * MODEL_HEIGHT * MODEL_WIDTH * sizeof(float), cur_imag_plane.ptr<unsigned char>(0), 256 *256 * sizeof(float));
    }

    // DMA input batch data to device, infer on the batch asynchronously, and DMA output back to host
    CHECK(cudaMemcpyAsync(buffers[nInputIdx], data, \
        nBatchSize * MODEL_CHANNEL * MODEL_WIDTH * MODEL_HEIGHT * sizeof(float), cudaMemcpyHostToDevice, stream));

    float ms;
    cudaEventRecord(start, stream);
    // 5、 启动cuda核计算
    context->enqueue(nBatchSize, buffers, stream, nullptr);
    cudaEventRecord(end, stream);
    cudaEventSynchronize(end);
    cudaEventElapsedTime(&ms, start, end);

    float prob[nBatchSize * nOutputSize];

    CHECK(cudaMemcpyAsync(prob, buffers[nOutputIndex], 1 * 5 * sizeof(float), cudaMemcpyDeviceToHost, stream));
    cudaStreamSynchronize(stream);
    cudaEventDestroy(start);
    cudaEventDestroy(end);

    // Release stream and buffers
    cudaStreamDestroy(stream);
    CHECK(cudaFree(buffers[nInputIdx]));
    CHECK(cudaFree(buffers[nOutputIndex]));

    for(int i=0; i< 5; ++i)
    {
        std::cout << prob[i] << " ";
    }
    std::cout << std::endl;
    
    parser->destroy();
    network->destroy();
    config->destroy();
    builder->destroy();
    printf("hello world \n");
    return 0;
}

二、反序列化直接加载保存后的trt模型

/*====================================================================
文件 : sampleCaffeClassf.cc
功能 : TensorRT学习系列1、走通流程

====================================================================*/
#include "NvCaffeParser.h"
#include "NvInfer.h"
#include "NvInferPlugin.h"
#include "logger.h"
#include "cuda_runtime_api.h"
#include "common.h"

#include <cstdlib>
#include <fstream>
#include <iostream>
#include <sstream>
#include <opencv2/opencv.hpp>

using namespace nvinfer1;
using namespace plugin;
using namespace nvcaffeparser1;

const int MODEL_HEIGHT = 256;
const int MODEL_WIDTH = 256;
const int MODEL_CHANNEL = 3;

const int MODEL_OUTPUT_SIZE = 5; //模型的输出,5分类

/**********************************
 * @brief 先resize、再减均值、除方差
 *
 * @param src 
 * @param dst 
 * @return 
 *********************************/
void preData(cv::Mat &matSrc, cv::Mat &matDst)
{   
    cv::resize(matSrc, matSrc, cv::Size(MODEL_WIDTH, MODEL_HEIGHT));
    cv::Mat matMean(MODEL_HEIGHT, MODEL_WIDTH, CV_32FC3, \
                        cv::Scalar(103.53f, 116.28f, 123.675f)); // 均值
    cv::Mat matStd(256, 256, CV_32FC3, \
                        cv::Scalar(1.0f, 1.0f, 1.0f)); // 方差
    cv::Mat matF32Img;
    matSrc.convertTo(matF32Img, CV_32FC3);
    matDst = (matF32Img - matMean) / matStd;
}

int main()
{
    std::string strTrtSavedPath = "./savedTrt.trt";
    // gLogger
    // gLogger是一个日志类,必须要有,但又不是那么重要,可以自己继承
    IRuntime* runtime = createInferRuntime(gLogger);
    std::ifstream fin(strTrtSavedPath);

    // 1、将文件中的内容读取至cached_engine字符串
    std::string modelData = "";
    while (fin.peek() != EOF){ // 使用fin.peek()防止文件读取时无限循环
        std::stringstream buffer;
        buffer << fin.rdbuf();
        modelData.append(buffer.str());
    }
    fin.close();

    // 2、 将序列化得到的结果进行反序列化,以执行后续的inference
    ICudaEngine* engine = runtime->deserializeCudaEngine(modelData.data(), modelData.size(), nullptr);
    // inference推断过程
    IExecutionContext *context = engine->createExecutionContext();

    int nInputIdx = engine->getBindingIndex("data"); // 输入节点名
    int nOutputIndex = engine->getBindingIndex("prob"); // 输出节点名
    std::cout << " nINputIdx = " << nInputIdx << std::endl;
    std::cout << " nOutputIdx = " << nOutputIndex << std::endl;
    // 
    std::cout << " n = " << engine->getNbBindings() << std::endl;
    //申请GPU显存
    // Allocate GPU memory for Input / Output data
    void* buffers[2] = {NULL, NULL};
    int nBatchSize = 1;
    int nOutputSize = MODEL_OUTPUT_SIZE;
    CHECK(cudaMalloc(&buffers[nInputIdx], nBatchSize * MODEL_CHANNEL * MODEL_HEIGHT * MODEL_WIDTH * sizeof(float)));
    CHECK(cudaMalloc(&buffers[nOutputIndex], nBatchSize * nOutputSize * sizeof(float)));

    // 创建cuda流
    cudaStream_t stream;
    CHECK(cudaStreamCreate(&stream));
    cudaEvent_t start, end; //calculate run time
    CHECK(cudaEventCreate(&start));
    CHECK(cudaEventCreate(&end));

    cv::Mat matBgrImg = cv::imread("./data/fram_25.jpg");
    cv::Mat matNormImage;
    preData(matBgrImg, matNormImage); // 减均值除方差


    std::vector<std::vector<cv::Mat>> nChannels;
    std::vector<cv::Mat> rgbChannels(3);
    cv::split(matNormImage, rgbChannels);
    nChannels.push_back(rgbChannels); //  NHWC  转NCHW 

    void *data = malloc(nBatchSize * MODEL_CHANNEL * MODEL_HEIGHT * MODEL_WIDTH *sizeof(float));;
    if (NULL == data)
    {
        printf("malloc error!\n");
        return 0;
    }
    for (int c = 0; c < 3; ++c) 
    {
        cv::Mat cur_imag_plane = nChannels[0][c];
        memcpy(data + c * MODEL_HEIGHT * MODEL_WIDTH * sizeof(float), cur_imag_plane.ptr<unsigned char>(0), 256 *256 * sizeof(float));
    }

    // DMA input batch data to device, infer on the batch asynchronously, and DMA output back to host
    CHECK(cudaMemcpyAsync(buffers[nInputIdx], data, \
        nBatchSize * MODEL_CHANNEL * MODEL_WIDTH * MODEL_HEIGHT * sizeof(float), cudaMemcpyHostToDevice, stream));

    float ms;
    cudaEventRecord(start, stream);
    // 5、 启动cuda核计算
    context->enqueue(nBatchSize, buffers, stream, nullptr);
    cudaEventRecord(end, stream);
    cudaEventSynchronize(end);
    cudaEventElapsedTime(&ms, start, end);

    float prob[nBatchSize * nOutputSize];

    CHECK(cudaMemcpyAsync(prob, buffers[nOutputIndex], 1 * 5 * sizeof(float), cudaMemcpyDeviceToHost, stream));
    cudaStreamSynchronize(stream);
    cudaEventDestroy(start);
    cudaEventDestroy(end);

    // Release stream and buffers
    cudaStreamDestroy(stream);
    CHECK(cudaFree(buffers[nInputIdx]));
    CHECK(cudaFree(buffers[nOutputIndex]));

    for(int i=0; i< 5; ++i)
    {
        std::cout << prob[i] << " ";
    }
    std::cout << std::endl;
    
    engine->destroy();
    printf("hello world \n");
    return 0;
}
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

TensorRT(2):TensorRT的使用流程 的相关文章

  • Warning: This development build of composer is over 60 days old

    今天查看了一下服务器安装的Composer版本 报了一个警告 意思是安装已经超过60天了 需要执行 usr bin composer self update 升级到最新版本 然后我就执行了 再次查看版本确实更新到官方最新的1 7 3版本 但
  • PTA7(python3)

    python程序设计07 字符串与正则表达式 7 1 找最后的字符 30 分 7 2 重要的事情说N遍 20 分 7 3 号码牌的制作 10 分 7 4 统计字符串中指定字符的个数 30 分 7 5 字符串消除空格 30 分 7 6 统计指
  • 三分钟弄懂物联网流行协议——MQTT

    MQTT Message Queue Telemetry Transport 翻译成中文就是 遥测传输协议 其主要提供了订阅 发布两种消息模式 更为简约 轻量 易于使用 特别适合于受限环境 带宽低 网络延迟高 网络通信不稳定 的消息分发 属
  • C++中vector迭代器失效问题及其解决方法

    C 中vector迭代器失效问题及其解决方法 迭代器的主要作用就是让算法能够不用关心底层数据结构 其底层实际就是一个指针 或者是对指针进行了封装 比如 vector的迭代器就是原生态指针T 因此迭代器失效 实际就是迭代器底层对应指针所指向的
  • php socket error 111,php中的socket_connect上的“连接被拒绝”错误

    我试图将一些代码从perl转换为php Perl代码如下所示 my handle Connect port host 我试图使用socket在PHP中做同样的事情 我试过socket create和socket connect socket
  • Windows(10/11)端vscode开发、调试远程Linux(Ubuntu14.04)端c++ 开发环境部署步骤

    1 安装vscode 进入https code visualstudio com 即vsocde官网选择Windows x64版本下载并安装 安装过程中推荐勾选往右键菜单添加通过vscode打开文件夹的选项 2 vsocde插件安装 打开v
  • 《影响力》第七章:稀缺

    稀缺 物以稀为贵 稍纵即逝 越是得不到就越觉得香 这是为啥 至于是不是真的香 由于得不到 也不得而知 例如 我有一个朋友觉得佐佐木希如果能娶来做老婆是很香的 简直就是夫复何求 然而这世上当真有人会把女神娶回家然后出轨还家暴 这说来还真是让人
  • 判断点是否在任意多边形内(java)

    import java util ArrayList public class Test public static void main String args double px 113 0253 double py 23 98049 A
  • 文心一言和讯飞星火全面对比测试:(三)常识问题

    前文回顾 在 一 语言理解能力测试中 我们主要测试了两个大语言模型对复杂语义的理解 对文章情绪的识别 对文章进行摘要总结 对文章进行要素提取 测试结果表明 在语言理解能力上 除了有些问题他拒绝回答之外 讯飞星火的表现明显要好于文心一言 可以
  • 函数和windows对象 有惊喜✔

    一 函数 函数的定义 类似于Java中的方法 是完成特定任务的代码语句块 1 系统函数 eval lt 表达式 gt 得到一个文本框的值 表单 例 var sname eval doucment form sname value parse
  • Java多线程导致CPU占用100%解决及线程池正确关闭方式

    文章目录 前言 一 cpu占用高排查问题 二 解决办法 使用AtomicLong 统计线程是否完成 再执行executor submit 提交新的任务导队列中 三 多线程关闭与令牌限流 前言 情景 1000万表数据导入内存数据库 按分页大小
  • 超详细java web实验环境 (4) Eclipse配置Tomcat配置

    目录 一 确保Tomcat服务器处于关闭状态 二 在Eclipse中配置Tomcat 三 测试Tomcat是否配置完成 四 若出现异常 一 确保Tomcat服务器处于关闭状态 二 在Eclipse中配置Tomcat 1 打开Eclipse
  • C++类与对象:拷贝构造函数&浅拷贝

    标题 拷贝构造函数 默认拷贝构造 应用一 用已存在的类类型对象创建新对象 1 类中不涉及资源管理 可以使用默认拷贝构造函数 2 类中涉及资源管理 应用二 函数参数为类类型 应用三 函数返回值为类类型 拷贝构造函数 目的 为了初始化新对象 同
  • docker入门实践,实战搭建nginx续集,利用Dockerfile制作属于自己的镜像

    前言 在看这一篇之前 可以先回顾一下使用现成的nginx镜像在搭建 https blog csdn net hl java article details 86232900 可以发现 搭建成功后 服务是可以访问的 http localhos
  • Android Studio汉化教程

    先去AS的官网下载一个 AS官网 1 下载汉化包 AS汉化包下载地址 2 找到AS安装目录 然后找到lib文件夹 lib文件夹里面有一个resources en的东东 将该文件复制到桌面 并改名为resources cn 然后用解压工具打开
  • QT之获取布局内容及删除布局

    1 删除布局 图1 QLayout p ui gt verticalLayout 7 gt itemAt 0 gt layout while p gt count QWidget pWidget p gt itemAt 0 gt widge
  • 图像修复(Image Inpainting)任务中常用的掩码数据集

    文章目录 前言 mask数据集分类及介绍 总结 前言 在 Image Inpainting 图像修复 任务中 需要使用掩码数据集在图像上人为添加缺陷区域 以便在设计的深度学习上进行训练学习 mask数据集分类及介绍 目前图像修复任务中最长用

随机推荐