TensorRT(2):TensorRT的使用流程

2023-11-08

TensorRT系列传送门(不定期更新): 深度框架|TensorRT

文章目录

- 一、在线加载caffe模型,序列化保存到本地
- 二、反序列化直接加载保存后的trt模型

以caffe分类模型为例，简单介绍TRT的使用流程，这里不涉及量化，就以fp32为例，验证trt的结果是否和python端的结果一致。

caffe为例，需要提供以下文件
deploy.prototxt 网络结构文件
weight.caffemodel 权重文件

TensorRT的使用过程包括两个阶段， build和 deployment
在这里插入图片描述
build阶段主要完成模型转换，从caffe或者tf或者pyTorch到TensorRT
TRT加载模型，并构建TRT的引擎，主要分为六步：

1、建立一个logger日志，必须要有，但又不是那么重要
2、创建一个builder
3、创建一个netwok，这时候netWork只是一个空架子
4、建立一个 Parser，caffe模型、onnx模型和TF模型都有对应的paser，顾名思义，就用用来解析模型文件的
5、建立 engine，进行层之间融合或者进度校准方式，可以fp32、fp16或者fp8
6、建议一个context，这个是用来做inference推断的。上面连接engine，下对应推断数据，所以称之为上下文联系器(博主自取的)
(PS:感谢晖神提供流程图)

一、在线加载caffe模型,序列化保存到本地

主要功能：
1、opencv读取图像，减均值除方差，在NHWC转NCHW
2、trt解析caffe模型
3、保存序列化后的模型
4、建立engine，推断模型、生成结果

/*====================================================================
文件 ： sampleCaffeClassf.cc
功能 ： TensorRT学习系列1、走通流程

====================================================================*/
#include "NvCaffeParser.h"
#include "NvInfer.h"
#include "NvInferPlugin.h"
#include "logger.h"
#include "cuda_runtime_api.h"
#include "common.h"

#include <cstdlib>
#include <fstream>
#include <iostream>
#include <sstream>
#include <opencv2/opencv.hpp>

using namespace nvinfer1;
using namespace plugin;
using namespace nvcaffeparser1;

const int MODEL_HEIGHT = 256;
const int MODEL_WIDTH = 256;
const int MODEL_CHANNEL = 3;
const int MODEL_OUTPUT_SIZE = 5; // 5分类

/**********************************
 * @brief 先resize、再减均值、除方差
 *
 * @param src 
 * @param dst 
 * @return 
 *********************************/
void preData(cv::Mat &matSrc, cv::Mat &matDst)
{   
    cv::resize(matSrc, matSrc, cv::Size(MODEL_WIDTH, MODEL_HEIGHT));
    cv::Mat matMean(MODEL_HEIGHT, MODEL_WIDTH, CV_32FC3, \
                        cv::Scalar(103.53f, 116.28f, 123.675f)); // 均值
    cv::Mat matStd(256, 256, CV_32FC3, \
                        cv::Scalar(1.0f, 1.0f, 1.0f)); // 方差
    cv::Mat matF32Img;
    matSrc.convertTo(matF32Img, CV_32FC3);
    matDst = (matF32Img - matMean) / matStd;
}

int main()
{
    std::string strTrtSavedPath = "./savedTrt.trt";
    // gLogger
    // 1、创建一个builder, gLogger是一个日志类，必须要有，但又不是那么重要，可以自己继承
    IBuilder* builder = createInferBuilder(gLogger);
    // 2、创建一个netwok，推荐使用V2，这时候netWork只是一个空架子,因为是解析caffe模型，那后面的必须是0U
    // 别问我为啥，官方这么写的
    INetworkDefinition* network = builder->createNetworkV2(0U);
    // TensorRt提供了一个高级别的API，CaffePaser，用于解析caffe模型
    ICaffeParser *parser = createCaffeParser();
    const IBlobNameToTensor *blobNameToTensor = parser->parse("./model/caffeProfile/deploy_vgg16_places365.prototxt",
                                        "./model/caffeProfile/vgg_iter_100000.caffemodel",
                                        *network,
                                        DataType::kFLOAT);
    // 3、标记输入Tensor的节点名
    network->markOutput(*blobNameToTensor->find("prob"));

    //  config是用来填充network的参数
    IBuilderConfig *config = builder->createBuilderConfig();
    // 设置最大batchSize的大小
    builder->setMaxBatchSize(1);
    // 设置工作空间
    config->setMaxWorkspaceSize(1 << 20);
    // 4、建立 engine，进行层之间融合或者进度校准方式
    ICudaEngine *engine = builder->buildEngineWithConfig(*network, *config);

    if (1) // 如果需要离线保存模型
    {
        IHostMemory* trtModelStream{ nullptr };
        trtModelStream = engine->serialize();
        std::ofstream modeStreamoutfile(strTrtSavedPath, std::ofstream::binary);
        assert(!modeStreamoutfile.fail());
        modeStreamoutfile.write((char*)trtModelStream->data(), trtModelStream->size());
        gLogInfo<<"Saving TRT engine " << strTrtSavedPath << "." <<std::endl;
    }
    
    // inference推断过程
    IExecutionContext *context = engine->createExecutionContext();

   int nInputIdx = engine->getBindingIndex("data");
    int nOutputIndex = engine->getBindingIndex("prob");
    std::cout << " nINputIdx = " << nInputIdx << std::endl;
    std::cout << " nOutputIdx = " << nOutputIndex << std::endl;
    // 
    std::cout << " n = " << engine->getNbBindings() << std::endl;
    //申请GPU显存
    // Allocate GPU memory for Input / Output data
    void* buffers[2] = {NULL, NULL};
    int nBatchSize = 1;
    int nOutputSize = MODEL_OUTPUT_SIZE;
    CHECK(cudaMalloc(&buffers[nInputIdx], nBatchSize * MODEL_CHANNEL * MODEL_HEIGHT * MODEL_WIDTH * sizeof(float)));
    CHECK(cudaMalloc(&buffers[nOutputIndex], nBatchSize * nOutputSize * sizeof(float)));

    // 创建cuda流
    cudaStream_t stream;
    CHECK(cudaStreamCreate(&stream));
    cudaEvent_t start, end; //calculate run time
    CHECK(cudaEventCreate(&start));
    CHECK(cudaEventCreate(&end));

    cv::Mat matBgrImg = cv::imread("./data/fram_25.jpg");
    cv::Mat matNormImage;
    preData(matBgrImg, matNormImage); // 减均值除方差


    std::vector<std::vector<cv::Mat>> nChannels;
    std::vector<cv::Mat> rgbChannels(3);
    cv::split(matNormImage, rgbChannels);
    nChannels.push_back(rgbChannels); //  NHWC  转NCHW 

    void *data = malloc(nBatchSize * MODEL_CHANNEL * MODEL_HEIGHT * MODEL_WIDTH *sizeof(float));;
    if (NULL == data)
    {
        printf("malloc error!\n");
        return 0;
    }
    for (int c = 0; c < 3; ++c) 
    {
        cv::Mat cur_imag_plane = nChannels[0][c];
        memcpy(data + c * MODEL_HEIGHT * MODEL_WIDTH * sizeof(float), cur_imag_plane.ptr<unsigned char>(0), 256 *256 * sizeof(float));
    }

    // DMA input batch data to device, infer on the batch asynchronously, and DMA output back to host
    CHECK(cudaMemcpyAsync(buffers[nInputIdx], data, \
        nBatchSize * MODEL_CHANNEL * MODEL_WIDTH * MODEL_HEIGHT * sizeof(float), cudaMemcpyHostToDevice, stream));

    float ms;
    cudaEventRecord(start, stream);
    // 5、 启动cuda核计算
    context->enqueue(nBatchSize, buffers, stream, nullptr);
    cudaEventRecord(end, stream);
    cudaEventSynchronize(end);
    cudaEventElapsedTime(&ms, start, end);

    float prob[nBatchSize * nOutputSize];

    CHECK(cudaMemcpyAsync(prob, buffers[nOutputIndex], 1 * 5 * sizeof(float), cudaMemcpyDeviceToHost, stream));
    cudaStreamSynchronize(stream);
    cudaEventDestroy(start);
    cudaEventDestroy(end);

    // Release stream and buffers
    cudaStreamDestroy(stream);
    CHECK(cudaFree(buffers[nInputIdx]));
    CHECK(cudaFree(buffers[nOutputIndex]));

    for(int i=0; i< 5; ++i)
    {
        std::cout << prob[i] << " ";
    }
    std::cout << std::endl;
    
    parser->destroy();
    network->destroy();
    config->destroy();
    builder->destroy();
    printf("hello world \n");
    return 0;
}

二、反序列化直接加载保存后的trt模型

/*====================================================================
文件 ： sampleCaffeClassf.cc
功能 ： TensorRT学习系列1、走通流程

====================================================================*/
#include "NvCaffeParser.h"
#include "NvInfer.h"
#include "NvInferPlugin.h"
#include "logger.h"
#include "cuda_runtime_api.h"
#include "common.h"

#include <cstdlib>
#include <fstream>
#include <iostream>
#include <sstream>
#include <opencv2/opencv.hpp>

using namespace nvinfer1;
using namespace plugin;
using namespace nvcaffeparser1;

const int MODEL_HEIGHT = 256;
const int MODEL_WIDTH = 256;
const int MODEL_CHANNEL = 3;

const int MODEL_OUTPUT_SIZE = 5; //模型的输出，5分类

/**********************************
 * @brief 先resize、再减均值、除方差
 *
 * @param src 
 * @param dst 
 * @return 
 *********************************/
void preData(cv::Mat &matSrc, cv::Mat &matDst)
{   
    cv::resize(matSrc, matSrc, cv::Size(MODEL_WIDTH, MODEL_HEIGHT));
    cv::Mat matMean(MODEL_HEIGHT, MODEL_WIDTH, CV_32FC3, \
                        cv::Scalar(103.53f, 116.28f, 123.675f)); // 均值
    cv::Mat matStd(256, 256, CV_32FC3, \
                        cv::Scalar(1.0f, 1.0f, 1.0f)); // 方差
    cv::Mat matF32Img;
    matSrc.convertTo(matF32Img, CV_32FC3);
    matDst = (matF32Img - matMean) / matStd;
}

int main()
{
    std::string strTrtSavedPath = "./savedTrt.trt";
    // gLogger
    // gLogger是一个日志类，必须要有，但又不是那么重要，可以自己继承
    IRuntime* runtime = createInferRuntime(gLogger);
    std::ifstream fin(strTrtSavedPath);

    // 1、将文件中的内容读取至cached_engine字符串
    std::string modelData = "";
    while (fin.peek() != EOF){ // 使用fin.peek()防止文件读取时无限循环
        std::stringstream buffer;
        buffer << fin.rdbuf();
        modelData.append(buffer.str());
    }
    fin.close();

    // 2、 将序列化得到的结果进行反序列化，以执行后续的inference
    ICudaEngine* engine = runtime->deserializeCudaEngine(modelData.data(), modelData.size(), nullptr);
    // inference推断过程
    IExecutionContext *context = engine->createExecutionContext();

    int nInputIdx = engine->getBindingIndex("data"); // 输入节点名
    int nOutputIndex = engine->getBindingIndex("prob"); // 输出节点名
    std::cout << " nINputIdx = " << nInputIdx << std::endl;
    std::cout << " nOutputIdx = " << nOutputIndex << std::endl;
    // 
    std::cout << " n = " << engine->getNbBindings() << std::endl;
    //申请GPU显存
    // Allocate GPU memory for Input / Output data
    void* buffers[2] = {NULL, NULL};
    int nBatchSize = 1;
    int nOutputSize = MODEL_OUTPUT_SIZE;
    CHECK(cudaMalloc(&buffers[nInputIdx], nBatchSize * MODEL_CHANNEL * MODEL_HEIGHT * MODEL_WIDTH * sizeof(float)));
    CHECK(cudaMalloc(&buffers[nOutputIndex], nBatchSize * nOutputSize * sizeof(float)));

    // 创建cuda流
    cudaStream_t stream;
    CHECK(cudaStreamCreate(&stream));
    cudaEvent_t start, end; //calculate run time
    CHECK(cudaEventCreate(&start));
    CHECK(cudaEventCreate(&end));

    cv::Mat matBgrImg = cv::imread("./data/fram_25.jpg");
    cv::Mat matNormImage;
    preData(matBgrImg, matNormImage); // 减均值除方差


    std::vector<std::vector<cv::Mat>> nChannels;
    std::vector<cv::Mat> rgbChannels(3);
    cv::split(matNormImage, rgbChannels);
    nChannels.push_back(rgbChannels); //  NHWC  转NCHW 

    void *data = malloc(nBatchSize * MODEL_CHANNEL * MODEL_HEIGHT * MODEL_WIDTH *sizeof(float));;
    if (NULL == data)
    {
        printf("malloc error!\n");
        return 0;
    }
    for (int c = 0; c < 3; ++c) 
    {
        cv::Mat cur_imag_plane = nChannels[0][c];
        memcpy(data + c * MODEL_HEIGHT * MODEL_WIDTH * sizeof(float), cur_imag_plane.ptr<unsigned char>(0), 256 *256 * sizeof(float));
    }

    // DMA input batch data to device, infer on the batch asynchronously, and DMA output back to host
    CHECK(cudaMemcpyAsync(buffers[nInputIdx], data, \
        nBatchSize * MODEL_CHANNEL * MODEL_WIDTH * MODEL_HEIGHT * sizeof(float), cudaMemcpyHostToDevice, stream));

    float ms;
    cudaEventRecord(start, stream);
    // 5、 启动cuda核计算
    context->enqueue(nBatchSize, buffers, stream, nullptr);
    cudaEventRecord(end, stream);
    cudaEventSynchronize(end);
    cudaEventElapsedTime(&ms, start, end);

    float prob[nBatchSize * nOutputSize];

    CHECK(cudaMemcpyAsync(prob, buffers[nOutputIndex], 1 * 5 * sizeof(float), cudaMemcpyDeviceToHost, stream));
    cudaStreamSynchronize(stream);
    cudaEventDestroy(start);
    cudaEventDestroy(end);

    // Release stream and buffers
    cudaStreamDestroy(stream);
    CHECK(cudaFree(buffers[nInputIdx]));
    CHECK(cudaFree(buffers[nOutputIndex]));

    for(int i=0; i< 5; ++i)
    {
        std::cout << prob[i] << " ";
    }
    std::cout << std::endl;
    
    engine->destroy();
    printf("hello world \n");
    return 0;
}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

推理框架TensorRT

TensorRT(2):TensorRT的使用流程的相关文章

Warning: This development build of composer is over 60 days old

今天查看了一下服务器安装的Composer版本报了一个警告意思是安装已经超过60天了需要执行 usr bin composer self update 升级到最新版本然后我就执行了再次查看版本确实更新到官方最新的1 7 3版本但
PTA7(python3)

python程序设计07 字符串与正则表达式 7 1 找最后的字符 30 分 7 2 重要的事情说N遍 20 分 7 3 号码牌的制作 10 分 7 4 统计字符串中指定字符的个数 30 分 7 5 字符串消除空格 30 分 7 6 统计指
三分钟弄懂物联网流行协议——MQTT

MQTT Message Queue Telemetry Transport 翻译成中文就是遥测传输协议其主要提供了订阅发布两种消息模式更为简约轻量易于使用特别适合于受限环境带宽低网络延迟高网络通信不稳定的消息分发属
C++中vector迭代器失效问题及其解决方法

C 中vector迭代器失效问题及其解决方法迭代器的主要作用就是让算法能够不用关心底层数据结构其底层实际就是一个指针或者是对指针进行了封装比如 vector的迭代器就是原生态指针T 因此迭代器失效实际就是迭代器底层对应指针所指向的
php socket error 111,php中的socket_connect上的“连接被拒绝”错误

我试图将一些代码从perl转换为php Perl代码如下所示 my handle Connect port host 我试图使用socket在PHP中做同样的事情我试过socket create和socket connect socket
Windows(10/11)端vscode开发、调试远程Linux(Ubuntu14.04)端c++ 开发环境部署步骤

1 安装vscode 进入https code visualstudio com 即vsocde官网选择Windows x64版本下载并安装安装过程中推荐勾选往右键菜单添加通过vscode打开文件夹的选项 2 vsocde插件安装打开v
《影响力》第七章：稀缺

稀缺物以稀为贵稍纵即逝越是得不到就越觉得香这是为啥至于是不是真的香由于得不到也不得而知例如我有一个朋友觉得佐佐木希如果能娶来做老婆是很香的简直就是夫复何求然而这世上当真有人会把女神娶回家然后出轨还家暴这说来还真是让人
判断点是否在任意多边形内（java）

import java util ArrayList public class Test public static void main String args double px 113 0253 double py 23 98049 A
文心一言和讯飞星火全面对比测试：（三）常识问题

前文回顾在一语言理解能力测试中我们主要测试了两个大语言模型对复杂语义的理解对文章情绪的识别对文章进行摘要总结对文章进行要素提取测试结果表明在语言理解能力上除了有些问题他拒绝回答之外讯飞星火的表现明显要好于文心一言可以
函数和windows对象有惊喜✔

一函数函数的定义类似于Java中的方法是完成特定任务的代码语句块 1 系统函数 eval lt 表达式 gt 得到一个文本框的值表单例 var sname eval doucment form sname value parse
Java多线程导致CPU占用100%解决及线程池正确关闭方式

文章目录前言一 cpu占用高排查问题二解决办法使用AtomicLong 统计线程是否完成再执行executor submit 提交新的任务导队列中三多线程关闭与令牌限流前言情景 1000万表数据导入内存数据库按分页大小
超详细java web实验环境 (4) Eclipse配置Tomcat配置

目录一确保Tomcat服务器处于关闭状态二在Eclipse中配置Tomcat 三测试Tomcat是否配置完成四若出现异常一确保Tomcat服务器处于关闭状态二在Eclipse中配置Tomcat 1 打开Eclipse
C++类与对象：拷贝构造函数&浅拷贝

标题拷贝构造函数默认拷贝构造应用一用已存在的类类型对象创建新对象 1 类中不涉及资源管理可以使用默认拷贝构造函数 2 类中涉及资源管理应用二函数参数为类类型应用三函数返回值为类类型拷贝构造函数目的为了初始化新对象同
docker入门实践，实战搭建nginx续集，利用Dockerfile制作属于自己的镜像

前言在看这一篇之前可以先回顾一下使用现成的nginx镜像在搭建 https blog csdn net hl java article details 86232900 可以发现搭建成功后服务是可以访问的 http localhos
Android Studio汉化教程

先去AS的官网下载一个 AS官网 1 下载汉化包 AS汉化包下载地址 2 找到AS安装目录然后找到lib文件夹 lib文件夹里面有一个resources en的东东将该文件复制到桌面并改名为resources cn 然后用解压工具打开
QT之获取布局内容及删除布局

1 删除布局图1 QLayout p ui gt verticalLayout 7 gt itemAt 0 gt layout while p gt count QWidget pWidget p gt itemAt 0 gt widge
图像修复（Image Inpainting）任务中常用的掩码数据集

文章目录前言 mask数据集分类及介绍总结前言在 Image Inpainting 图像修复任务中需要使用掩码数据集在图像上人为添加缺陷区域以便在设计的深度学习上进行训练学习 mask数据集分类及介绍目前图像修复任务中最长用

随机推荐

@Transactional注解失效场景之——同类中方法调用，事务失效

文章目录一亲身案例二改进方式三原理分析该篇博客为总结自己曾写下的Bug 一亲身案例当时的场景为在controller层获取一笔交易单的信息前台传给controller层为Map类型的键值对然后controller层直
Mysql入门基本认识和工具安装

Mysql概念 DB 数据库 database 存储数据的仓库它保存了一系列有组织的数据数据库的特点将数据放在表中表再放到库中一个数据库中可以有多张表每个表都有一个名字用来标识自己表名具有唯一性表具有一些特性这些特性定义
MongoDB环境搭建

文章目录 MongoDB环境搭建 1 下载包 2 安装注意事项选择custom 设置自定义目录设置数据库数据存储路径 3 设置服务 MongoDB环境搭建 1 下载包 https www mongodb com download cen
android 阿拉伯语下的光标,android – EditText中的双光标,用于输入类型编号/电话(RTL阿拉伯语)...

我有一个EditText设置为重力右所以如果语言是阿拉伯语文本从右边开始注意我的应用程序支持RTL 我没有为EditText设置TextDirection 因为它会遇到同样的问题设置为Right的Gravity可以完美地完成工作
【LeetCode-面试经典150题-day25】

目录 530 二叉搜索树的最小绝对差 230 二叉搜索树中第K小的元素 98 验证二叉搜索树 530 二叉搜索树的最小绝对差题意给你一个二叉搜索树的根节点 root 返回树中任意两不同节点值之间的最小差值差值是一个正数其数值等于两
Conceptual Challenges for Interpretable Machine Learning

Conceptual Challenges for Interpretable Machine Learning David S Watson1 Department of Statistical Science University Co
C语言编程笔记丨数据结构-顺序线性表的实现（初始化、销毁、长度、查找、前驱、后继、插入、删除、显示操作）

define MAXSIZE 100 结构体定义 typedef struct int elem 基地址 int length 结构体当前长度 int listsize 结构体最大长度 Sqlist 结构体类型名各项操作 void Sho
Spring Boot通过EasyExcel异步多线程实现大数据量Excel导入,百万数据30秒

原创小光xgblack IT小胡同 2023 02 19 12 24 发表于江苏整体思路整体思路很简单就是在文件读取和数据多线程处理这两步发力 Excel数据分片读取线程池异步处理数据 Mybatis Plus批量存储实现过程
【目标检测—玩手机检测数据集】

目标检测玩手机检测数据集数据集示例标签可视化其他相关资源 1 YOLO玩手机检测数据集二近一万多张使用lableimg标注软件标注好的真实场景的高质量图片数据图片格式为jpg 标签有两种分别为VOC格式和yolo格式分别保
第二章：25+ Python 数据操作教程（第一节Python 中的数据结构）

这篇文章解释了 Python 中使用的数据结构了解编程语言中的数据结构至关重要在 Python 中有许多可用的数据结构它们如下 1 字符串 2 列出 3 元组 4 词典 5 套目录 1 字符串 2 列表 3 元组 4 字典 5 套
Java-Redis缓存穿透，击穿，雪崩和布隆算法

Java Redis缓存穿透击穿雪崩和布隆算法 1 缓存穿透概念 2 如何解决缓存穿透 3 什么是缓存击穿 4 什么是缓存雪崩 5 导致缓存雪崩的原因 6 缓存穿透缓存击穿缓存雪崩的区别 1 缓存穿透概念当一个用户想要查询数据时
LRU算法java实现

1 lru简介 LRU是Least Recently Used的缩写即最近最少使用常用于页面置换算法是为虚拟页式存储管理服务的即当一个数据最近一段时间没有被访问未来被访问的概率也很小当空间被占满后最先淘汰最近最少使用的数据 2
Android动态来改变App桌面图标

时不时的我们就会发现一些我们常见的应用比如某宝某东在一些特殊的日子中比如双十一元旦为了迎合这样一个日子的气氛在桌面的应用图标就会发生改变其实对于这样的一个桌面图标更换 Android中为我们提供了AndroidManife
spring data jpa 关联查询返回自定义对象

Override public List
Linux性能检测常用的10个基本命令

1 uptime 该命令可以大致的看出计算机的整体负载情况 load average后的数字分别表示计算机在1min 5min 15min内的平均负载 2 dmesg tail 打印内核环形缓存区中的内容可以用来查看一些错误上面的例子中
vue3组件库搭建并且发布到npm保姆教程连载一

前言小时候的梦想是拥有一个自己的组件库开玩笑哈接触前端后很多时候在npm install的时候我在想我们安装的这些依赖发布者是如何将依赖发布到npm 并且可以让别人使用的未知是让人害怕的经过一系列学习和探索后我也拥有了自己的
【python数据挖掘课程】二十六.基于SnowNLP的豆瓣评论情感分析

这是 Python数据挖掘课程系列文章前面很多文章都讲解了分类聚类算法而这篇文章主要讲解如何调用SnowNLP库实现情感分析处理的对象是豆瓣肖申克救赎的评论文本文章比较基础希望对你有所帮助提供些思路也是自己教学的内容
全国青少年电子信息智能创新大赛(决赛)python·模拟三卷，含答案解析

全国青少年电子信息智能创新大赛决赛 python 模拟三卷一程序题第一题描述现有 n 个人依次围成一圈玩游戏从第 1 个人开始报数数到第 m 个人出局然后从出局的下一个人开始报数数到第 m 个人又出局如此反复到只剩下
Google分布式三篇论文---BigTable

Google s BigTable 原理翻译题记 google 的成功除了一个个出色的创意外还因为有 Jeff Dean 这样的软件架构天才官方的 Google Reader blog 中有对BigTable 的解释这是Googl
TensorRT(2):TensorRT的使用流程

TensorRT系列传送门不定期更新深度框架 TensorRT 文章目录一在线加载caffe模型序列化保存到本地二反序列化直接加载保存后的trt模型以caffe分类模型为例简单介绍TRT的使用流程这里不涉及量化就以fp