深度学习编译中间件TVM之编译&安装

2023-11-16

参考文档

  1. mxnet官方install手册
  2. TVM 0.4.0官方安装指导手册
  3. LLVM下载地址
  4. Debian/Ubuntu Linux下安装LLVM/Clang编译器

开发环境介绍

  1. 操作系统版本:Ubuntu16.04 LTS 64-bit,编译TVM的host、target版本;
  2. 目标器件为Firefly-RK3399,采用双核Cortex-A72和四核Cortex-A53的大小核架构。
  3. MXNet版本: v1.2.1
  4. LLVM版本: v6.0
  5. TVM版本: v0.4.0
  6. 交叉编译工具链版本:gcc-linaro-aarch64-linux-gnu-4.9-2014.09_linux

TVM编译、安装和测试顺序

TVM按照以下顺序来进行编译、安装:

  1. 编译MXNet(host版本,暂时以GPU模式安装)
  2. 安装LLVM
  3. 编译TVM(host版本)
  4. 交叉编译环境搭建
  5. 编译TVM runtime(target版本)

编译MXNet(host版本)

因为我们暂时测试的TVM前端模型是MXNet模型,所以进行编译模型之前要先安装host版本的MXNet。这里我们最简单的通过python-pip的方式进行安装。

更新python和pip
sudo apt-get update
sudo apt-get install -y wget python gcc
wget https://bootstrap.pypa.io/get-pip.py && sudo python get-pip.py
安装MXNet

安裝GPU版本(主机采用Nvidia的GTX1060)的MXNet时,需要提前安装好Nvidia库来驱动GPU。主要包括CUDA9.0(安装教程)和cuDNN(安装教程)两部分。

运行下面命令即可查看CUDA和cuDNN是否已经安装,以及对应版本号。

nvidia-smi
nvcc --version

这里写图片描述
这里写图片描述

安装对应CUDA版本的MXNet
pip install mxnet-cu90
# 可选项,安装graphviz,为使用mxnet.viz包进行图形可视化所需。  
apt-get install graphviz  
pip install graphviz  
# 可选项,安装Intel MKL
pip install mxnet-cu90mkl
验证安装是否成功安装
python
# 进入python运行空间,然后输入以下python代码进行验证
>>> import mxnet as mx
>>> a = mx.nd.ones((2, 3)), mx.gpu())
>>> b = a * 2 + 1
>>> b.asnumpy()
array([[ 3.,  3.,  3.],
       [ 3.,  3.,  3.]], dtype=float32)
# 如果上述代码执行正确则表示MXNet host版本已经正确安装
>>> exit()

安装LLVM

如下图所示TVM对于ARM后端的支持是基于LLVM编译器实现的,TVM对于的LLVM版本的最低要求为4.0,最高版本不能超过6.0。本次安装LLVM版本6.0。

这里写图片描述

添加LLVM相关的apt-get源

第一步,首先编辑 /etc/apt/sources.list,加入以下源:

deb http://apt.llvm.org/xenial/ llvm-toolchain-xenial-6.0 main
deb-src http://apt.llvm.org/xenial/ llvm-toolchain-xenial-6.0 main     

添加源后务必运行apt-get update,如果有错误提示,先运行第二步,然后apt-get update)

这里写图片描述

第二步,安装前必须取得相关证书

wget -O - http://llvm.org/apt/llvm-snapshot.gpg.key|sudo apt-key add -
安装llvm
apt-get install clang-6.0 lldb-6.0

显示如下即安装成功

这里写图片描述

上面的脚本只适用于Ubuntu16.04添加LLVM 6.0,如果你使用的是其他的操作系统和LLVM版本可以参考这里

编译TVM(host版本)

安装cmake

由于TVM 0.4.0版本首次采用cmake作为编译配置工具,需要安装cmake。

cd /opt/software/
wget https://cmake.org/files/v3.11/cmake-3.11.0-rc2-Linux-x86_64.tar.gz
tar zxvf cmake-3.11.0-rc2-Linux-x86_64.tar.gz
ln -sf /opt/software/cmake-3.11.0-rc2-Linux-x86_64/bin/*  /usr/bin/ 
下载TVM
# git命令中选项recursive表示要将项目全部文件都下载,包括子模块。
git clone --recursive https://github.com/dmlc/tvm/
apt-get update
apt-get install -y python python-dev python-setuptools gcc libtinfo-dev zlib1g-dev
配置LLVM选项

在运行cmake-gui命令之前,修改tvm/CMakeLists.txt内容

# 显示执行构建过程中详细的信息,如编译工具选择,有助于区分系统编译工具和交叉编译工具
set(CMAKE_VERBOSE_MAKEFILE ON)
# llvm-config路径为/usr/bin/llvm-config-6.0
tvm_option(USE_LLVM "Build with LLVM, can be set to specific llvm-config path" /usr/bin/llvm-config-6.0)

修改tvm/cmake/config.cmake

# 文件默认为set(USE_LLVM OFF)
set(USE_LLVM /usr/bin/llvm-config-6.0)
编译TVM

完成上述修改后,执行如下命令进行编译选项配置:

cd tvm
mkdir build
cd tvm/build
cmake-gui

这里写图片描述

make -j4

如果编译正常完成之后,会在tvm的lib目录下面生成一些库文件。

  • libnnvm_compiler.so
  • libtvm_runtime.so
  • libtvm.so
  • libtvm_topi.so
设置PYTHONPATH环境变量

在安装之前先在/etc/bash.bashrc中设置PYTHONPATH环境变量

export PYTHONPATH=/opt/compile/BoxV3/tvm_host/tvm/python:/opt/compile/BoxV3/tvm_host/tvm/topi/python:/opt/compile/BoxV3/tvm_host/tvm/nnvm/python:${PYTHONPATH}

重启命令行以重新加载PYTHONPATH

若不设置PYTHONPATH环境变量,每次修改TVM的python源码均需要通过以下命令更新源码:

cd tvm
cd python; python setup.py install; cd ..
cd topi/python; python setup.py install; cd ../..
cd nnvm/python; python setup.py install; cd ../..
修改TVM Python源代码

在安装Python包之前为了交叉编译模型需要修改TVM Python源代码

针对ARM编译器选项和芯片型号修改

armv7与armv8交叉编译采用不同架构的交叉编译工具链,arv8自带neon寄存器支持,不需要在源码中添加。

  • tvm/python/tvm/target.py

针对armv8目标器件进行修改:

def rasp(options=None):
    """Returns a rasp target.

    Parameters
    ----------
    options : str or list of str
        Additional options
    """
    opts = ["-device=rasp",
            "-mtriple=aarch64-linux-gnu",
            "-mcpu=cortex-a57"]
    opts = _merge_opts(opts, options)
    return _api_internal._TargetCreate("llvm", *opts)

针对armv7目标器件进行修改:

def rasp(options=None):
    """Returns a rasp target.

    Parameters
    ----------
    options : list of str
        Additional options
    """
    opts = ["-device=rasp",
            "-mtriple=arm-linux-gnueabihf",
            "-mcpu=cortex-a7",
            "-mattr=+neon"]
    opts = _merge_opts(opts, options)
    return _api_internal._TargetCreate("llvm", opts)

以下修改仅展示对armv8目标器件的修改内容,armv7器件在相同文件对应位置进行修改,替换为armv7的交叉工具链即可。

  • tvm/python/tvm/contrib/cc.py
def create_shared(output,
                  objects,
                  options=None,
                  cc="aarch64-linux-gnu-g++"):

def _linux_shared(output, objects, options, cc="aarch64-linux-gnu-g++"):
  • tvm/src/codegen/build_module.cc
    注意:在测试时build_module.cc在vscode中未打开时无法搜索关键字来进行修改。
Target rasp(const std::vector<std::string>& options) {
  return CreateTarget("llvm", MergeOptions(options, {
    "-device=rasp",
    "-mtriple=aarch64-linux-gnu",
    "-mcpu=cortex-a57"
  }));
}
  • tvm/tests/python/unittest/test_codegen_arm.py
def test_popcount():
    target = 'llvm -target=aarch64-linux-gnu -mcpu=cortex-a57'
  • tvm/tutorials/nnvm_quick_start.py
if use_rasp:
    target = "llvm -target=aarch64-linux-gnu -mcpu=cortex-a57"
  • tvm/nnvm/python/nnvm/frontend/mxnet.py
#第33行int改为long
def _parse_tshape(tshape):
    """Parse tshape in string."""
    return [long(x.strip()) for x in tshape.strip('()').split(',')]

编译安装TVM runtime(target版本)

交叉编译环境搭建

本文档目标器件为Firefly-RK3399(Cortex-A72+Cortex-A53,ARMv8架构),其他架构器件通常更换交叉编译链即可。

软件环境
  • 交叉工具链:gcc-linaro-aarch64-linux-gnu-4.9-2014.09_linux
设置本地编译链和交叉编译链

在/etc/bash.bashrc中设置本地编译链和交叉编译链,重启命令行使设置生效

# Native Compiler
export AR_host="ar"
export CC_host="gcc"
export CXX_host="g++"
export LINK_host="g++"

#ARMv8 cross compiler
export ARCH=arm
export PATH=/opt/toolchain/gcc-linaro-aarch64-linux-gnu-4.9-2014.09_linux/bin:$PATH
export CROSS_COMPILE=aarch64-linux-gnu-             
export CC=/opt/toolchain/gcc-linaro-aarch64-linux-gnu-4.9-2014.09_linux/bin/aarch64-linux-gnu-gcc
export CXX=/opt/toolchain/gcc-linaro-aarch64-linux-gnu-4.9-2014.09_linux/bin/aarch64-linux-gnu-g++    
export LD=/opt/toolchain/gcc-linaro-aarch64-linux-gnu-4.9-2014.09_linux/bin/aarch64-linux-gnu-ld
export AR=/opt/toolchain/gcc-linaro-aarch64-linux-gnu-4.9-2014.09_linux/bin/aarch64-linux-gnu-ar
export AS=/opt/toolchain/gcc-linaro-aarch64-linux-gnu-4.9-2014.09_linux/bin/aarch64-linux-gnu-as
export RANLIB=/opt/toolchain/gcc-linaro-aarch64-linux-gnu-4.9-2014.09_linux/bin/aarch64-linux-gnu-ranlib

通过命令echo $CC查看aarch64-linux-gnu-gcc交叉编译工具是否生效

root@parking:/opt/compile/PC/tvm_0.4.0_armv8/tvm/build# echo $CC
/opt/toolchain/gcc-linaro-aarch64-linux-gnu-4.9-2014.09_linux/bin/aarch64-linux-gnu-gcc

重新复制一份TVM到另外的文件夹,保证不和TVM的host版本冲突,执行命令清除host编译工具生成的libtvm_runtime.so文件和cmake编译配置。

cd tvm
make clean
rm -r build/*

由于TVM runtime不需要LLVM,根据前面“配置LLVM选项”部分,屏蔽掉LLVM选项。

  • tvm/CMakeLists.txt
# llvm-config路径为/usr/bin/llvm-config-6.0
tvm_option(USE_LLVM "Build with LLVM, can be set to specific llvm-config path" OFF)
  • tvm/cmake/config.cmake
set(USE_LLVM OFF)

再次执行cmake-gui进行编译配置,选择”Specify options for cross-compiling”

这里写图片描述

其中,C/C++对应选择交叉编译工具链中的工具,Target Root目录如下:
/opt/toolchain/gcc-linaro-aarch64-linux-gnu-4.9-2014.09_linux/aarch64-linux-gnu/libc

make runtime

编译成功后build文件夹会生成libtvm_runtime.so

这里编译的tvm_runtime运行时库是最终需要部署到嵌入式设备中的,和TVM模型编译无关。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

深度学习编译中间件TVM之编译&安装 的相关文章

  • ARM架构中不同处理器模式下如何使用内核堆栈?

    据我了解 每个进程都有一个用户堆栈和内核堆栈 除此之外 ARM 架构中的每种模式都有一个堆栈 所以我想知道不同的堆栈和堆栈指针在 ARM 模式下如何工作 另外 何时会使用与进程关联的内核堆栈 何时会使用与进程关联的内核堆栈 当您进行系统调用
  • RAM 存储二进制数和汇编语言的冒泡排序

    我必须使用 ARM v7 执行一个例程 在 RAM 内存中存储 10 个二进制数 然后使用冒泡排序对这些数字从高到低进行排序 我应该如何开始 func bubbleSortAscendingU32 ldr r3 r0 4 mov r1 9
  • 可以使用Visual Studio 2012构建ARM桌面程序吗?

    我正在使用 Visual Studio 2012 beta 我的桌面 win32 程序在 ARM 架构中编译得很好 升级到 Visual Studio 2012 RC 后 编译器无法工作并出现以下错误 不支持为 ARM 平台编译桌面应用程序
  • 如何在 Android 设备上运行 VS Code [重复]

    这个问题在这里已经有答案了 我有 Galaxy Tab S6 它具有替代笔记本电脑的很酷的功能 例如连接鼠标和键盘 但不幸的是它运行 Android 操作系统 并且没有很多开发应用程序可用于 Android 所以我想是否有一个选项可以在至少
  • arm-thumb指令集的blx指令如何支持4MB范围

    读自https www keil com support man docs armasm armasm dom1361289866046 htm https www keil com support man docs armasm arma
  • ARM 调用约定是否允许函数不将 LR 存储到堆栈中?

    正如标题所示 我在理解 ARM 架构的调用约定时遇到问题 特别是 我仍然很难知道当你调用子程序时 LR 寄存器会发生什么 我认为 当您进入子程序时 处理 LR 寄存器的最明显 最安全的方法是将其存储到堆栈中 但该行为没有出现在文档中 因此我
  • 为什么 i2c_smbus 函数不可用? (I2C——嵌入式Linux)

    有很多参考使用i2c smbus 开发嵌入式 Linux 软件时在 I2C 总线上进行通信的函数 什么时候i2c smbus函数如i2c smbus read word data在软件项目中引用了 ARM8 处理器错误 例如 i2c smb
  • 产生并处理软件中断

    有人可以告诉我如何在Linux下生成软件中断然后用request irq处理它吗 或者也许这是不可能的 您可以使用软中断来代替 您可以通过编辑 include linux interrupt h 来定义您的 sofirq 然后使用函数 ra
  • 了解 ctags 文件格式

    我使用 Exhuberant ctags 来索引我的 c 项目中的所有标签 c project 是 Cortex M7 微控制器的嵌入式软件 结果是一个标签文件 我正在尝试阅读该文件并理解所写的内容 根据我找到的 ctags 和 Exhub
  • 是否可以将 SpaCy 安装到 Raspberry Pi 4 Raspbian Buster

    我一整天都在安装 SpaCy sudo pip install U spacy Looking in indexes https pypi org simple https www piwheels org simple Collectin
  • 为什么当大小大于 50 时,该程序花费的时间会呈指数级增长?

    所以我正在为类编写一个 ARM 汇编快速排序方法 我对大部分内容都有了解 除了复杂性没有意义 我们将其与我们制作的另一种冒泡排序方法进行比较 它对于具有 1 个参数和 10 个参数的示例表现更好 然而 我什至无法比较 100 个参数测试 因
  • Qemu flash 启动不起作用

    我有一本相当旧的 2009 年出版 嵌入式 ARM Linux 书 其中使用u boot and qemu 的用法qemu与u boot书中对二进制的解释如下 qemu system arm M connex pflash u boot b
  • 使用 NEON 内在函数除以浮点数

    我当时正在处理四个像素的图像 这是在armv7对于 Android 应用程序 我想分一个float32x4 t向量由另一个向量组成 但其中的数字与大约不同0 7 to 3 85 在我看来 除法的唯一方法是使用右移 但这是针对一个数字2 n
  • 如何模拟ARM处理器运行环境并加载Linux内核模块?

    我尝试加载我的vmlinux into gdb并使用 ARM 内核模拟器 但我不明白为什么我会得到Undefined target command sim 这是外壳输出 arm eabi gdb vmlinux GNU gdb GDB 7
  • 什么是遗留中断?

    我正在开发一个项目 试图弄清楚 ARM 架构的全局中断控制器中如何处理中断 我正在使用 pl390 中断控制器 我看到有一条线被称为传统中断 它绕过了分配器逻辑 假设有 2 个中断可以被编程为传统中断 任何人都可以帮助解释一下什么是遗留中断
  • 需要一些建议来开始在 ARM(使用 Linux)平台上编程

    我 也许 很快就会在托管 Linux 发行版的 ARM 平台上工作 我不知道哪个发行版 我知道该项目涉及视频流 但我无法告诉你更多信息 其实我只收到通知 还没见到任何人 我从来没有在这样的平台上工作过 所以我的想法是在项目开始之前进行测试
  • 可以对 Xcode 中的 Arm 架构设置进行一些澄清

    据我了解 iPhone 5将采用新的架构 armv7s 我的项目具有有效的架构armv7 并且有Build Active Architecture Only set to true 由于现在商店中的每个应用程序都是为armv6 and or
  • LDR指令如何将常量加载到寄存器中?

    我刚刚读了一本ARM指令书 看到一条指令我无法解释 It says LDR将 32 位常量加载到r0登记 LDR r0 pc const number 8 pc const number DCD 0xff00ffff 我不明白什么 pc c
  • 在LPC2148 ARM处理器上创建中断向量的汇编代码

    我最近刚刚开始使用 LPC2148 ARM 处理器 我试图理解一些有关创建中断向量的汇编代码 这是代码 Runtime Interrupt Vectors Vectors b start reset start ldr pc undf un
  • Linux 内核使用的设备树文件 (dtb) 可视化工具? [关闭]

    Closed 这个问题正在寻求书籍 工具 软件库等的推荐 不满足堆栈溢出指南 help closed questions 目前不接受答案 我正在寻找一个可以图形化表示Linux内核中使用的硬件设备树的工具 我正在尝试了解特定 Arm 芯片组

随机推荐

  • 什么是多阶段 Docker 镜像?

    介绍 让我们从基础开始 码头工人 这是一个很棒的工具 可以让您在这些简洁的小容器中创建 部署和运行应用程序 将它们想象成微型虚拟机 但只有足够的资源来运行您的应用程序 这太棒了 因为这意味着您可以在任何平台上运行您的应用程序 从笔记本电脑到
  • Raneto

    Raneto Raneto是一个采用Node js开发的免费开源知识库平台 它使用Markdown文件来存储知识库 Raneto也可以叫作一个 静态网站生成器 因为它不需要数据库 你的所有内容都存储在 Markdown md 文件中 整个知
  • Vue2 +Element-ui实现前端页面

    1 页面项目 以一个简单的前端页面为例 主要是利用vue和element ui实现 里面涉及的主要包括 新建vue项目 一行多个输入框 页面实现等 2 项目流程 1 新建项目 首先安装nodejs 这部分在此就不讲啦 然后安装vue cli
  • 关于BIO、AIO、NIO的 区别于联系

    目录 IO BIO NIO AIO 区别及联系 各自适用场景 使用方式 IO 什么是IO 它是指计算机与外部世界或者一个程序与计算机的其余部分的之间的接口 它对于任何计算机系统都非常关键 因而所有 I O 的主体实际上是内置在操作系统中的
  • 深度学习——贝叶斯神经网络

    文章目录 前言 什么是贝叶斯神经网络 How to train BNN BNN背后的数学原理 pytorch实现BNN 参考文献 前言 本文将总结贝叶斯神经网络 首先 我将简单介绍一下什么是贝叶斯神经网络 BNN 接着我将介绍BNN是怎么训
  • Orcad Captue原理图更改后同步更新到Allegro PCB

    Cadence软件的原理图和PCB是两个软件 原理图到PCB需要创建网表 然后在PCB中放置已经建好分封装的元器件 如果对于已经画好的PCB 后期发现需要更改原理图的某个部分 原理图更改后 怎么同步更新到PCB中 而不变动原来已经布好局 布
  • MySQL备份及恢复

    目录 MySQL备份 MySQL备份方法 备份策略 mysql的完全备份 mysql的增量备份 MySQL恢复 mysql完全恢复 mysql增量备份的恢复 MySQL备份 MySQL备份是基于对MySQL的日志进行备份 且恢复也是通过日志
  • Multispectral Pedestrian Detection using Deep Fusion Convolutional Neural Networks (深度学习多光谱行人检测综述)

    Now salient detection methods most of current pedestrian detectors explored color images of good lighting and they are v
  • 基于Arduino的双向交通灯系统

    学 号 231 姓 名 福福 指导教师 赵志鹏 年 7 月 2 日 实训题目 交通灯系统 1 系统设计 设计要求 设计任务 设计基于Arduino的双向交通灯系统 实现控制和方向显示功能 性能指标要求 1 基本要求 1 按照题目要求独立完成
  • 动态显示带图片列表【Android】

    一 功能描述 1 动态获取服务器端商品信息显示 2 动态加载服务器端图片显示 二 技术点 ListView BaseAdapter JSON数据解析 Handler Thread HttpUrlConnection AsyncTask Ht
  • unity 字体 素材_教程篇

    Unity异步加载 在使用Unity引擎开发项目时 很多时候需要用到异步加载场景或资源 如需打开一个非常大的场景时需要等待 两个场景之间的一个过渡 游戏关卡的加载等等 通过添加一个进度条的方式可以很好的增强用户体验 并让用户了解场景的加载进
  • 【DevOps】Centos 7.9 安装、部署与使用 k8s集群(v1.21.3)

    卸载 k8s集群 1 平滑移除 Node kubectl get node kubectl cordon node name 不可调度 kubectl drain node name 驱逐资源 kubectl delete node nam
  • 【Python_requests学习笔记(一)】基于requests和re模块,爬取百度图片

    基于requests和re模块 爬取百度图片 前言 此篇文章中介绍requests的基本用法 和基于requests和re模块 爬取百度图片的案例 正文 1 requests模块 1 1 requests模块介绍 requests模块 类似
  • 看书标记【统计学习理论与方法】1

    第一章 概率论基础 在R中 分布函数名为func 则形如dfunc的函数就提供了相应的概率分布函数 dfunc x p1 p2 形如pfunc的函数提供了相应的累积分布函数 pfunc q p1 p2 分位数函数 p为由概率构成的向量 qf
  • go 首字母大写,代表对外部可见,首字母小写代表对外部不可见,适用于所有对象,包括函数、方法

    go中根据首字母的大小写来确定可以访问的权限 无论是方法名 常量 变量名还是结构体的名称 如果首字母大写 则可以被其他的包访问 如果首字母小写 则只能在本包中使用 可以粗暴的理解为首字母大写是公有的 首字母小写是私有的
  • yolov5车辆识别、目标检测教程

    车辆识别视频 yolov5车辆识别视频 车牌识别视频 订阅专栏获得源码 我们首先介绍一下最原始的YOLO模型 然后简要介绍一下YOLOv5版本的改进 主要通过具体的例子一起看看怎么把YOLOv5模型用好 YOLOv1的网络结构并没有什么特别
  • Nacos启动出现Error creating bean with name ‘memoryMonitor‘ 、‘externalDumpService‘

    目录 问题 解决方法 这里是CS大白话专场 让枯燥的学习变得有趣 没有对象不要怕 我们new一个出来 每天对ta说不尽情话 好记性不如烂键盘 自己总结不如收藏别人 问题 用KubeSphere创建Nacos时出现Error creating
  • CSAPP Lab5- MallocLab

    实验目标 本实验需要用c语言实现一个动态的存储分配器 也就是你自己版本的malloc free realloc函数 实验步骤 tar xvf malloclab handout tar解压文件 我们需要修改的唯一文件是mm c 包含如下几个
  • 信息收集之 端口扫描

    作者主页 士别三日wyx 作者简介 CSDN top100 阿里云博客专家 华为云享专家 网络安全领域优质创作者 专栏简介 此文章已录入专栏 网络安全快速入门 为什么要扫描端口 知道主机开放了哪些端口 就可以推断出端口所对应的服务 从而根据
  • 深度学习编译中间件TVM之编译&安装

    参考文档 mxnet官方install手册 TVM 0 4 0官方安装指导手册 LLVM下载地址 Debian Ubuntu Linux下安装LLVM Clang编译器 开发环境介绍 操作系统版本 Ubuntu16 04 LTS 64 bi