PyTorch中torchvision介绍

2023-10-27

TorchVision包包含流行的数据集、模型架构和用于计算机视觉的图像转换，它是PyTorch项目的一部分。TorchVison最新发布版本为v0.11.1，发布较频繁，它的license为BSD-3-Clause。它的源码位于：
https://github.com/pytorch/vision

TorchVision由C++(CUDA)和Python3实现，依赖Torch、PNG、JPEG，还依赖PIL(Pillow, Python Imaging Library)。推荐使用Anaconda安装，安装时注意对Python和Torch有版本要求。对应TorchVison 0.11.1，Torch版本要求为1.10.0，Python要求为[3.6, 3.9]。通过Anaconda安装TorchVison 0.11.1执行如下命令：

conda create -n torchvision_0.11.1 python=3.8
conda activate torchvision_0.11.1
conda install torchvision==0.11.1 -c pytorch

TorchVision也对外提供C++接口，通过CMakeLists.txt生成动态库。

TorchVision功能：

(1).torchvision.datasets包支持下载/加载的数据集有几十种，如CIFAR、COCO、MNIST等，所有的数据集都有相似的API加载方式。每种数据集在datasets包中都对应一个.py文件，如CIFAR对应有cifar.py。

(2).torchvision.io包提供执行IO操作函数，用于读写视频和图像。

(3).torchvision.models包提供各种模型定义，包括图像分类如AlexNet、VGG等；对象检测如Faster R-CNN、Mask R-CNN等；分割、关键点检测等。

(4).torchvision.ops包实现特定于计算机视觉的操作，如RoI(Region of Interest) Align、RoI(Region of Interest) Pool等。

(5).torchvision.transforms包实现图像变换。大多数转换同时接受PIL图像和tensor图像，尽管有些转换仅适用于PIL，有些则仅适用于tensor。接受tensor图像的转换也接受批量的tensor图像。tensor图像是具有(C, H, W)形状的tensor，其中C是通道数，H和W是图像的高度和宽度。批量tensor图像是一个(B, C, H, W)形状的tensor，其中B是一批图像的数量。tensor图像的预期范围由tensor dtype隐式定义。具有float dtype的tensor图像的值应为[0, 1)。具有整数dtype的tensor图像应具有[0, MAX_DTYPE]，其中MAX_DTYPE是该dtype中可以表示的最大值。

以下为测试代码：

from torchvision import datasets
from torchvision import io
from torchvision import models
from torchvision import ops
from torchvision import transforms

import torch

# 下载MNIST数据集: torchvision.datasets包
test = datasets.MNIST("../../data", train=False, download=True)
train = datasets.MNIST("../../data", train=True, download=False)
print(f"raw_folder: test: {test.raw_folder}, train: {train.raw_folder}")
print(f"processed_folder: test: {test.processed_folder}, train: {train.processed_folder}")
print(f"extra_repr:\ntest: {test.extra_repr}\ntrain: {train.extra_repr}")
print(f"class to index: {test.class_to_idx}")

# 读写图像: torchvision.io包
tensor = io.read_image("../../data/image/1.jpg")
print("tensor shape:", tensor.shape)
io.write_png(tensor, "../../data/image/result.png")

tensor = io.read_image("../../data/image/lena.png")
print("tensor shape:", tensor.shape)
io.write_jpeg(tensor, "../../data/image/result.jpg")

# 下载pre-trained AlexNet模型: torchvision.models包
net = models.alexnet(pretrained=True)

# 计算机视觉操作: torchvision.ops包
boxes = torch.tensor([[1, 1, 101, 101], [3, 5, 13, 15], [2, 4, 22, 44]])
area = ops.box_area(boxes)
print(f"area: {area}")

index = ops.remove_small_boxes(boxes, min_size=20)
print(f"index: {index}")

# 图像变换: torchvision.transforms包
resize = transforms.Resize(size=[256, 128])
img = resize.forward(tensor)
io.write_jpeg(img, "../../data/image/resize.jpg")

grayscale = transforms.Grayscale()
img2 = grayscale.forward(img)
io.write_jpeg(img2, "../../data/image/gray.jpg")

affine = transforms.RandomAffine(degrees=35)
img3 = affine.forward(tensor)
io.write_jpeg(img3, "../../data/image/affine.jpg")

crop = transforms.CenterCrop(size=[128, 128])
img4 = crop.forward(tensor)
io.write_jpeg(img4, "../../data/image/crop.jpg")

GitHub：https://github.com/fengbingchun/PyTorch_Test

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Pytorch

torchvision

PyTorch中torchvision介绍的相关文章

在 PyTorch 中原生测量多类分类的 F1 分数

我正在尝试在 PyTorch 中本地实现宏 F1 分数 F measure 而不是使用已经广泛使用的sklearn metrics f1 score https scikit learn org stable modules generat
如何在pytorch中查看DataLoader中的数据

我在 Github 上的示例中看到类似以下内容如何查看该数据的类型形状和其他属性 train data MyDataset int 1e3 length 50 train iterator DataLoader train data b
下载变压器模型以供离线使用

我有一个训练有素的 Transformer NER 模型我想在未连接到互联网的机器上使用它加载此类模型时当前会将缓存文件下载到 cache 文件夹要离线加载并运行模型需要将 cache 文件夹中的文件复制到离线机器上然而这些文
pytorch 中的 keras.layers.Masking 相当于什么？

我有时间序列序列我需要通过将零填充到矩阵中并在 keras 中使用 keras layers Masking 来将序列的长度固定为一个数字我可以忽略这些填充的零以进行进一步的计算我想知道它怎么可能在 Pytorch 中完成要么我需要
torch.stack() 和 torch.cat() 函数有什么区别？

OpenAI 的强化学习 REINFORCE 和 actor critic 示例具有以下代码加强 https github com pytorch examples blob master reinforcement learning r
pytorch 的 IDE 自动完成

我正在使用 Visual Studio 代码最近尝试了风筝这两者似乎都没有 pytorch 的自动完成功能这些工具可以吗如果没有有人可以推荐一个可以的编辑器吗谢谢你使用Pycharmhttps www jetbrains co
预期设备类型为 cuda 的对象，但在 Pytorch 中获得了设备类型 cpu

我有以下计算损失函数的代码 class MSE loss nn Module metric L1 L2 norms or cosine similarity mode training or evaluation mode def init
PyTorch 中的交叉熵

交叉熵公式但为什么下面给出loss 0 7437代替loss 0 since 1 log 1 0 import torch import torch nn as nn from torch autograd import Variable
如何使用 pytorch 同时迭代两个数据加载器？

我正在尝试实现一个接收两张图像的暹罗网络我加载这些图像并创建两个单独的数据加载器在我的循环中我想同时遍历两个数据加载器以便我可以在两个图像上训练网络 for i data in enumerate zip dataloaders1
样本（）和r样本（）有什么区别？

当我从 PyTorch 中的发行版中采样时两者sample and rsample似乎给出了类似的结果 import torch seaborn as sns x torch distributions Normal torch tens
PyTorch：如何批量进行推理（并行推理）

如何在PyTorch中批量进行推理如何并行进行推理以加快这部分代码的速度我从进行推理的标准方法开始 with torch no grad for inputs labels in dataloader predict inputs in
BertForSequenceClassification 是否在 CLS 向量上进行分类？

我正在使用抱脸变压器 https huggingface co transformers index html使用 PyTorch 打包和 BERT 我正在尝试进行 4 向情感分类并正在使用BertFor序列分类 https hugging
无法在 Windows 10 上构建 Detectron2

尽管 Windows 上的 Detectron2 没有官方支持但有很多可用的说明我尝试按照这些说明进行操作但最终出现了相同的错误这是我的设置 OS Windows 10 专业版 19043 1466 微软视觉工作室 2019 CUD
当前向包含多个自动分级节点时，PyTorch 关于使用非完整后向挂钩的警告

最近升级后当运行 PyTorch 循环时我现在收到警告当前向包含多个自动分级节点时使用非完整后向钩子训练仍在运行并完成但我不确定应该将其放置在哪里register full backward hook功能我尝试将它添加到神经网络
导入pytorch时，未安装microsoft Visual C++ Redistributable

我在一台带有 GPU 的 Windows 机器上工作我已经在 conda 环境中安装了 pytorch conda install pytorch torchvision cudatoolkit 10 1 c pytorch 然后我运行
如何让火车装载机使用特定数量的图像？

假设我正在使用以下调用 trainset torchvision datasets ImageFolder root imgs transform transform trainloader torch utils data DataLoa
Pytorch RuntimeError：张量 a (4) 的大小必须与非单维 0 处张量 b (3) 的大小匹配

我使用的代码来自here https www learnopencv com image classification using transfer learning in pytorch 训练模型来预测印刷样式编号0 to 9 idx t
PyTorch 中的数据增强

我对 PyTorch 中执行的数据增强有点困惑现在据我所知当我们执行数据增强时我们保留原始数据集然后添加它的其他版本翻转裁剪等但 PyTorch 中似乎并没有发生这种情况据我从参考文献中了解到当我们使用data tra
带有填充掩码的 TransformerEncoder

我正在尝试使用 src key padding mask 不等于 none 来实现 torch nn TransformerEncoder 想象输入的形状src 20 95 二进制填充掩码的形状为src mask 20 95 填充标记的位置
设置 torch.gather(...) 调用的结果

我有一个形状为 n x m 的 2D pytorch 张量我想使用索引列表来索引第二个维度可以使用 torch gather 完成然后然后还设置新值到索引的结果 Example data torch tensor 0 1 2 3 4

随机推荐

编译原理——词法分析器

1 概述设计编制并调试一个简单的C语言词法分析程序掌握利用状态转换图设计词法分析器的基本方法利用该词法分析器完成对源程序字符串的词法分析通过对该词法分析器的设计加深对词法分析原理状态转换图等编译原理知识的理解 2 使用的基本概
最新bilibili怎么下载视频

bilibili作为最火的二次元网站很多人想下载下来却不知道怎么下手今天小编就来818怎么下载bilibili的视频 1 我们拿这案例来参考 https www bilibili com video av40672186 from s
d3碰撞源码分析

技术 d3 d3 force d3 geom quadtree d3 geom quadtree 四叉树的应用图像处理空间数据索引 2D中的快速碰撞检测存储稀疏数据等游戏编程上图中的数据就是普通的点点与点之间没有关系此函数在构
TOJ--3100:Getting Gold (DFS)

1 题目源地址 http acm tju edu cn toj showp3100 html 2 源代码 TOJ 3100 Getting Gold include
httprunner接口自动化测试框架使用说明【保姆级教程】

背景介绍 httprunner是国内开源的一个接口自动化框架已经有部分公司开始使用这种框架来完成自己公司的接口自动化编写本文主要是从简单的流程上去讲解咋使用的 PS 开发者本尊的官网教程写的是真的烂一点也不友好里面各种坑本文基于h
Java基础——封装、继承、多态

今天我们来了解一下面向对象的三大特性封装继承和多态封装把属性和实现细节隐藏起来不让外界直接访问提供公共的方法访问方式 private A 只能修饰成员 B 被private修饰的成员只能在本类中访问外界不可以直接访问 C pr
cocos2d-x 地图随英雄移动

本人刚开始学习cocos2d x游戏引擎学到瓦片地图这块网上有一个很经典的例子见链接基于Cocos2D X的砖块地图教程一在看到其中的地图跟随角色移动一般情况下保持角色在屏幕中央附近到地图边缘时移动角色的问题时看的不大明白
reference to ‘ max‘ is ambiguous

今天写C 算法的时候声明了一个全局遍历max 来记录最短路径编译发现遇到一个以前没遇到过的错误 reference to max is ambiguous 翻译过来就是对 max 的引用有歧义通过查询百度发现原因是我引用了iostr
c++中如何实现十进制(Dec)与十六进制(Hex)之间的相互转换

c 中如何实现十进制 Dec 与十六进制 Hex 之间的相互转换 1 十进制 gt 十六进制 include stdafx h include iostream include string using namespace std stri
富集分析（GO、KEGG、GSEA）

library clusterProfiler library org Hs eg db GO分析与KEGG分析 GO分析需要一个基因 symbol列表列表中为差异表达基因一读入数据 result lt read csv file R
凡科网JS逆向后跳出的滑块验证（base64图片解码之后的破解滑块验证）

目录 1 前提和大概思路概述 2 转换思路selenium和验证滑块图片的获取处理 3 总结 1 前提和大概思路概述只是学习的途中有一些新的发现分享给大家希望对你们有帮助凡科网的JS逆向的闭包技巧应该是典型的闭包案例很多人都有讲解
STM32 USB学习笔记

STM32 USB学习笔记一 USB FS Device firmware library 使用固件库开发程序需要包含几个文件从图中可见应用程序接口部分有 usb pwr usb conf usb desc usb istr us
中台建设&架构设计

什么是中台中台即企业级能力复用平台企业级企业级定义了中台的范围它更多代表的是中台处理的问题在企业级别即至少包含多条业务线或服务多个前台产品团队如果一个中台只为了支持一条业务线或产品线那就不是中台即使它用了服务化或是大数据等
谷歌禁止访问测试环境

谷歌访问测试环境接口报错主要原因谷歌阻止了对不安全接口的请求解决方法进入谷歌设置 chrome flags block insecure private network requests 将Block insecure privat
c++ 定时器_STM32实例定时器中断实验

上一章我们介绍了 STM32F1的外部中断这一章我们来学习下定时器中断 STM32F1 的定时器功能非常强大其包含 2 个基本定时器 TIM6 TIM7 4 个通用定时器 TIM2 TIM5 和 2 个高级定时器 TIM1 TIM8 共
目标检测中anchor box(先验框)的理解

近来心血来潮把CV领域关于目标检测的主流方法YOLOv3和Faster RCNN看了一下对其中的先验框 anchor box 一直不太理解在广泛地阅读了一些相关讲解后有了一定的理解在此记录一下先验框的个人理解先验框最早提出于F
限定特定的IP访问服务器

需求 windows and Linux系统仅限指定的IP或网段登陆解决方法和思路 1 Windows设置的方法有多种方法一通过本机自带的防火墙设置限制IP访问修改下面三个规则属性点击属性查看对应设置设定可以访问的地址段或IP
构建REST风格的Web Service

1 什么是REST REST 是由 Roy Fielding 在他的论文 Architectural Styles and the Design of Network based Software Architectures 中提出的一个术
完美卸载Visual Studio2015的方法汇总

前言由于各种原因阿木寺被迫回到VS2013时代所以此时VS2015也没有必要存在于是再网上找了各种卸载方法简介方法一适合于有点基础电脑知识的童鞋难度方法二适合于小白难度方法三适合于技术控难度方法一 1 利用当初
PyTorch中torchvision介绍

TorchVision包包含流行的数据集模型架构和用于计算机视觉的图像转换它是PyTorch项目的一部分 TorchVison最新发布版本为v0 11 1 发布较频繁它的license为BSD 3 Clause 它的源码位于 http

PyTorch中torchvision介绍

PyTorch中torchvision介绍 的相关文章

随机推荐

热门标签

PyTorch中torchvision介绍的相关文章