仅增强 K 折交叉验证中的训练集

2024-01-12

我正在尝试为不平衡数据集（类 0 = 4000 个图像，类 1 = 大约 250 个图像）创建一个二元 CNN 分类器，我想对其执行 5 倍交叉验证。目前，我正在将训练集加载到 ImageLoader 中，该 ImageLoader 应用我的转换/增强（？）并将其加载到 DataLoader 中。然而，这导致我的训练分割和验证分割都包含增强数据。

我最初应用离线转换（离线增强？）来平衡我的数据集，但是从这个线程（https://stats.stackexchange.com/questions/175504/how-to-do-data-augmentation-and-train-validate-split https://stats.stackexchange.com/questions/175504/how-to-do-data-augmentation-and-train-validate-split），看来只增加训练集是理想的。我还希望仅在增强训练数据上训练我的模型，然后在 5 倍交叉验证中在非增强数据上进行验证

我的数据组织为 root/label/images，其中有 2 个标签文件夹（0 和 1），图像分类到各自的标签中。

到目前为止我的代码

total_set = datasets.ImageFolder(ROOT, transform = data_transforms['my_transforms'])

//Eventually I plan to run cross-validation as such:
splits = KFold(cv = 5, shuffle = True, random_state = 42)

for train_idx, valid_idx in splits.split(total_set):
    train_sampler = SubsetRandomSampler(train_idx)
    valid_sampler = SubsetRandomSampler(valid_idx)

    train_loader = torch.utils.data.DataLoader(total_set, batch_size=32, sampler=train_sampler)
    val_loader = torch.utils.data.DataLoader(total_set, batch_size=32, sampler=valid_sampler)

model.train()
//Model train/eval works but may be overpredict

我确信我在这段代码中做了一些次优或错误的事情，但我似乎找不到任何关于专门增强交叉验证中的训练分割的文档！

任何帮助，将不胜感激！

一种方法是实现一个包装器 Dataset 类，该类将转换应用于 ImageFolder 数据集的输出。例如

class WrapperDataset:
    def __init__(self, dataset, transform=None, target_transform=None):
        self.dataset = dataset
        self.transform = transform
        self.target_transform = target_transform

    def __getitem__(self, index):
        image, label = self.dataset[index]
        if self.transform is not None:
            image = self.transform(image)
        if self.target_transform is not None:
            label = self.target_transform(label)
        return image, label

    def __len__(self):
        return len(self.dataset)

然后，您可以通过使用不同的转换包装更大的数据集来在代码中使用它。

total_set = datasets.ImageFolder(ROOT)

# Eventually I plan to run cross-validation as such:
splits = KFold(cv = 5, shuffle = True, random_state = 42)

for train_idx, valid_idx in splits.split(total_set):
    train_sampler = SubsetRandomSampler(train_idx)
    valid_sampler = SubsetRandomSampler(valid_idx)

    train_loader = torch.utils.data.DataLoader(
        WrapperDataset(total_set, transform=data_transforms['train_transforms']),
        batch_size=32, sampler=train_sampler)
    valid_loader = torch.utils.data.DataLoader(
        WrapperDataset(total_set, transform=data_transforms['valid_transforms']),
        batch_size=32, sampler=valid_sampler)

    # train/validate now

我没有测试过这段代码，因为我没有完整的代码/模型，但概念应该很清楚。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

仅增强 K 折交叉验证中的训练集的相关文章

无法“安装”plpython3u - postgresql

我正在尝试在 postgresql 中使用 python 语言像这样的事情 create or replace function test a integer returns integer as if a 2 0 return even
没有名为 crypto.cipher 的模块

我现在正在尝试加密一段时间我最近得到了这个基于 python 的密码器名为PythonCrypter https github com jbertman PythonCrypter 我对 Python 相当陌生当我尝试通过终端打开 C
通过 Scrapy 抓取 Google Analytics

我一直在尝试使用 Scrapy 从 Google Analytics 获取一些数据尽管我是一个完全的 Python 新手但我已经取得了一些进展我现在可以通过 Scrapy 登录 Google Analytics 但我需要发出 AJAX
将 Matplotlib 误差线放置在不位于条形中心的位置

我正在 Matplotlib 中生成带有错误栏的堆积条形图不幸的是某些层相对较小且数据多样因此多个层的错误条可能重叠从而使它们难以或无法读取 Example 有没有办法设置每个误差条的位置即沿 x 轴移动它以便重叠的线显示在彼此
使 django 服务器可以在 LAN 中访问

我已经安装了Django服务器可以如下访问 http localhost 8000 get sms http 127 0 0 1 8000 get sms 假设我的IP是x x x x 当我这样做时从同一网络下的另一台电脑 my ip
Python - StatsModels、OLS 置信区间

在 Statsmodels 中我可以使用以下方法拟合我的模型 import statsmodels api as sm X np array 22000 13400 47600 7400 12000 32000 28000 31000 6
如何替换 pandas 数据框列中的重音符号

我有一个数据框dataSwiss其中包含瑞士城市的信息我想用普通字母替换带有重音符号的字母这就是我正在做的 dataSwiss Municipality dataSwiss Municipality str encode utf 8 d
python 相当于 R 中的 get() （= 使用字符串检索符号的值）

在 R 中 get s 函数检索名称存储在字符变量向量中的符号的值s e g X lt 10 r lt XVI s lt substr r 1 1 X get s 10 取罗马数字的第一个符号r并将其转换为其等效整数尽管花了一些时间翻
测试 python Counter 是否包含在另一个 Counter 中

如何测试是否是pythonCounter https docs python org 2 library collections html collections Counter is 包含在另一个中使用以下定义柜台a包含在计数器中b当且
Spark KMeans 无法处理大数据吗？

KMeans 有几个参数training http spark apache org docs latest api python pyspark mllib html highlight kmeans pyspark mllib clus
Python pickle：腌制对象不等于源对象

我认为这是预期的行为但想检查一下也许找出原因因为我所做的研究结果是空白我有一个函数可以提取数据创建自定义类的新实例然后将其附加到列表中该类仅包含变量然后我使用协议 2 作为二进制文件将该列表腌制到文件中稍后我重新运行脚本
如何加速Python中的N维区间树？

考虑以下问题给定一组n间隔和一组m浮点数对于每个浮点数确定包含该浮点数的区间子集这个问题已经通过构建一个解决区间树 https en wikipedia org wiki Interval tree 或称为范围树或线段树已经针对一
如何在Python中获取葡萄牙语字符？

我正在研究葡萄牙语角色看起来很奇怪我怎样才能解决这个问题代码 import feedparser import random Vou definir os feeds feeds conf feedurl http pplware s
Python 的“zip”内置函数的 Ruby 等价物是什么？

Ruby 是否有与 Python 内置函数等效的东西zip功能如果不是做同样事情的简洁方法是什么一些背景信息当我试图找到一种干净的方法来进行涉及两个数组的检查时出现了这个问题如果我有zip 我可以写这样的东西 zip a b a
如何使用Python创建历史时间线

So I ve seen a few answers on here that helped a bit but my dataset is larger than the ones that have been answered prev
如何在seaborn displot中使用hist_kws

我想在同一图中用不同的颜色绘制直方图和 kde 线我想为直方图设置绿色为 kde 线设置蓝色我设法弄清楚使用 line kws 来更改 kde 线条颜色但 hist kws 不适用于显示我尝试过使用 histplot 但我无法为
对年龄列进行分组/分类

我有一个数据框说df有一个柱子 Ages gt gt gt df Age 0 22 1 38 2 26 3 35 4 35 5 1 6 54 我想对这个年龄段进行分组并创建一个像这样的新专栏 If age gt 0 age lt 2 the
为字典中的一个键附加多个值[重复]

这个问题在这里已经有答案了我是 python 新手我有每年的年份和值列表我想要做的是检查字典中是否已存在该年份如果存在则将该值附加到特定键的值列表中例如我有一个年份列表并且每年都有一个值 2010 2 2009 4 1989
使用 Python 绘制 2D 核密度估计

I would like to plot a 2D kernel density estimation I find the seaborn package very useful here However after searching
使用其构造函数初始化 OrderedDict 以便保留初始数据的顺序的正确方法？

初始化有序字典 OD 以使其保留初始数据的顺序的正确方法是什么 from collections import OrderedDict Obviously wrong because regular dict loses order d O

随机推荐

在 HIVE QL 中的表中添加列

我正在 HIVE 中编写代码来创建一个由 1300 行和 6 列组成的表 create table test1 as SELECT cd screen function SUM access count AS max count MIN r
如何更改我的 Django 服务器时间

我想将当前日期保存在数据库中但我的 Django 服务器比当前时间早 13 小时启动因此当我使用以下命令时时间也会发生变化 datetime datetime now 我正在使用 Python 2 7 5 和 Django 1 5
无法在 postgresql 10 中打开 Citext 的扩展控制文件

我刚刚在 Fedora 28 中安装了 postgresql 10 然后我做了一个 mix ecto migrate 但它说 Postgrex Error 错误58P01 undefined file 无法打开扩展控制文件 usr pgsq
如何使用静态构建的 Qt 解决“找不到服务 - “org.qt-project.qt.mediaplayer””错误？

你好为了构建适用于 Windows 的静态 Qt 我遵循了下一篇文章 http qt project org wiki How to build a static Qt for Windows MinGW http qt project
为什么某些 PHP 代码呈现为 HTML 注释

我刚刚开始学习 PHP 并安装了 webmatrix 来入门我的第一个测试页面将一些 PHP 代码呈现为 HTML 注释我需要帮助确定出了什么问题一个包含语句工作正常而同一文件中的另一个包含语句输出如下所示没有显示带有 HTML
有没有一个好的 PHP 向量和矩阵库？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我需要一个用于向量和矩阵的 PHP 库我正在寻找的库应该包括矩阵乘法向量余弦相似度卷积等函数我
构建适用于 Windows 8（而非 Windows Phone 8）的 Sencha Touch 应用程序 Microsoft Surface

我想构建一个由 Sencha CMD 生成的简单 Sencha Touch 2 3 1 应用程序来运行它 Windows 8 1 微软 Surface 模拟器 1 我打开 Visual Studio 2013 并创建一个新的 JavaScr
如何从包含特定变量 MAPLE 的符号表达式中获取部分表达式？

我有一个符号表达式如下 y1 1 a b a 2 x a b x b y2 a b a x b sqrt x 现在我需要获取具有特定术语的部分表达式喜欢 xFunction y1 x should return x a b x b xFu
导入模块时抑制 scapy 警告消息

我正在编写一个小脚本它使用 scapy 收集一些信息然后返回一些 xml 代码我将其传递到 metasploit 的 xmlrpc 接口我希望我的脚本只返回 xml 并且没有其他警告等我可以通过添加选项来抑制大多数 scapy 输
如何在 Backbone.js 中设计控制器？

我感兴趣的是有一个控制器来协调渲染事件处理 URL 路由器导航和网络访问有点类似于 Spine 中控制器的作用 http spinejs com docs controllers http spinejs com docs contro
避免 kubernetes 调度程序在 kubernetes 集群的单个节点上运行所有 pod

我有一个 Kubernetes 集群有 4 个节点和 1 个主节点我正在尝试在所有节点中运行 5 个 nginx pod 目前调度程序有时在一台机器上运行所有 Pod 有时在不同的机器上运行如果我的节点出现故障并且所有 Pod 都在
TensorFlow v2：替换 tf.contrib.predictor.from_saved_model

到目前为止我正在使用tf contrib predictor from saved model加载一个SavedModel tf estimator模型类然而不幸的是这个函数在 TensorFlow v2 中被删除了到目前为止在
如何让QWebKit显示图像？

好的我在与文件相同的目录中有一个 Qt 可执行文件logo png 我这样称呼 QString msg img src logo png webView gt setHtml msg where webview is the QWebKi
Flask中文件上传错误

app route registerdriver methods POST def register driver fname request form fname lname request form lname email reques
在 Javascript 中解析 Python 日期时间字符串

我需要将 Python 生成的日期时间字符串解析为 Javascript Date 对象我走了最简单的路线在Python中 dstring str mydate 示例 dstring 2012 05 16 19 20 35 243710
如何在mysql中获取日期的一周的第一天？

假设我有 2011 01 03 我想获取一周的第一天即星期日即 2011 01 02 我该如何做呢原因是我有这个查询 select YEAR date entered as year date date entered as week
支持 JSONP 的 ASP.NET 通用 HTTP 处理程序 (.ashx)

有人可以展示一个返回 JSON 并支持跨域调用的 HTTP 处理程序的示例吗我正在使用 jQuery 的 getJSON 向我的 Web 服务器上的 ashx 文件发送请求我知道我需要添加 callback 到 getJSON url
如何在 Matlab 绘图中的 for 循环的每一代上创建电影

我想将球体函数绘制为曲面或等值线图并通过与它叠加的高斯分布生成的数据的球体函数来评估最佳个体的位置和适应度值每一代的情节都会改变所以我得到了一部电影另外在另一幅图中我想绘制与高斯分布生成的整个种群叠加的球体函数的轮廓其中保留的
C# - 在运行时加载 xaml 文件

我有一个用 C 编写的 WPF 应用程序我有一个MainWindow继承自 a 的类System Windows Window class 接下来我的磁盘上有一个 xaml 文件我想在运行时加载它
仅增强 K 折交叉验证中的训练集

我正在尝试为不平衡数据集类 0 4000 个图像类 1 大约 250 个图像创建一个二元 CNN 分类器我想对其执行 5 倍交叉验证目前我正在将训练集加载到 ImageLoader 中该 ImageLoader 应用我的转换

仅增强 K 折交叉验证中的训练集

到目前为止我的代码

仅增强 K 折交叉验证中的训练集 的相关文章

随机推荐

热门标签

仅增强 K 折交叉验证中的训练集的相关文章