这是在 python 中美白图像的正确方法吗？

2024-05-05

我在尝试着zero-center and whiten CIFAR10数据集，但我得到的结果看起来像随机噪声！
Cifar10数据集包含60,000尺寸的彩色图像32x32。训练集包含50,000和测试集包含10,000分别是图像。
以下代码片段显示了我使数据集变白的过程：

# zero-center
mean = np.mean(data_train, axis = (0,2,3)) 
for i in range(data_train.shape[0]):
    for j in range(data_train.shape[1]):
        data_train[i,j,:,:] -= mean[j]

first_dim = data_train.shape[0] #50,000
second_dim = data_train.shape[1] * data_train.shape[2] * data_train.shape[3] # 3*32*32
shape = (first_dim, second_dim) # (50000, 3072) 

# compute the covariance matrix
cov = np.dot(data_train.reshape(shape).T, data_train.reshape(shape)) / data_train.shape[0] 
# compute the SVD factorization of the data covariance matrix
U,S,V = np.linalg.svd(cov)

print 'cov.shape = ',cov.shape
print U.shape, S.shape, V.shape

Xrot = np.dot(data_train.reshape(shape), U) # decorrelate the data
Xwhite = Xrot / np.sqrt(S + 1e-5)

print Xwhite.shape
data_whitened = Xwhite.reshape(-1,32,32,3)
print data_whitened.shape

outputs:

cov.shape =  (3072L, 3072L)
(3072L, 3072L) (3072L,) (3072L, 3072L)
(50000L, 3072L)
(50000L, 32L, 32L, 3L)
(32L, 32L, 3L)

并尝试显示结果图像：

import matplotlib.pyplot as plt
%matplotlib inline
from scipy.misc import imshow
print data_whitened[0].shape
fig = plt.figure()
plt.subplot(221)
plt.imshow(data_whitened[0])
plt.subplot(222)
plt.imshow(data_whitened[100])
plt.show()

顺便说一下data_train[0].shape is (3,32,32), 但如果我根据我得到的重塑美白图像

TypeError: Invalid dimensions for image data

这可能只是一个可视化问题吗？如果是这样，我如何确定情况确实如此？

Update :
感谢@AndrasDeak，我以这种方式修复了可视化代码，但输出看起来仍然是随机的：

data_whitened = Xwhite.reshape(-1,3,32,32).transpose(0,2,3,1)
print data_whitened.shape
fig = plt.figure()
plt.subplot(221)
plt.imshow(data_whitened[0])

Update 2:
This is what I get when I run some of the commands given below : As it can be seen below, toimage can show the image just fine, but trying to reshape it, messes up the image.

# output is of shape (N, 3, 32, 32)
X = X.reshape((-1,3,32,32))
# output is of shape (N, 32, 32, 3)
X = X.transpose(0,2,3,1)
# put data back into a design matrix (N, 3072)
X = X.reshape(-1, 3072)

plt.imshow(X[6].reshape(32,32,3))
plt.show()

for some wierd reason, this was what I got at first , but then after several tries, it changed to the previous image.

让我们来看看这个。正如您所指出的，CIFAR 包含存储在矩阵中的图像；每个图像为一行，每行有 3072 列uint8数字（0-255）。图像为 32x32 像素，像素为 RGB（三通道颜色）。

# https://www.cs.toronto.edu/~kriz/cifar.html
# wget https://www.cs.toronto.edu/~kriz/cifar-10-python.tar.gz
# tar xf cifar-10-python.tar.gz
import numpy as np
import cPickle
with open('cifar-10-batches-py/data_batch_1') as input_file: 
    X = cPickle.load(input_file)
X = X['data']   # shape is (N, 3072)

事实证明，列的排序有点有趣：所有红色像素值首先出现，然后是所有绿色像素，然后是所有蓝色像素。这使得查看图像变得很棘手。这：

import matplotlib.pyplot as plt
plt.imshow(X[6].reshape(32,32,3))
plt.show()

给出这个：

因此，为了便于查看，让我们将矩阵的维度打乱reshape and transpose:

# output is of shape (N, 3, 32, 32)
X = X.reshape((-1,3,32,32))
# output is of shape (N, 32, 32, 3)
X = X.transpose(0,2,3,1)
# put data back into a design matrix (N, 3072)
X = X.reshape(-1, 3072)

Now:

plt.imshow(X[6].reshape(32,32,3))
plt.show()

gives:

好的，开始ZCA美白。我们经常被提醒，在白化数据之前对数据进行零中心化非常重要。此时，对您所包含的代码进行观察。据我所知，计算机视觉将颜色通道视为另一个特征维度；图像中单独的 RGB 值没有什么特别之处，就像单独的像素值没有什么特别之处一样。它们都只是数字特征。因此，当您计算平均像素值时，请考虑颜色通道（即您的mean是一个元组r,g,b值），我们只计算平均值image价值。注意X是一个N行3072列的大矩阵。我们将把每一列视为与其他每一列“相同类型的事物”。

# zero-centre the data (this calculates the mean separately across
# pixels and colour channels)
X = X - X.mean(axis=0)

此时，我们还可以进行全局对比度标准化，这通常应用于图像数据。我将使用 L2 范数，这使得每个图像的矢量大小为 1：

X = X / np.sqrt((X ** 2).sum(axis=1))[:,None]

人们可以轻松地使用其他东西，例如标准差（X = X / np.std(X, axis=0)) 或最小-最大缩放到某个区间，例如 [-1,1]。

就快到了。此时，我们还没有对数据进行很大的修改，因为我们只是对其进行了移动和缩放（线性变换）。为了显示它，我们需要将图像数据恢复到 [0,1] 范围内，所以让我们使用一个辅助函数：

def show(i):
    i = i.reshape((32,32,3))
    m,M = i.min(), i.max()
    plt.imshow((i - m) / (M - m))
    plt.show()

show(X[6])

孔雀在这里看起来稍微亮一些，但这只是因为我们拉伸了它的像素值以填充区间 [0,1]：

ZCA美白：

# compute the covariance of the image data
cov = np.cov(X, rowvar=True)   # cov is (N, N)
# singular value decomposition
U,S,V = np.linalg.svd(cov)     # U is (N, N), S is (N,)
# build the ZCA matrix
epsilon = 1e-5
zca_matrix = np.dot(U, np.dot(np.diag(1.0/np.sqrt(S + epsilon)), U.T))
# transform the image data       zca_matrix is (N,N)
zca = np.dot(zca_matrix, X)    # zca is (N, 3072)

看看（show(zca[6])):

现在孔雀看起来肯定不一样了。您可以看到 ZCA 通过色彩空间旋转了图像，因此它看起来就像旧电视上的图片，但色调设置不正常。不过还是能认出来。

大概是因为epsilon我使用的值，转换后的数据的协方差并不完全是恒等式，但它相当接近：

>>> (np.cov(zca, rowvar=True).argmax(axis=1) == np.arange(zca.shape[0])).all()
True

1 月 29 日更新

我不完全确定如何解决您遇到的问题；您目前的问题似乎在于原始数据的形状，因此我建议您在尝试继续进行零中心化和 ZCA 之前先解决这个问题。

一方面，更新中四个图的第一个图看起来不错，这表明您已以正确的方式加载了 CIFAR 数据。第二个情节是由toimage，我认为，这将自动找出哪个维度有颜色数据，这是一个很好的技巧。另一方面，之后的事情看起来很奇怪，所以似乎某个地方出了问题。我承认我不能完全理解你的脚本的状态，因为我怀疑你正在交互地工作（笔记本），当事情不起作用时重试（稍后会详细介绍），并且你正在使用代码你没有在你的问题中显示出来。特别是，我不确定你如何加载 CIFAR 数据；你的屏幕截图显示了一些输出print陈述（Reading training data...等），然后当您复制时train_data into X并打印shape of X，形状已经被重塑为(N, 3, 32, 32)。就像我说的，更新图 1 往往表明重塑已经正确发生。从图 3 和图 4 中，我认为你在某个地方混淆了矩阵维度，所以我不确定你是如何进行重塑和转置的。

请注意，由于以下原因，请务必小心重塑和转置。这X = X.reshape(...) and X = X.transpose(...)代码正在修改矩阵in place。如果您多次执行此操作（就像在 jupyter 笔记本中偶然发生的那样），您将一遍又一遍地打乱矩阵的轴，并且绘制数据将开始看起来非常奇怪。此图显示了我们迭代重塑和转置操作时的进展：

这种进展不会循环回来，或者至少不会快速循环。由于数据中的周期性规律（例如图像的 32 像素行结构），您往往会在这些不正确的重塑转置图像中出现条带。我想知道这是否是您更新中四个图中的第三个图中发生的情况，它看起来比问题原始版本中的图像随机性要低得多。

您更新的第四个图是孔雀的彩色负片。我不确定你是如何得到的，但我可以通过以下方式重现你的输出：

plt.imshow(255 - X[6].reshape(32,32,3))
plt.show()

这使：

你可以得到这个的一种方法是如果你使用我的show辅助函数，你混淆了m and M，像这样：

def show(i):
    i = i.reshape((32,32,3))
    m,M = i.min(), i.max()
    plt.imshow((i - M) / (m - M))  # this will produce a negative img
    plt.show()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

这是在 python 中美白图像的正确方法吗？的相关文章

Django REST序列化器：创建对象而不保存

我已经开始使用 Django REST 框架我想做的是使用一些 JSON 发布请求从中创建一个 Django 模型对象然后使用该对象而不保存它我的 Django 模型称为 SearchRequest 我所拥有的是 api view
使用 openCV 对图像中的子图像进行通用检测

免责声明我是计算机视觉菜鸟我看过很多关于如何在较大图像中查找特定子图像的堆栈溢出帖子我的用例有点不同因为我不希望它是具体的而且我不确定如何做到这一点如果可能的话但我感觉应该如此我有大量图像数据集有时其中一些图像是数据集的
如何在android上的python kivy中关闭应用程序后使服务继续工作

我希望我的服务在关闭应用程序后继续工作但我做不到我听说我应该使用startForeground 但如何在Python中做到这一点呢应用程序代码 from kivy app import App from kivy uix floatl
Flask 和 uWSGI - 无法加载应用程序 0 (mountpoint='')（找不到可调用或导入错误）

当我尝试使用 uWSGI 启动 Flask 时出现以下错误我是这样开始的 gt cd gt root localhost uwsgi socket 127 0 0 1 6000 file path to folder run py ca
如何使用包含代码的“asyncio.sleep()”进行单元测试？

我在编写 asyncio sleep 包含的单元测试时遇到问题我要等待实际的睡眠时间吗 I used freezegun到嘲笑时间当我尝试使用普通可调用对象运行测试时这个库非常有用但我找不到运行包含 asyncio sleep 的测
Python tcl 未正确安装

我刚刚为 python 安装了graphics py 但是当我尝试运行以下代码时 from graphics import def main win GraphWin My Circle 100 100 c Circle Point 50
运行多个 scrapy 蜘蛛的正确方法

我只是尝试使用在同一进程中运行多个蜘蛛新的 scrapy 文档 http doc scrapy org en 1 0 topics practices html但我得到 AttributeError CrawlerProcess objec
Python 中的二进制缓冲区

在Python中你可以使用StringIO https docs python org library struct html用于字符数据的类似文件的缓冲区内存映射文件 https docs python org library mmap
在pyyaml中表示具有相同基类的不同类的实例

我有一些单元测试集希望将每个测试运行的结果存储为 YAML 文件以供进一步分析 YAML 格式的转储数据在几个方面满足我的需求但测试属于不同的套装结果有不同的父类这是我所拥有的示例 gt gt gt rz shorthand for
循环中断打破tqdm

下面的简单代码使用tqdm https github com tqdm tqdm在循环迭代时显示进度条 import tqdm for f in tqdm tqdm range 100000000 if f gt 100000000 4 b
Python 3 中“map”类型的对象没有 len()

我在使用 Python 3 时遇到问题我得到了 Python 2 7 代码目前我正在尝试更新它我收到错误类型错误 map 类型的对象没有 len 在这部分 str len seed candidates 在我像这样初始化它之前 se
在Python中重置生成器对象

我有一个由多个yield 返回的生成器对象准备调用该生成器是相当耗时的操作这就是为什么我想多次重复使用生成器 y FunctionWithYield for x in y print x here must be something t
如何在 Django 中使用并发进程记录到单个文件而不使用独占锁

给定一个在多个服务器上同时执行的 Django 应用程序该应用程序如何记录到单个共享日志文件在网络共享中而不保持该文件以独占模式永久打开当您想要利用日志流时这种情况适用于 Windows Azure 网站上托管的 Django 应
Python：计算字典的重复值

我有一本字典如下 dictA unit1 test1 alpha unit1 test2 beta unit2 test1 alpha unit2 test2 gamma unit3 test1 delta unit3 test2 gamm
用于运行可执行文件的python多线程进程

我正在尝试将一个在 Windows 上运行可执行文件并管理文本输出文件的 python 脚本升级到使用多线程进程的版本以便我可以利用多个核心我有四个独立版本的可执行文件每个线程都知道要访问它们这部分工作正常我遇到问题的地方是当它们
对输入求 Keras 模型的导数返回全零

所以我有一个 Keras 模型我想将模型的梯度应用于其输入这就是我所做的 import tensorflow as tf from keras models import Sequential from keras layers imp
从 Python 中的类元信息对 __init__ 函数进行类型提示

我想做的是复制什么SQLAlchemy确实以其DeclarativeMeta班级有了这段代码 from sqlalchemy import Column Integer String from sqlalchemy ext declar
使用基于正则表达式的部分匹配来选择 Pandas 数据帧的子数据帧

我有一个 Pandas 数据框它有两列一列进程参数列包含字符串另一列值列包含相应的浮点值我需要过滤出部分匹配列过程参数中的一组键的子数据帧并提取与这些键匹配的数据帧的两列 df pd DataFrame Proce
Spark.read 在 Databricks 中给出 KrbException

我正在尝试从 databricks 笔记本连接到 SQL 数据库以下是我的代码 jdbcDF spark read format com microsoft sqlserver jdbc spark option url jdbc sql
Python：元类属性有时会覆盖类属性？

下面代码的结果让我感到困惑 class MyClass type property def a self return 1 class MyObject object metaclass MyClass a 2 print MyObject

随机推荐

PHP：如何删除“[”和“]”之间的字符串

我需要删除内的字符串包括本身我尝试从该网站寻找解决方案我有一个线索我应该尝试使用 preg replace 进行一些操作但它对我来说似乎太专业了例如 gallery ids 92 93 94 95 96 97 98 99 1
通过易失性引用/指针访问声明的非易失性对象是否会为所述访问赋予易失性规则？

这将是一篇很长的文章为了将其置于上下文中并提供尽可能多的信息我必须浏览各种链接和引用这通常是我们进入 C C 标准兔子洞的唯一方法如果您对这篇文章有更好的引用或任何其他改进请告诉我但先总结一下你可以责怪 zwol对我来说发布这
如何对 MySQL 数据库中的 ENUM 列进行排序？

I have colorMySQL 表中的列类型为ENUM RED YELLOW MY COLOR BLACK 还有另一个name列的类型是VARCHAR 30 我想按以下顺序获取所有表行 YELLOW首先行排序依据name RED最后一
将numpy字符串数组转换为int数组[重复]

这个问题在这里已经有答案了我有一个 numpy ndarray a 0 99 0 56 0 56 2 02 0 96 如何将其转换为int 输出 a 0 99 0 0 0 56 0 56 2 02 0 96 我想要 0 0 代替空白 im
使用 Javascript 从 URL 字符串获取端口 [重复]

这个问题在这里已经有答案了我想要一个 javascript 函数它将获取一个 url 作为参数并返回该 URL 的端口如下所示如果有一个http or https 端口 80 443 它不会显示在 url 结构中但我还是希望它们
Codeigniter：对未定义函数 mysqli_init() 的致命错误调用

我刚刚更改了服务器并遇到以下错误 Fatal error Call to undefined function mysqli init in home blacktwitter public html system database dri
更改 AS3 中的 TextField 选择颜色

如何更改 ActionScript 3 中 TextField 的选择突出显示颜色我有一个输入文本字段黑色背景上有白色文本因此选择是不可见的这对于可用性来说非常糟糕谢谢另一种方法是使用文本布局框架特别是使用 Select
如何使用 SqlDataReader 返回和使用 IAsyncEnumerable

请看下面两种方法第一个返回一个IAsyncEnumerable 第二个试图消耗它 using System Collections Generic using System Data using System Data SqlClient
git push origin master 失败

我正在尝试将现有文件夹上传到 gitHub 按照说明我在 Windows 中输入了以下内容 git remote add origin email protected cdn cgi l email protection myname m
如何在 C++/CLI 中显式/隐式实现接口成员？

在 C CLI 中与此等效的内容是什么 class Explicit IClonable void IClonable Clone class Implicit IClonable public void Clone 正如 nobugz 所
C# 到 Java：Base64String、MemoryStream、GZipStream

我有一个在 NET 中压缩的 Base64 字符串我想将其转换回 Java 中的字符串我正在寻找一些与 C 语法等效的 Java 语法特别是 Convert FromBase64String 内存流压缩流这是我想要转换的方法 pu
Python 中意外的缩进错误[重复]

这个问题在这里已经有答案了我有一段简单的代码我不明白我的错误来自哪里解析器在第 5 行 if 语句上用意外的缩进向我咆哮有人看到这里的问题吗我不 def gen fibs a b 0 1 while True a b b a b
没有适当的默认构造函数可用于 std::unique_ptr

这是我上一篇文章的延续由于它已经关闭我决定发表新帖子我删除了一半的代码以使其更具可读性我读过的一些帖子使用 SDL 的智能指针 https stackoverflow com questions 24251747 smart po
负载测试 SQL Alchemy：“TimeoutError：达到 QueuePool 大小限制 3 溢出 0，连接超时，超时 30”

我有一个在 AWS 中运行的基于 SQL Alchemy 的 Web 应用程序该网络应用程序有几个c3 2xlargeELB 后面的 EC2 实例每个 8 个 CPU 接收 Web 请求然后查询写入共享数据库我使用的数据库是 RD
PMT功能支付方式

下面是我计算贷款付款的函数就像在 Excel 中一样我需要添加另一个参数即付款类型 function PMT ir np pv fv ir interest rate per month np number of periods mo
如何在 Rails 4 中“link_to”完整路径？

这是我的代码 a a 从上面
我应该如何优化这个文件系统 I/O 绑定程序？

我有一个 python 程序它执行如下操作从 csv 文件中读取一行对其进行一些变换将其分解为实际的行因为它们将被写入数据库将这些行写入单独的 csv 文件除非文件已完全读取否则返回步骤 1 运行 SQL Loader 并将
如何在 Moose 中存储哈希值的哈希值？

我想知道在 Moose 中存储哈希值的最佳方式是什么让我们以这样的哈希为例 my hash step1 gt extraction gt object1 analysis gt object2 step2 gt extraction g
PHP：调用 __call 而不是 __callStatic

我正在开发一个自定义 ORM 这里有一个简化的示例来演示该问题 class Foo public static function callStatic name args if name getBar return Bar return N
这是在 python 中美白图像的正确方法吗？

我在尝试着zero center and whiten CIFAR10数据集但我得到的结果看起来像随机噪声 Cifar10数据集包含60 000尺寸的彩色图像32x32 训练集包含50 000和测试集包含10 000分别是图像以下代码片

这是在 python 中美白图像的正确方法吗？

1 月 29 日更新

这是在 python 中美白图像的正确方法吗？ 的相关文章

随机推荐

热门标签

这是在 python 中美白图像的正确方法吗？的相关文章