Deep learning:三十五(用NN实现数据降维练习)

2023-11-02

前言:

  本文是针对上篇博文Deep learning:三十四(用NN实现数据的降维)的练习部分,也就是Hition大牛science文章reducing the dimensionality of data with neural networks的code部分,其code下载见:http://www.cs.toronto.edu/~hinton/MatlabForSciencePaper.html。花了点时间阅读并运行了下它的code,其实code主要是2个单独的工程。一个只是用MNIST数据库来进行深度的autoencoder压缩,用的是无监督学习,评价标准是重构误差值MSE。另一个工程是MNIST的手写字体识别,网络的预训练部分用的是无监督的,网络的微调部分用的是有监督的。评价标准准是识别率或者错误率。

 

  MINST降维实验:

  本次是训练4个隐含层的autoencoder深度网络结构,输入层维度为784维,4个隐含层维度分别为1000,500,250,30。整个网络权值的获得流程梳理如下:

  1. 首先训练第一个rbm网络,即输入层784维和第一个隐含层1000维构成的网络。采用的方法是rbm优化,这个过程用的是训练样本,优化完毕后,计算训练样本在隐含层的输出值。
  2. 利用1中的结果作为第2个rbm网络训练的输入值,同样用rbm网络来优化第2个rbm网络,并计算出网络的输出值。并且用同样的方法训练第3个rbm网络和第4个rbm网络。
  3. 将上面4个rbm网络展开连接成新的网络,且分成encoder和decoder部分。并用步骤1和2得到的网络值给这个新网络赋初值。
  4. 由于新网络中最后的输出和最初的输入节点数是相同的,所以可以将最初的输入值作为网络理论的输出标签值,然后采用BP算法计算网络的代价函数和代价函数的偏导数。
  5. 利用步骤3的初始值和步骤4的代价值和偏导值,采用共轭梯度下降法优化整个新网络,得到最终的网络权值。以上整个过程都是无监督的。

 

  一些matlab函数:

  rem和mod:

  参考资料取模(mod)与取余(rem)的区别——Matlab学习笔记

  通常取模运算也叫取余运算,它们返回结果都是余数.rem和mod唯一的区别在于:
  当x和y的正负号一样的时候,两个函数结果是等同的;当x和y的符号不同时,rem函数结果的符号和x的一样,而mod和y一样。这是由于这两个函数的生成机制不同,rem函数采用fix函数,而mod函数采用了floor函数(这两个函数是用来取整的,fix函数向0方向舍入,floor函数向无穷小方向舍入)。rem(x,y)命令返回的是x-n.*y,如果y不等于0,其中的n = fix(x./y),而mod(x,y)返回的是x-n.*y,当y不等于0时,n=floor(x./y)

  工程中的m文件:

  converter.m:

  实现的功能是将样本集从.ubyte格式转换成.ascii格式,然后继续转换成.mat格式。

  makebatches.m:

  实现的是将原本的2维数据集变成3维的,因为分了多个批次,另外1维表示的是批次。

  下面来看下在程序中大致实现RBM权值的优化步骤(假设是一个2层的RBM网络,即只有输入层和输出层,且这两层上的变量是二值变量):

  1. 随机给网络初始化一个权值矩阵w和偏置向量b。
  2. 对可视层输入矩阵v正向传播,计算出隐含层的输出矩阵h,并计算出输入v和h对应节点乘积的均值矩阵
  3. 此时2中的输出h为概率值,将它随机01化为二值变量。
  4. 利用3中01化了的h方向传播计算出可视层的矩阵v’.(按照道理,这个v'应该是要01化的)
  5. 对v’进行正向传播计算出隐含层的矩阵h’,并计算出v’和h’对应节点乘积的均值矩阵。
  6. 用2中得到的均值矩阵减掉5中得到的均值矩阵,其结果作为对应权值增量的矩阵。
  7. 结合其对应的学习率,利用权值迭代公式对权值进行迭代。
  8. 重复计算2到7,直至收敛。

  偏置值的优化步骤:

  1. 随机给网络初始化一个权值矩阵w和偏置向量b。
  2. 对可视层输入矩阵v正向传播,计算出隐含层的输出矩阵h,并计算v层样本的均值向量以及h层的均值向量。
  3. 此时2中的输出h为概率值,将它随机01化为二值变量。
  4. 利用3中01化了的h方向传播计算出可视层的矩阵v’.
  5. 对v’进行正向传播计算出隐含层的矩阵h’, 并计算v‘层样本的均值向量以及h’层的均值向量。
  6. 用2中得到的v方均值向量减掉5中得到的v’方的均值向量,其结果作为输入层v对应偏置的增值向量。用2中得到的h方均值向量减掉5中得到的h’方的均值向量,其结果作为输入层h对应偏置的增值向量。
  7. 结合其对应的学习率,利用权值迭代公式对偏置值进行迭代。
  8. 重复计算2到7,直至收敛。

  当然了,权值更新和偏置值更新每次迭代都是同时进行的,所以应该是同时收敛的。并且在权值更新公式也可以稍微作下变形,比如加入momentum变量,即本次权值更新的增量会保留一部分上次更新权值的增量值。

  函数CG_MNIST形式如下:

  function [f, df] = CG_MNIST(VV,Dim,XX);

  该函数实现的功能是计算网络代价函数值f,以及f对网络中各个参数值的偏导数df,权值和偏置值是同时处理。其中参数VV为网络中所有参数构成的列向量,参数Dim为每层网络的节点数构成的向量,XX为训练样本集合。f和df分别表示网络的代价函数和偏导函数值。 

  共轭梯度下降的优化函数形式为:

  [X, fX, i] = minimize(X, f, length, P1, P2, P3, ... )

  该函数时使用共轭梯度的方法来对参数X进行优化,所以X是网络的参数值,为一个列向量。f是一个函数的名称,它主要是用来计算网络中的代价函数以及代价函数对各个参数X的偏导函数,f的参数值分别为X,以及minimize函数后面的P1,P2,P3,…使用共轭梯度法进行优化的最大线性搜索长度为length。返回值X为找到的最优参数,fX为在此最优参数X下的代价函数,i为线性搜索的长度(即迭代的次数)。

 

  实验结果:

  由于在实验过程中,作者将迭代次数设置为200,本人在实验时发现迭代到35次时已经花了6个多小时,所以懒得等那么久了(需长达30多个小时),此时的原始数字和重构数字显示如下:

   

  均方误差结果为:

  Train squared error:  4.318

  Test squared error:  4.520

 

  实验主要部分代码及注释:

mnistdeepauto.m:

clear all
close all

maxepoch=10; %In the Science paper we use maxepoch=50, but it works just fine. 
numhid=1000; numpen=500; numpen2=250; numopen=30;

fprintf(1,'Converting Raw files into Matlab format \n');
converter; % 转换数据为matlab的格式

fprintf(1,'Pretraining a deep autoencoder. \n');
fprintf(1,'The Science paper used 50 epochs. This uses %3i \n', maxepoch);

makebatches;
[numcases numdims numbatches]=size(batchdata);

fprintf(1,'Pretraining Layer 1 with RBM: %d-%d \n',numdims,numhid);
restart=1;
rbm;
hidrecbiases=hidbiases; %hidbiases为隐含层的偏置值
save mnistvh vishid hidrecbiases visbiases;%保持每层的变量,分别为权值,隐含层偏置值,可视层偏置值

fprintf(1,'\nPretraining Layer 2 with RBM: %d-%d \n',numhid,numpen);
batchdata=batchposhidprobs;%batchposhidprobs为第一个rbm的输出概率值
numhid=numpen;
restart=1;
rbm;% 第2个rbm的训练
hidpen=vishid; penrecbiases=hidbiases; hidgenbiases=visbiases;
save mnisthp hidpen penrecbiases hidgenbiases;%mnisthp为所保存的文件名

fprintf(1,'\nPretraining Layer 3 with RBM: %d-%d \n',numpen,numpen2);
batchdata=batchposhidprobs;
numhid=numpen2;
restart=1;
rbm;
hidpen2=vishid; penrecbiases2=hidbiases; hidgenbiases2=visbiases;%第3个rbm
save mnisthp2 hidpen2 penrecbiases2 hidgenbiases2;

fprintf(1,'\nPretraining Layer 4 with RBM: %d-%d \n',numpen2,numopen);
batchdata=batchposhidprobs;
numhid=numopen; 
restart=1;
rbmhidlinear;
hidtop=vishid; toprecbiases=hidbiases; topgenbiases=visbiases;%第4个rbm
save mnistpo hidtop toprecbiases topgenbiases;

backprop; 

 

rbm.m:

epsilonw      = 0.1;   % Learning rate for weights 
epsilonvb     = 0.1;   % Learning rate for biases of visible units 
epsilonhb     = 0.1;   % Learning rate for biases of hidden units %由此可见这里隐含层和可视层的偏置值不是共用的,当然了,其权值是共用的
weightcost  = 0.0002;   
initialmomentum  = 0.5;
finalmomentum    = 0.9;

[numcases numdims numbatches]=size(batchdata);%[100,784,600]

if restart ==1,
  restart=0;
  epoch=1;

% Initializing symmetric weights and biases. 
  vishid     = 0.1*randn(numdims, numhid); %权值初始值随便给,784*1000
  hidbiases  = zeros(1,numhid); %偏置值初始化为0
  visbiases  = zeros(1,numdims);

  poshidprobs = zeros(numcases,numhid);%100*1000,单个batch正向传播时隐含层的输出概率
  neghidprobs = zeros(numcases,numhid);
  posprods    = zeros(numdims,numhid);%784*1000
  negprods    = zeros(numdims,numhid);
  vishidinc  = zeros(numdims,numhid);
  hidbiasinc = zeros(1,numhid);
  visbiasinc = zeros(1,numdims);
  batchposhidprobs=zeros(numcases,numhid,numbatches);% 整个数据正向传播时隐含层的输出概率
end

for epoch = epoch:maxepoch, %总共迭代10次
 fprintf(1,'epoch %d\r',epoch); 
 errsum=0;
 for batch = 1:numbatches, %每次迭代都有遍历所有的batch
 fprintf(1,'epoch %d batch %d\r',epoch,batch);

%%%%%%%%% START POSITIVE PHASE %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
  data = batchdata(:,:,batch);% 每次迭代都需要取出一个batch的数据,每一行代表一个样本值(这里的数据是double的,不是01的,严格的说后面应将其01化)
  poshidprobs = 1./(1 + exp(-data*vishid - repmat(hidbiases,numcases,1)));% 样本正向传播时隐含层节点的输出概率    
  batchposhidprobs(:,:,batch)=poshidprobs;
  posprods    = data' * poshidprobs;%784*1000,这个是求系统的能量值用的,矩阵中每个元素表示对应的可视层节点和隐含层节点的乘积(包含此次样本的数据对应值的累加)
  poshidact   = sum(poshidprobs);%针对样本值进行求和
  posvisact = sum(data);

%%%%%%%%% END OF POSITIVE PHASE  %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
  poshidstates = poshidprobs > rand(numcases,numhid); %将隐含层数据01化(此步骤在posprods之后进行),按照概率值大小来判定.
                                %rand(m,n)为产生m*n大小的矩阵,矩阵中元素为(0,1)之间的均匀分布。

%%%%%%%%% START NEGATIVE PHASE  %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
  negdata = 1./(1 + exp(-poshidstates*vishid' - repmat(visbiases,numcases,1)));% 反向进行时的可视层数据
  neghidprobs = 1./(1 + exp(-negdata*vishid - repmat(hidbiases,numcases,1)));% 反向进行后又马上正向传播的隐含层概率值    
  negprods  = negdata'*neghidprobs;% 同理也是计算能量值用的,784*1000
  neghidact = sum(neghidprobs);
  negvisact = sum(negdata); 

%%%%%%%%% END OF NEGATIVE PHASE %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
  err= sum(sum( (data-negdata).^2 ));% 重构后的差值
  errsum = err + errsum; % 变量errsum只是用来输出每次迭代时的误差而已

   if epoch>5,
     momentum=finalmomentum;%0.5,momentum为保持上一次权值更新增量的比例,如果迭代次数越少,则这个比例值可以稍微大一点
   else
     momentum=initialmomentum;%0.9
   end;

%%%%%%%%% UPDATE WEIGHTS AND BIASES %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% 
    vishidinc = momentum*vishidinc + ... %vishidinc 784*1000,权值更新时的增量;
                epsilonw*( (posprods-negprods)/numcases - weightcost*vishid); %posprods/numcases求的是正向传播时vihj的期望,同理negprods/numcases是逆向重构时它们的期望
    visbiasinc = momentum*visbiasinc + (epsilonvb/numcases)*(posvisact-negvisact); %这3个都是按照权值更新公式来的
    hidbiasinc = momentum*hidbiasinc + (epsilonhb/numcases)*(poshidact-neghidact);

    vishid = vishid + vishidinc;
    visbiases = visbiases + visbiasinc;
    hidbiases = hidbiases + hidbiasinc;

%%%%%%%%%%%%%%%% END OF UPDATES %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% 

  end
  fprintf(1, 'epoch %4i error %6.1f  \n', epoch, errsum); 
end;

 

CG_MNIST.m:

function [f, df] = CG_MNIST(VV,Dim,XX);

l1 = Dim(1);
l2 = Dim(2);
l3 = Dim(3);
l4= Dim(4);
l5= Dim(5);
l6= Dim(6);
l7= Dim(7);
l8= Dim(8);
l9= Dim(9);
N = size(XX,1);% 样本的个数

% Do decomversion.
 w1 = reshape(VV(1:(l1+1)*l2),l1+1,l2);% VV是一个长的列向量,这里取出的向量已经包括了偏置值
 xxx = (l1+1)*l2; %xxx 表示已经使用了的长度
 w2 = reshape(VV(xxx+1:xxx+(l2+1)*l3),l2+1,l3);
 xxx = xxx+(l2+1)*l3;
 w3 = reshape(VV(xxx+1:xxx+(l3+1)*l4),l3+1,l4);
 xxx = xxx+(l3+1)*l4;
 w4 = reshape(VV(xxx+1:xxx+(l4+1)*l5),l4+1,l5);
 xxx = xxx+(l4+1)*l5;
 w5 = reshape(VV(xxx+1:xxx+(l5+1)*l6),l5+1,l6);
 xxx = xxx+(l5+1)*l6;
 w6 = reshape(VV(xxx+1:xxx+(l6+1)*l7),l6+1,l7);
 xxx = xxx+(l6+1)*l7;
 w7 = reshape(VV(xxx+1:xxx+(l7+1)*l8),l7+1,l8);
 xxx = xxx+(l7+1)*l8;
 w8 = reshape(VV(xxx+1:xxx+(l8+1)*l9),l8+1,l9);% 上面一系列步骤完成权值的矩阵化


  XX = [XX ones(N,1)];
  w1probs = 1./(1 + exp(-XX*w1)); w1probs = [w1probs  ones(N,1)];
  w2probs = 1./(1 + exp(-w1probs*w2)); w2probs = [w2probs ones(N,1)];
  w3probs = 1./(1 + exp(-w2probs*w3)); w3probs = [w3probs  ones(N,1)];
  w4probs = w3probs*w4; w4probs = [w4probs  ones(N,1)];
  w5probs = 1./(1 + exp(-w4probs*w5)); w5probs = [w5probs  ones(N,1)];
  w6probs = 1./(1 + exp(-w5probs*w6)); w6probs = [w6probs  ones(N,1)];
  w7probs = 1./(1 + exp(-w6probs*w7)); w7probs = [w7probs  ones(N,1)];
  XXout = 1./(1 + exp(-w7probs*w8));

f = -1/N*sum(sum( XX(:,1:end-1).*log(XXout) + (1-XX(:,1:end-1)).*log(1-XXout)));%原始数据和重构数据的交叉熵
IO = 1/N*(XXout-XX(:,1:end-1));
Ix8=IO; 
dw8 =  w7probs'*Ix8;%输出层的误差项,但是这个公式怎么和以前介绍的不同,因为它的误差评价标准是交叉熵,不是MSE

Ix7 = (Ix8*w8').*w7probs.*(1-w7probs); 
Ix7 = Ix7(:,1:end-1);
dw7 =  w6probs'*Ix7;

Ix6 = (Ix7*w7').*w6probs.*(1-w6probs); 
Ix6 = Ix6(:,1:end-1);
dw6 =  w5probs'*Ix6;

Ix5 = (Ix6*w6').*w5probs.*(1-w5probs); 
Ix5 = Ix5(:,1:end-1);
dw5 =  w4probs'*Ix5;

Ix4 = (Ix5*w5');
Ix4 = Ix4(:,1:end-1);
dw4 =  w3probs'*Ix4;

Ix3 = (Ix4*w4').*w3probs.*(1-w3probs); 
Ix3 = Ix3(:,1:end-1);
dw3 =  w2probs'*Ix3;

Ix2 = (Ix3*w3').*w2probs.*(1-w2probs); 
Ix2 = Ix2(:,1:end-1);
dw2 =  w1probs'*Ix2;

Ix1 = (Ix2*w2').*w1probs.*(1-w1probs); 
Ix1 = Ix1(:,1:end-1);
dw1 =  XX'*Ix1;

df = [dw1(:)' dw2(:)' dw3(:)' dw4(:)' dw5(:)' dw6(:)'  dw7(:)'  dw8(:)'  ]'; %网络代价函数的偏导数

 

backprop.m:

maxepoch=200;%迭代35次就用了6个多小时,200次要30多个小时,太长时间了,就没让它继续运行了
fprintf(1,'\nFine-tuning deep autoencoder by minimizing cross entropy error. \n');%其微调通过最小化交叉熵来实现
fprintf(1,'60 batches of 1000 cases each. \n');

load mnistvh% 分别download4个rbm的参数
load mnisthp
load mnisthp2
load mnistpo 

makebatches;
[numcases numdims numbatches]=size(batchdata);
N=numcases; 

%%%% PREINITIALIZE WEIGHTS OF THE AUTOENCODER %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
w1=[vishid; hidrecbiases];%分别装载每层的权值和偏置值,将它们作为一个整体
w2=[hidpen; penrecbiases];
w3=[hidpen2; penrecbiases2];
w4=[hidtop; toprecbiases];
w5=[hidtop'; topgenbiases]; 
w6=[hidpen2'; hidgenbiases2]; 
w7=[hidpen'; hidgenbiases]; 
w8=[vishid'; visbiases];

%%%%%%%%%% END OF PREINITIALIZATIO OF WEIGHTS  %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

l1=size(w1,1)-1;%每个网络层中节点的个数
l2=size(w2,1)-1;
l3=size(w3,1)-1;
l4=size(w4,1)-1;
l5=size(w5,1)-1;
l6=size(w6,1)-1;
l7=size(w7,1)-1;
l8=size(w8,1)-1;
l9=l1; %输出层节点和输入层的一样
test_err=[];
train_err=[];


for epoch = 1:maxepoch

%%%%%%%%%%%%%%%%%%%% COMPUTE TRAINING RECONSTRUCTION ERROR %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
err=0; 
[numcases numdims numbatches]=size(batchdata);
N=numcases;
 for batch = 1:numbatches
  data = [batchdata(:,:,batch)];
  data = [data ones(N,1)];% b补上一维,因为有偏置项
  w1probs = 1./(1 + exp(-data*w1)); w1probs = [w1probs  ones(N,1)];%正向传播,计算每一层的输出,且同时在输出上增加一维(值为常量1)
  w2probs = 1./(1 + exp(-w1probs*w2)); w2probs = [w2probs ones(N,1)];
  w3probs = 1./(1 + exp(-w2probs*w3)); w3probs = [w3probs  ones(N,1)];
  w4probs = w3probs*w4; w4probs = [w4probs  ones(N,1)];
  w5probs = 1./(1 + exp(-w4probs*w5)); w5probs = [w5probs  ones(N,1)];
  w6probs = 1./(1 + exp(-w5probs*w6)); w6probs = [w6probs  ones(N,1)];
  w7probs = 1./(1 + exp(-w6probs*w7)); w7probs = [w7probs  ones(N,1)];
  dataout = 1./(1 + exp(-w7probs*w8));
  err= err +  1/N*sum(sum( (data(:,1:end-1)-dataout).^2 )); %重构的误差值
  end
 train_err(epoch)=err/numbatches;%总的误差值(训练样本上)

%%%%%%%%%%%%%% END OF COMPUTING TRAINING RECONSTRUCTION ERROR %%%%%%%%%%%%%%%%%%%%%%%%%%%%%

%%%% DISPLAY FIGURE TOP ROW REAL DATA BOTTOM ROW RECONSTRUCTIONS %%%%%%%%%%%%%%%%%%%%%%%%%
fprintf(1,'Displaying in figure 1: Top row - real data, Bottom row -- reconstructions \n');
output=[];
 for ii=1:15
  output = [output data(ii,1:end-1)' dataout(ii,:)'];%output为15(因为是显示15个数字)组,每组2列,分别为理论值和重构值
 end
   if epoch==1 
   close all 
   figure('Position',[100,600,1000,200]);
   else 
   figure(1)
   end 
   mnistdisp(output);
   drawnow;

%%%%%%%%%%%%%%%%%%%% COMPUTE TEST RECONSTRUCTION ERROR %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
[testnumcases testnumdims testnumbatches]=size(testbatchdata);
N=testnumcases;
err=0;
for batch = 1:testnumbatches
  data = [testbatchdata(:,:,batch)];
  data = [data ones(N,1)];
  w1probs = 1./(1 + exp(-data*w1)); w1probs = [w1probs  ones(N,1)];
  w2probs = 1./(1 + exp(-w1probs*w2)); w2probs = [w2probs ones(N,1)];
  w3probs = 1./(1 + exp(-w2probs*w3)); w3probs = [w3probs  ones(N,1)];
  w4probs = w3probs*w4; w4probs = [w4probs  ones(N,1)];
  w5probs = 1./(1 + exp(-w4probs*w5)); w5probs = [w5probs  ones(N,1)];
  w6probs = 1./(1 + exp(-w5probs*w6)); w6probs = [w6probs  ones(N,1)];
  w7probs = 1./(1 + exp(-w6probs*w7)); w7probs = [w7probs  ones(N,1)];
  dataout = 1./(1 + exp(-w7probs*w8));
  err = err +  1/N*sum(sum( (data(:,1:end-1)-dataout).^2 ));
  end
 test_err(epoch)=err/testnumbatches;
 fprintf(1,'Before epoch %d Train squared error: %6.3f Test squared error: %6.3f \t \t \n',epoch,train_err(epoch),test_err(epoch));

%%%%%%%%%%%%%% END OF COMPUTING TEST RECONSTRUCTION ERROR %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

 tt=0;
 for batch = 1:numbatches/10 %测试样本numbatches是100
 fprintf(1,'epoch %d batch %d\r',epoch,batch);

%%%%%%%%%%% COMBINE 10 MINIBATCHES INTO 1 LARGER MINIBATCH %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
 tt=tt+1; 
 data=[];
 for kk=1:10
  data=[data 
        batchdata(:,:,(tt-1)*10+kk)]; 
 end 

%%%%%%%%%%%%%%% PERFORM CONJUGATE GRADIENT WITH 3 LINESEARCHES %%%%%%%%%%%%%%%%%%%%%%%%%%%%%共轭梯度线性搜索
  max_iter=3;
  VV = [w1(:)' w2(:)' w3(:)' w4(:)' w5(:)' w6(:)' w7(:)' w8(:)']';% 把所有权值(已经包括了偏置值)变成一个大的列向量
  Dim = [l1; l2; l3; l4; l5; l6; l7; l8; l9];%每层网络对应节点的个数(不包括偏置值)

  [X, fX] = minimize(VV,'CG_MNIST',max_iter,Dim,data);

  w1 = reshape(X(1:(l1+1)*l2),l1+1,l2);
  xxx = (l1+1)*l2;
  w2 = reshape(X(xxx+1:xxx+(l2+1)*l3),l2+1,l3);
  xxx = xxx+(l2+1)*l3;
  w3 = reshape(X(xxx+1:xxx+(l3+1)*l4),l3+1,l4);
  xxx = xxx+(l3+1)*l4;
  w4 = reshape(X(xxx+1:xxx+(l4+1)*l5),l4+1,l5);
  xxx = xxx+(l4+1)*l5;
  w5 = reshape(X(xxx+1:xxx+(l5+1)*l6),l5+1,l6);
  xxx = xxx+(l5+1)*l6;
  w6 = reshape(X(xxx+1:xxx+(l6+1)*l7),l6+1,l7);
  xxx = xxx+(l6+1)*l7;
  w7 = reshape(X(xxx+1:xxx+(l7+1)*l8),l7+1,l8);
  xxx = xxx+(l7+1)*l8;
  w8 = reshape(X(xxx+1:xxx+(l8+1)*l9),l8+1,l9); %依次重新赋值为优化后的参数

%%%%%%%%%%%%%%% END OF CONJUGATE GRADIENT WITH 3 LINESEARCHES %%%%%%%%%%%%%%%%%%%%%%%%%%%%%

 end

 save mnist_weights w1 w2 w3 w4 w5 w6 w7 w8 
 save mnist_error test_err train_err;

end

 

 

  MINST识别实验:

  MINST手写数字库的识别部分和前面的降维部分其实很相似。首先它也是预训练整个网络,只不过在MINST识别时,预训练的网络部分需要包括输出softmax部分,且这部分预训练时是用的有监督方法的。在微调部分的不同体现在:MINST降维部分是用的无监督方法,即数据的标签为原始的输入数据。而MINST识别部分数据的标签为训练样本的实际标签

  在进行MINST手写数字体识别的时候,需要计算加入了softmax部分的网络的代价函数,作者的程序中给出了2个函数。其中第一个函数用于预训练softmax分类器:

  function [f, df] = CG_CLASSIFY_INIT(VV,Dim,w3probs,target);

  该函数是专门针对softmax分类器那部分预训练用的,因为一开始的rbm预训练部分没有包括输出层softmax网络。输入参数VV表示整个网络的权值向量(也包括了softmax那一部分),Dim为sofmmax对应部分的2层网络节点个数的向量,w3probs为训练softmax所用的样本集,target为对应样本集的标签。f和df分别为softmax网络的代价函数和代价函数的偏导数。

  另一个才是真正的计算网络微调的代价函数:

  function [f, df] = CG_CLASSIFY(VV,Dim,XX,target);

  函数输入值VV代表网络的参数向量,Dim为每层网络的节点数向量,XX为训练样本集,target为训练样本集的标签,f和df分别为整个网络的代价函数以及代价函数的偏导数。

 

  实验结果:

  作者采用的1个输入层,3个隐含层和一个softmax分类层的输出层,网络的节点数依次为:784-500-500-2000-10。

  其最终识别的错误率为:1.2%.

 

  实验主要部分代码及注释:

mnistclassify.m:

clear all
close all

maxepoch=50; 
numhid=500; numpen=500; numpen2=2000; 

fprintf(1,'Converting Raw files into Matlab format \n');
converter; 

fprintf(1,'Pretraining a deep autoencoder. \n');
fprintf(1,'The Science paper used 50 epochs. This uses %3i \n', maxepoch);

makebatches;
[numcases numdims numbatches]=size(batchdata);

fprintf(1,'Pretraining Layer 1 with RBM: %d-%d \n',numdims,numhid);
restart=1;
rbm;
hidrecbiases=hidbiases; 
save mnistvhclassify vishid hidrecbiases visbiases;%mnistvhclassify为第一层网络的权值保存的文件名

fprintf(1,'\nPretraining Layer 2 with RBM: %d-%d \n',numhid,numpen);
batchdata=batchposhidprobs;
numhid=numpen;
restart=1;
rbm;
hidpen=vishid; penrecbiases=hidbiases; hidgenbiases=visbiases;
save mnisthpclassify hidpen penrecbiases hidgenbiases;%mnisthpclassify和前面类似,第2层网络的

fprintf(1,'\nPretraining Layer 3 with RBM: %d-%d \n',numpen,numpen2);
batchdata=batchposhidprobs;
numhid=numpen2;
restart=1;
rbm;
hidpen2=vishid; penrecbiases2=hidbiases; hidgenbiases2=visbiases;
save mnisthp2classify hidpen2 penrecbiases2 hidgenbiases2;

backpropclassify; 

 

backpropclassify.m:

maxepoch=200;
fprintf(1,'\nTraining discriminative model on MNIST by minimizing cross entropy error. \n');
fprintf(1,'60 batches of 1000 cases each. \n');

load mnistvhclassify %载入3个rbm网络的预训练好了的权值
load mnisthpclassify
load mnisthp2classify

makebatches;
[numcases numdims numbatches]=size(batchdata);
N=numcases; 

%%%% PREINITIALIZE WEIGHTS OF THE DISCRIMINATIVE MODEL%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

w1=[vishid; hidrecbiases];
w2=[hidpen; penrecbiases];
w3=[hidpen2; penrecbiases2];
w_class = 0.1*randn(size(w3,2)+1,10); %因为要分类,所以最后一层直接输出10个节点,类似softmax分类器
 

%%%%%%%%%% END OF PREINITIALIZATIO OF WEIGHTS  %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

l1=size(w1,1)-1;
l2=size(w2,1)-1;
l3=size(w3,1)-1;
l4=size(w_class,1)-1;
l5=10; 
test_err=[];
train_err=[];


for epoch = 1:maxepoch %200

%%%%%%%%%%%%%%%%%%%% COMPUTE TRAINING MISCLASSIFICATION ERROR %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
err=0; 
err_cr=0;
counter=0;
[numcases numdims numbatches]=size(batchdata);
N=numcases;
 for batch = 1:numbatches
  data = [batchdata(:,:,batch)];
  target = [batchtargets(:,:,batch)];
  data = [data ones(N,1)];
  w1probs = 1./(1 + exp(-data*w1)); w1probs = [w1probs  ones(N,1)];
  w2probs = 1./(1 + exp(-w1probs*w2)); w2probs = [w2probs ones(N,1)];
  w3probs = 1./(1 + exp(-w2probs*w3)); w3probs = [w3probs  ones(N,1)];
  targetout = exp(w3probs*w_class);
  targetout = targetout./repmat(sum(targetout,2),1,10); %softmax分类器

  [I J]=max(targetout,[],2);%J是索引值
  [I1 J1]=max(target,[],2);
  counter=counter+length(find(J==J1));% length(find(J==J1))表示为预测值和网络输出值相等的个数
  err_cr = err_cr- sum(sum( target(:,1:end).*log(targetout))) ;
 end
 train_err(epoch)=(numcases*numbatches-counter);%每次迭代的训练误差
 train_crerr(epoch)=err_cr/numbatches;

%%%%%%%%%%%%%% END OF COMPUTING TRAINING MISCLASSIFICATION ERROR %%%%%%%%%%%%%%%%%%%%%%%%%%%%%

%%%%%%%%%%%%%%%%%%%% COMPUTE TEST MISCLASSIFICATION ERROR %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
err=0;
err_cr=0;
counter=0;
[testnumcases testnumdims testnumbatches]=size(testbatchdata);
N=testnumcases;
for batch = 1:testnumbatches
  data = [testbatchdata(:,:,batch)];
  target = [testbatchtargets(:,:,batch)];
  data = [data ones(N,1)];
  w1probs = 1./(1 + exp(-data*w1)); w1probs = [w1probs  ones(N,1)];
  w2probs = 1./(1 + exp(-w1probs*w2)); w2probs = [w2probs ones(N,1)];
  w3probs = 1./(1 + exp(-w2probs*w3)); w3probs = [w3probs  ones(N,1)];
  targetout = exp(w3probs*w_class);
  targetout = targetout./repmat(sum(targetout,2),1,10);

  [I J]=max(targetout,[],2);
  [I1 J1]=max(target,[],2);
  counter=counter+length(find(J==J1));
  err_cr = err_cr- sum(sum( target(:,1:end).*log(targetout))) ;
end
 test_err(epoch)=(testnumcases*testnumbatches-counter); %测试样本的误差,这都是在预训练基础上得到的结果
 test_crerr(epoch)=err_cr/testnumbatches;
 fprintf(1,'Before epoch %d Train # misclassified: %d (from %d). Test # misclassified: %d (from %d) \t \t \n',...
            epoch,train_err(epoch),numcases*numbatches,test_err(epoch),testnumcases*testnumbatches);

%%%%%%%%%%%%%% END OF COMPUTING TEST MISCLASSIFICATION ERROR %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

 tt=0;
 for batch = 1:numbatches/10
 fprintf(1,'epoch %d batch %d\r',epoch,batch);

%%%%%%%%%%% COMBINE 10 MINIBATCHES INTO 1 LARGER MINIBATCH %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
 tt=tt+1; 
 data=[];
 targets=[]; 
 for kk=1:10
  data=[data 
        batchdata(:,:,(tt-1)*10+kk)]; 
  targets=[targets
        batchtargets(:,:,(tt-1)*10+kk)];
 end 

%%%%%%%%%%%%%%% PERFORM CONJUGATE GRADIENT WITH 3 LINESEARCHES %%%%%%%%%%%%%%%%%%%%%%%%%%%%%
  max_iter=3;

  if epoch<6  % First update top-level weights holding other weights fixed. 前6次迭代都是针对softmax部分的预训练
    N = size(data,1);
    XX = [data ones(N,1)];
    w1probs = 1./(1 + exp(-XX*w1)); w1probs = [w1probs  ones(N,1)];
    w2probs = 1./(1 + exp(-w1probs*w2)); w2probs = [w2probs ones(N,1)];
    w3probs = 1./(1 + exp(-w2probs*w3)); %w3probs = [w3probs  ones(N,1)];

    VV = [w_class(:)']';
    Dim = [l4; l5];
    [X, fX] = minimize(VV,'CG_CLASSIFY_INIT',max_iter,Dim,w3probs,targets);
    w_class = reshape(X,l4+1,l5);

  else
    VV = [w1(:)' w2(:)' w3(:)' w_class(:)']';
    Dim = [l1; l2; l3; l4; l5];
    [X, fX] = minimize(VV,'CG_CLASSIFY',max_iter,Dim,data,targets);

    w1 = reshape(X(1:(l1+1)*l2),l1+1,l2);
    xxx = (l1+1)*l2;
    w2 = reshape(X(xxx+1:xxx+(l2+1)*l3),l2+1,l3);
    xxx = xxx+(l2+1)*l3;
    w3 = reshape(X(xxx+1:xxx+(l3+1)*l4),l3+1,l4);
    xxx = xxx+(l3+1)*l4;
    w_class = reshape(X(xxx+1:xxx+(l4+1)*l5),l4+1,l5);

  end
%%%%%%%%%%%%%%% END OF CONJUGATE GRADIENT WITH 3 LINESEARCHES %%%%%%%%%%%%%%%%%%%%%%%%%%%%%

 end

 save mnistclassify_weights w1 w2 w3 w_class
 save mnistclassify_error test_err test_crerr train_err train_crerr;

end

 

CG_CLASSIFY_INIT.m:

function [f, df] = CG_CLASSIFY_INIT(VV,Dim,w3probs,target);%只有2层网络
l1 = Dim(1);
l2 = Dim(2);
N = size(w3probs,1);%N为训练样本的个数
% Do decomversion.
  w_class = reshape(VV,l1+1,l2);
  w3probs = [w3probs  ones(N,1)];  

  targetout = exp(w3probs*w_class);
  targetout = targetout./repmat(sum(targetout,2),1,10);
  f = -sum(sum( target(:,1:end).*log(targetout))) ;%f位softmax分类器的误差函数
IO = (targetout-target(:,1:end));
Ix_class=IO; 
dw_class =  w3probs'*Ix_class; %偏导值

df = [dw_class(:)']'; 

 

CG_CLASSIFY.m:

function [f, df] = CG_CLASSIFY(VV,Dim,XX,target);

l1 = Dim(1);
l2 = Dim(2);
l3= Dim(3);
l4= Dim(4);
l5= Dim(5);
N = size(XX,1);

% Do decomversion.
 w1 = reshape(VV(1:(l1+1)*l2),l1+1,l2);
 xxx = (l1+1)*l2;
 w2 = reshape(VV(xxx+1:xxx+(l2+1)*l3),l2+1,l3);
 xxx = xxx+(l2+1)*l3;
 w3 = reshape(VV(xxx+1:xxx+(l3+1)*l4),l3+1,l4);
 xxx = xxx+(l3+1)*l4;
 w_class = reshape(VV(xxx+1:xxx+(l4+1)*l5),l4+1,l5);


  XX = [XX ones(N,1)];
  w1probs = 1./(1 + exp(-XX*w1)); w1probs = [w1probs  ones(N,1)];
  w2probs = 1./(1 + exp(-w1probs*w2)); w2probs = [w2probs ones(N,1)];
  w3probs = 1./(1 + exp(-w2probs*w3)); w3probs = [w3probs  ones(N,1)];

  targetout = exp(w3probs*w_class);
  targetout = targetout./repmat(sum(targetout,2),1,10);
  f = -sum(sum( target(:,1:end).*log(targetout))) ;

IO = (targetout-target(:,1:end));
Ix_class=IO; 
dw_class =  w3probs'*Ix_class; 

Ix3 = (Ix_class*w_class').*w3probs.*(1-w3probs);
Ix3 = Ix3(:,1:end-1);
dw3 =  w2probs'*Ix3;

Ix2 = (Ix3*w3').*w2probs.*(1-w2probs); 
Ix2 = Ix2(:,1:end-1);
dw2 =  w1probs'*Ix2;

Ix1 = (Ix2*w2').*w1probs.*(1-w1probs); 
Ix1 = Ix1(:,1:end-1);
dw1 =  XX'*Ix1;

df = [dw1(:)' dw2(:)' dw3(:)' dw_class(:)']'; 

 

   实验总结:

   1. 终于阅读了一个RBM的源码了,以前看那些各种公式的理论,现在有了对应的code,读对应的code起来就是爽!

   2. 这里由于用的是整个图片进行训练(不是用的它们的patch部分),所以没有对应的convolution和pooling,因此预训练网络结构时下一个rbm网络的输入就是上一个rbm网络的输出,且当没有加入softmax时的微调阶段用的依旧是无监督的学习(此时的标签依旧为原始的输入数据);而当加入了softmax后的微调部分用的就是训练样本的真实标签了,因为此时需要进行分类。

   3. 深度越深,则网络的微调时间越长,需要很多时间收敛,即使是进行了预训练。

   4. 暂时还没弄懂要是针对大图片采用covolution训练时,第二层网络的数据来源是什么,有可能和上面的一样,是上层网络的输出(但是此时微调怎么办呢,不用标签数据?)也有可能是大图片经过第一层网络covolution,pooling后的输出值(如果是这样的话,网络的代价函数就不好弄了,因为里面有convolution和pooling操作)。

 

  参考资料:

     Deep learning:三十四(用NN实现数据的降维)

  reducing the dimensionality of data with neural networks

     http://www.cs.toronto.edu/~hinton/MatlabForSciencePaper.html

     取模(mod)与取余(rem)的区别——Matlab学习笔记


评论:

#1楼   2013-06-13 11:10 |  果实无双   
现在对于AE和RBM这两者的区别很是困惑,这是两种基本的不同的方法吗?越看越困惑,我理解的是它们在计算梯度时用的损失函数不同
  
#2楼 [ 楼主2013-06-15 23:24 |  tornadomeet   
@果实无双
AE定义比较泛,凡是能够无监督提取数据特征的都可以叫做AE,所以AE也可以由RBM来实现。
  
#3楼   2013-06-30 06:48 |  welcome_andy   
无双,打扰下,你好,想向你请教下,如果我要用rbm作为feature extraction, 应该用哪个作为feature呢? v0-h0-h1-v1, h0? 那么对于test data,我该怎么提取feature? 用迭代得到的vishid和hidbiases来计算?
poshidprobs = 1./(1 + exp(-data*vishid - repmat(hidbiases,numcases,1)));% 样本正向传播时隐含层节点的输出概率。
你实现sparse RBM? 我搞了好久,结果都不对。求建议
  
#4楼 [ 楼主2013-07-14 19:38 |  tornadomeet   
@welcome_andy
训练好了W后,test部分每输入一个样本就可以通过前向传播算成hidden的值,这个值就是其特征了。
  
#5楼   2013-08-18 09:47 |  tangjianbo   
参考资料取模(mod)与取余(rem)的区别——Matlab学习笔记

  通常取模运算也叫取余运算,它们返回结果都是余数.rem和mod唯一的区别在于:
  当x和y的正负号一样的时候,两个函数结果是等同的;当x和y的符号不同时,rem函数结果的符号和x的一样,而mod和y一样。这是由于这两个函数的生成机制不同,rem函数采用fix函数,而mod函数采用了floor函数(这两个函数是用来取整的,fix函数向0方向舍入,floor函数向无穷小方向舍入)。rem(x,y)命令返回的是x-n.*y,如果y不等于0,其中的n = fix(x./y),而mod(x,y)返回的是x-n.*y,当y不等于0时,n=floor(x./y)


floor函数不是向“无穷小方向”舍入,而是向“负无穷方向”舍入吧?
  
#6楼 [ 楼主2013-08-18 09:54 |  tornadomeet   
@tangjianbo
这是同一个意思吧
  
#7楼   2013-08-18 10:58 |  tangjianbo   
@tornadomeet
不是同一个意思吧,无穷小方向是指趋向于0吧?
  
#8楼 [ 楼主2013-08-18 11:30 |  tornadomeet   
@tangjianbo
0怎么能算无穷小呢,随便一个负数都比它小。PS:领会懂意思就行,不要太纠结这些。
  
#9楼   2013-08-18 12:23 |  tangjianbo   
@tornadomeet
好,不纠结于这些,只是感觉和所学有点冲突
  
#10楼   2013-09-09 09:15 |  lymarzzh   
你好,这篇文章我也读过,试着去运行这些这些代码,总是会出现一些错误。不知道您是在什么平台下,运行的matlab?相应的matlab版本?
  
#11楼   2013-09-28 16:13 |  ritaiask   
你好,跟着你的deep learning部分进行着方面的学习的, 对于rbm代码里,有个地方不理解, 为什么vishid增量vishidinc的更新前面还要加上momentum*vishidinc ,那biases的更新量也一样要加上这个数,reducing the dimensionality of data with neural networks这篇论文中的公式2介绍了the change in a weight ,并没有mementum 那个量啊~~~
  
#12楼   2013-10-10 13:27 |  wotter   
楼主 你好 rbm代码中只用了posprods-negprods来迭代权值W 没有体现日rbm中说的那个能量函数最小啊
  
#13楼 [ 楼主2013-10-30 22:03 |  tornadomeet   
@lymarzzh
matlab2012a,xp和win7都有。
  
#14楼 [ 楼主2013-10-30 22:05 |  tornadomeet   
@wotter
那个是理论证明。用posprods-negprods来迭代权值W就是利用了这个理论。
  
#15楼 [ 楼主2013-10-30 22:06 |  tornadomeet   
@ritaiask
momentum是一个工程技巧,DL中很多地方都会用到,主要是保留上一次迭代的一些信息。
  
#16楼   2013-12-01 14:54 |  紫de甘蓝   
CG_CLASSIFY.m里后面计算梯度的时候,比如 Ix6 = (Ix7*w7').*w6probs.*(1-w6probs); 为什么要乘以w6probs.*(1-w6probs); 

后面每一层都这样做的,为什么呢?
  
#17楼 [ 楼主2013-12-01 21:21 |  tornadomeet   
#18楼   2013-12-03 16:19 |  lqforsym   
在rbm.m中用的data是二值的吗?
  
#19楼 [ 楼主2013-12-03 16:28 |  tornadomeet   
@lqforsym
这里是的。
  
#20楼   2013-12-03 19:20 |  lqforsym   
@tornadomeet
请问是不是有个DL的群,能否告知一下群号?
  
#22楼   2013-12-04 10:36 |  lqforsym   
请问楼主,rbm权值优化步骤中得到v'后进行正向传播为啥不用01化呢?不是说可视节点是二值的吗?
  
#23楼 [ 楼主2013-12-04 11:44 |  tornadomeet   
@lqforsym
因为这里用的是CD-1的训练方法,只用采样一步。如果用多步的话,则v'还需01化。
  
#24楼   2013-12-04 14:30 |  lqforsym   
@tornadomeet
CD-1只采样一步为啥就不需要01化呢?可不可以稍微解释一下呢,我是菜鸟
  
#25楼 [ 楼主2013-12-04 16:04 |  tornadomeet   
@lqforsym
01化的目的是为了得到模型产生的样本,那里的v'已经是所需要的样本了(CD-1时),而我们在对权值求导时是通过2个能量函数的期望的差得到的,能量函数在计算时是不用将隐层节点01化的。
具体的数学原理可以去参考这部分的论文,我也没有深究过。
  
#26楼   2013-12-04 16:27 |  lqforsym   
@tornadomeet
好的,谢谢!
  
#27楼   2013-12-05 20:15 |  lqforsym   
请问把每一层的概率作为下一层的输入啊?有没有什么解释?另外我看了一下60000个training data都是把0-255的灰度值压缩到0-1之间,是double 型的,这和可视节点为二值的不是矛盾了么
  
#28楼 [ 楼主2013-12-06 09:14 |  tornadomeet   
@lqforsym
宏观上的解释就是第二层本身就搭在第一层上,所以第二个RBM的pre-training输入是第一个的输出,和前向传播类似。至于为什么这样会有效,建议去参考论文,不过论文也没有具体的数学证明(DL的理论缺陷)。
第二个问题,作者这里的数据确实是double,这里的rbm也不是真正的01rbm,和文章描述的不完全相符,它直接将01rbm的公式用上了,有点类似GRBM中的均值固定0,方差固定1,这样的GRBM在对w,b的更新时公式不变,只是c稍有不同。所以最好的做法是先将数据自己01化(这个很简单),然后再用01rbm的算法。
  
#29楼   2013-12-08 17:10 |  harry1989   
楼主,你好,数据集中大部分图像都是灰度图像,而且图像中的大部分位置的像素值为0,那么能否用于rgb彩色图像的处理呢? 假设输入数据是原始的彩色片该怎么处理呢? 请问楼主有没有相关的经验呢,望解答~

先提前拜谢了~
  
#30楼 [ 楼主2013-12-08 22:43 |  tornadomeet   
@harry1989
彩色图片和灰度图片处理起来没有任何本质区别。最后都是要弄成一个向量,只不过彩色图片的向量长度是灰度的3倍而已。
可以直接将彩色图的3个通道串起来,UFLDL中就是这么干的。
  
#31楼   2013-12-09 16:55 |  ss1220   
楼主你好,我现在有一个81乘72的二维数据,可以用这种方法降维么?降成81乘一个小于72维度的数据。
  
#32楼 [ 楼主2013-12-09 20:32 |  tornadomeet   
@ss1220
你只有一个数据啊?那不行,这些参数需要大量数据学习得到
  
#33楼   2013-12-10 10:20 |  ss1220   
@tornadomeet
81乘72维的数据算是一个数据么?那对于这种大小的数据,您有什么推荐的降维方法么?
  
#34楼   2013-12-10 10:33 |  ss1220   
@tornadomeet
事实上我有81个samples,需要把72维降成较小的维数
  
#35楼 [ 楼主2013-12-10 10:36 |  tornadomeet   
@ss1220
我说的一个数据指的是一个样本
  
#36楼 [ 楼主2013-12-10 10:36 |  tornadomeet   
@ss1220
PCA就可以降维。81个sample用NN有点少
  
#37楼   2013-12-10 11:20 |  ss1220   
@tornadomeet
我的老师要求我用神经网络来做。您觉得可以么?
  
#38楼   2013-12-10 11:23 |  ss1220   
@tornadomeet
后期样本会加一些,加到一百多个样本应该。不过现在老师就要求我把这个81个样本用神经网络降维。
  
#39楼 [ 楼主2013-12-10 16:07 |  tornadomeet   
@ss1220
只单纯降维,不考虑泛化能力是可以的,就像做分类把训练样本准确度搞到100%一样,不过这样的降维没有意义。
  
#40楼   2013-12-17 19:55 |  wywgreat   
博主您好,我对RBM中的分成batch来进行处理不是很明白,比如自己现在有3000个3522维的数据,想用RBM来学习,那么自己来分batch有没有什么讲究呢?自己是数学背景,所以编程和读代码能力还不太行,希望博主解答!非常感谢‘!
  
#41楼 [ 楼主2013-12-18 11:09 |  tornadomeet   
@wywgreat
这些都是看个人的,没什么理论指导。
自己分成10份,20份,什么的都行。要多试。
  
#42楼   2013-12-18 22:27 |  wywgreat   
@tornadomeet
嗯嗯,非常感谢!还有个问题想向您请教一下,Hinton的这个代码用的是CD1吗?若是效果不好是不是还可以在这个基础上再改一改代码用CD3、CD5···之类的呢?还有一个问题就是:按照自己的对代码的理解,每一个batch在使用CD1进行权重更新后下一个batch在更新了的权重基础上继续更新,如此进行下去迭代maxepoch次,请问博主我的理解是不是正确的呢?非常感谢!
  
#43楼 [ 楼主2013-12-19 12:12 |  tornadomeet   
问题1.你先实现CD1,然后实现CD3,CD5对比下就知道了,hintion在论文中已经解释过了。
问题2:对的。
  
#44楼   2014-01-12 17:07 |  进击的城管   
增加的momentum 和finalmomentum的作用是啥子 ?这两个变量的物理意义是啥子呀?~~
  
#45楼   2014-01-12 17:19 |  进击的城管   
momentum是一个工程技巧,DL中很多地方都会用到,主要是保留上一次迭代的一些信息。对这句话也不理解···
  
#46楼   2014-01-12 19:48 |  进击的城管   
rbm的代码注释里,finalmomentum是0.9,initialmomentum是0.5
所以是迭代次数多,比例值可以大一些,就是如果步数多的话,每一步可以跨小一点
if epoch>5,
momentum=finalmomentum;%0.5,momentum为保持上一次权值更新增量的比例,如果迭代次数越少,则这个比例值可以稍微大一点
else
momentum=initialmomentum;%0.9
end;
  
#47楼   2014-01-13 09:51 |  harry1989   
楼主,您好。当把样本图片按列展开,输入网络中之前需要进行特别的预处理吗?如果有必要的话,都包括哪些预处理呢?
  
#48楼 [ 楼主2014-01-13 21:23 |  tornadomeet   
@harry1989
一般比较多的是归一化
  
#49楼 [ 楼主2014-01-13 21:24 |  tornadomeet   
@进击的城管
冲量。类似于物理总的动量一样,改变方向时不突变,保留前一时刻的部分值,有利于曲线平滑
  
#50楼   2014-01-15 15:49 |  进击的城管   
博主,我想用mfcc数据作为输入到高斯RBM中做语音识别,但是不知道该怎么归一化数据比较好,最大最小值归一最大值怎么选?全部样本中的最大值吗?非线性的归一会损失掉数据吗?要不要保留mfcc中的能量?或者再加上差分mfcc和二次差分mfcc?
  
#51楼   2014-01-16 18:13 |  进击的城管   
博主,再问个问题,mfcc可不可以像傅立叶变换那样进行逆变换完全重构出原来的数据呀?我看了mfcc的过程···判断不了··
  
#52楼 [ 楼主2014-01-21 16:38 |  tornadomeet   
@进击的城管
mfcc得到的数据直接归一化到-1到1之间就可以了。
后面的问题没看明白。
  
#53楼 [ 楼主2014-01-21 16:42 |  tornadomeet   
@进击的城管
中间有滤波操作,重构不了吧,我对mfcc也不熟悉
  
#54楼   2014-04-03 09:57 |  weihli   
对于输入为二值时,微调是通过最小化交叉熵来实现,即最小化f = -1/N*sum(sum( XX(:,1:end-1).*log(XXout) + (1-XX(:,1:end-1)).*log(1-XXout))); 但对于输入是连续值时这个公式就不能用了,是否要改成MSE
  
#55楼   2014-04-18 15:35 |  我读书少你可别骗我   
博主 请问我用MATLAB2010b跑的时候 converter.m会报错
??? Error using ==> fread
Invalid file identifier. Use fopen to generate a valid file identifier.

Error in ==> converter at 35
[a,count] = fread(f,4,'int32');
这是为什么?
  
#56楼   2014-05-06 21:57 |  柳岸清风   
@我读书少你可别骗我
可能是上一句fopen()里面那个文件名书写有点问题,中间一个破折号,而原始文件那个地方是个点
  
#57楼   2014-05-06 21:58 |  柳岸清风   
请教楼主,我运行这个程序时候总是out of memory,有什么办法可以解决吗?
  
#58楼   2014-05-10 16:49 |  Alex钟   
请问有无尝试过改hinton的程序,例如将隐藏层3层,改为2层或者1层,希望得到你的回答
  
#59楼 [ 楼主2014-05-18 18:46 |  tornadomeet   
@weihli
也是可以的。只要数据归一化到(0,1)之间都可以用交叉熵。
  
#60楼 [ 楼主2014-05-18 18:47 |  tornadomeet   
@Alex钟
没改过
  
#61楼   2014-06-02 19:09 |  嘎吱   
博主好,有个问题想请教。就是我用hinton论文中的的深度的autoencoder压缩部分进行数据处理的时候,输入的数据全部是非负的,降维之后出现了负值,这个是合理的吗
  
#62楼 [ 楼主2014-06-05 00:12 |  tornadomeet   
@嘎吱
看重构是否可接受。
  
#63楼   2014-07-20 14:17 |  Tsien   
LZ,第一个实验中,第四层RBM训练用的是rbmhidlinear.m,能否注释一下这个文件,以及为啥最后一层要这么处理?
  
#64楼   2014-08-23 16:19 |  codding   
很喜欢博主的文章,刚刚用豆约翰博客备份专家备份了您的全部博文。
  
#65楼   2014-10-27 15:46 |  lishan   
@weihli
代码中就是连续的呀,cost也是用交叉熵计算的。
里面压根就没有MSE
  
#66楼   2015-03-17 17:45 |  xiaoYY   
@Tsien
你好,我也对这有疑问,请问现在 你搞懂了吗?
  
#67楼   2015-04-20 19:09 |  mingzailao   
看了博主的前面几篇文章,写的很用心啊 ~~赞

最近就在看Hinton的这篇论文A Fast Learning Algorithm for Deep Belief Nets

问一下一个问题,可以详细讲解一下momentum的作用么??
  

原文地址:http://www.cnblogs.com/tornadomeet/archive/2013/04/30/3052349.html#!comments


本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Deep learning:三十五(用NN实现数据降维练习) 的相关文章

随机推荐

  • Java反射机制详解——框架的灵魂所在

    反射作为框架的核心 在Java中处于一个极为重要的地位 而且反射在Java中属于比较高级的技术 需要有对Java一定的理解才可以掌握好 反射可以在程序运行过程中修改程序的行为 但是与此同时反射也是极其危险的 需要谨慎使用 Class Cla
  • 【CTF】Crypto Writeup【思路已经告诉你了】

    题目 标题 思路已经告诉你了 THERE IS A WORD len WORD 4 md5 WORD key cf9c6242ecfbc924842c8a2095e44c5a SHA256 SHA256 WORD FLAG KEY SHA2
  • Android项目中运行main方法,进行测试,配置方法

    博主前些天发现了一个巨牛的人工智能学习网站 通俗易懂 风趣幽默 忍不住也分享一下给大家 点击跳转到教程 在高版本的Android Studio中 在Android项目中 直接运行main方法会报错 配置方法如下 1 找到 idea文件夹 2
  • idea中如何清除大量无用的废弃代码呢

    如何便捷的找到整个工程中废弃无用的私有方法 类以及变量呢 类似于 这样的 就说明该类没有任何地方引用 此时这样的类留在我们工程中 白白占用空间 拖慢启动速度 增大读代码的代价 如何轻松快速的把这些无用的代码一次抓出来呢 这里给出一种很简便的
  • DINO 论文笔记

    DINO DETR with Improved DeNoising Anchor Boxes for End to End Object Detection DINO通过使用对比方法 混合查询选择方法的anchor初始化的和盒子预测的loo
  • 【看后必会】一步步教你用React写一个markdown实时编辑器!

    1 实现效果 最近在用React写一个博客管理系统 有一个功能是添加新文章 在新建文章的页面 我希望做到像CSDN这样 左边是编辑区 markdown格式 右边是预览区 实时更新 编辑文本的同时 在预览区就能看到效果 就自己动手实现了一个这
  • 华为OD 机试3题(通过率60%,80%,75%)

    import java util List import java util Scanner import java util class Points int x int y public Points int x int y this
  • uni-app:刷新当前页面

    var pages getCurrentPages 获取所有页面的数组对象 var currPage pages pages length 1 当前页面 uni redirectTo url currPage page fullPath 执
  • [javascript] 深入理解js闭包

    闭包 closure 是Javascript语言的一个难点 也是它的特色 很多高级应用都要依靠闭包实现 一 变量的作用域 要理解闭包 首先必须理解Javascript特殊的变量作用域 变量的作用域无非就是两种 全局变量和局部变量 Javas
  • MULTI-CHANNEL SPEECH ENHANCEMENT USING GRAPH NEURAL NETWORKS 文献翻译

    MULTI CHANNEL SPEECH ENHANCEMENT USING GRAPH NEURAL NETWORKS 文献翻译 来自于脸书实验室的一篇文章 将图神经网络用在了多通道语音增强上面 思路比较新奇 下面可以通篇看一下翻译的中文
  • [整理]Linux配置开启SSH服务

    查看SSH是否已经安装 系统一般自带 rpm qa grep ssh 安装SSH yum install ssh 启动SSH service sshd start 停止SSH service sshd stop 重启SSH service
  • Windows下cmd命令,进入指定目录,创建查看目录

    Windows的cmd如何进入指定目录 1 进入指定盘 盘符 不区分大小写 只有盘符不区分 其下的一级到多级目录需要区分大小写 gt c gt d 2 进入D盘下的文件夹中 D盘下的一级目录可以使用下面三种进入 必须是在D gt 下键入 二
  • MFC下ADO连接MYSQL数据库

    一 ADO简介 MFC下最常见的两种连接数据库的方式就ODBC和ADO 而ADO是在OLEDB之上的高层数据库访问技术 其最大的优势就进行了封装 这样可以使我们在程序中控制对数据库的操作更加方便 而且当单独封装成类后 符合模块化的思想 二
  • 云服务器机型系统选择,云服务器机型选择操作系统

    云服务器机型选择操作系统 内容精选 换一换 按需购买的两台同类型弹性云服务器 操作系统类型相同 如Windows和Windows Linux和Linux 关机卸载系统盘后 重新挂载至对方弹性云服务器 实现系统盘互换 互换成功后 弹性云服务器
  • JVM的CMS(concurrent mark sweep)四个阶段详细介绍

    1 initial mark 初始标记 通过GC roots找到根对象 这个过程会STW stop the world 由于根对象并不多 所以STW的时间不会长 2 concurrent mark 并发标记 这个过程其他工作线程也在改变引用
  • Windows下Jenkins的详细安装及使用

    1 Ubuntu下Jenkins具体安装与构建部署使用教程 Jenkins是一个开源软件项目 旨在提供一个开放易用的软件平台 使软件的持续集成变成可能 Jenkins是基于Java开发的一种持续集成工具 用于监控持续反复的工作 功能包含 1
  • Resful API是什么

    文章目录 摘要 1 RESTful API是什么 2 RESTful是什么 参考资料 摘要 RESTful是整个网络应用程序设计风格和开发方式 而RESTful API是其中API的设计风格 1 RESTful API是什么 API接口在设
  • idea调试debug(HashMap,ArrayList等)开启/关闭集合类视图

    idea对集合类调试的时候自己做了视图 忽略掉了集合的内部结构 在下面的位置关闭就可以看到原有的集合视图 debug下对比 ArrayList debug下对比 HashMap
  • Java并发编程实战

    文章目录 Java并发编程实战 并发简史 计算机 进程和线程 什么是线程安全类 它的定义是什么 原子性与复合操作 内置锁 锁的重入 用锁来保护状态 活跃性与性能 对象的共享 可见性 使用volatile可以保证可见性 任务执行 在一个线程中
  • Deep learning:三十五(用NN实现数据降维练习)

    前言 本文是针对上篇博文Deep learning 三十四 用NN实现数据的降维 的练习部分 也就是Hition大牛science文章reducing the dimensionality of data with neural netwo