caffe SigmoidLayer 学习

2023-11-17

SimgoidLayer 的定义

neuron_layer.h

template <typename Dtype>
class SigmoidLayer : public NeuronLayer<Dtype> {
 public:
  explicit SigmoidLayer(const LayerParameter& param)
      : NeuronLayer<Dtype>(param) {}
  virtual inline const char* type() const { return "Sigmoid"; }
 protected://正向传播和反向传播
  virtual void Forward_cpu(const vector<Blob<Dtype>*>& bottom,
      const vector<Blob<Dtype>*>& top);
  virtual void Forward_gpu(const vector<Blob<Dtype>*>& bottom,
      const vector<Blob<Dtype>*>& top);
  virtual void Backward_cpu(const vector<Blob<Dtype>*>& top,
      const vector<bool>& propagate_down, const vector<Blob<Dtype>*>& bottom);
  virtual void Backward_gpu(const vector<Blob<Dtype>*>& top,
      const vector<bool>& propagate_down, const vector<Blob<Dtype>*>& bottom);
};

sigmoid_layer.cpp

template <typename Dtype>
inline Dtype sigmoid(Dtype x) {//内联函数，在程序编译时，编译器将程序中出现的内联函数的调用表达式用内联函数的函数体来进行替代。
  return 1. / (1. + exp(-x));
}
template <typename Dtype>
void SigmoidLayer<Dtype>::Forward_cpu(const vector<Blob<Dtype>*>& bottom,
    const vector<Blob<Dtype>*>& top) {
  const Dtype* bottom_data = bottom[0]->cpu_data();
  Dtype* top_data = top[0]->mutable_cpu_data();
  const int count = bottom[0]->count();
  for (int i = 0; i < count; ++i) {
    top_data[i] = sigmoid(bottom_data[i]);
  }
}
template <typename Dtype>
void SigmoidLayer<Dtype>::Backward_cpu(const vector<Blob<Dtype>*>& top,
    const vector<bool>& propagate_down,
    const vector<Blob<Dtype>*>& bottom) {
  if (propagate_down[0]) {//propagate_down[0]不为0就进行反向传播
    const Dtype* top_data = top[0]->cpu_data();
    const Dtype* top_diff = top[0]->cpu_diff();
    Dtype* bottom_diff = bottom[0]->mutable_cpu_diff();
    const int count = bottom[0]->count();
    for (int i = 0; i < count; ++i) {
      const Dtype sigmoid_x = top_data[i];
      bottom_diff[i] = top_diff[i] * sigmoid_x * (1. - sigmoid_x);
    }
  }

sigmoid_layer.cu

template <typename Dtype>
__global__ void SigmoidForward(const int n, const Dtype* in, Dtype* out) {
/*#define CUDA_KERNEL_LOOP(i, n) \
  for (int i = blockIdx.x * blockDim.x + threadIdx.x; \
       i < (n); \
       i += blockDim.x * gridDim.x)
*///下面这段的含义是进行一列一列的处理。
  CUDA_KERNEL_LOOP(index, n) {
    out[index] = 1. / (1. + exp(-in[index]));
  }
}

template <typename Dtype>
void SigmoidLayer<Dtype>::Forward_gpu(const vector<Blob<Dtype>*>& bottom,
    const vector<Blob<Dtype>*>& top) {
  const Dtype* bottom_data = bottom[0]->gpu_data();
  Dtype* top_data = top[0]->mutable_gpu_data();
  const int count = bottom[0]->count();
  // NOLINT_NEXT_LINE(whitespace/operators)
  SigmoidForward<Dtype><<<CAFFE_GET_BLOCKS(count), CAFFE_CUDA_NUM_THREADS>>>(
      count, bottom_data, top_data);
  CUDA_POST_KERNEL_CHECK;//判断返回是否争取
  //#define CUDA_POST_KERNEL_CHECK CUDA_CHECK(cudaPeekAtLastError())
  /*
  #define CUDA_CHECK(condition) \
  /* Code block avoids redefinition of cudaError_t error */ \
  do { \
    cudaError_t error = condition; \
    CHECK_EQ(error, cudaSuccess) << " " << cudaGetErrorString(error); \
    //这个是判断是否等于cudaSuccess，如果成功，返回的是cudaSuccess，失败的话打印出来错误的编号。
  } while (0)
  */
  // << " count: " << count << " bottom_data: "
  //     << (unsigned long)bottom_data
  //     << " top_data: " << (unsigned long)top_data
  //     << " blocks: " << CAFFE_GET_BLOCKS(count)
  //     << " threads: " << CAFFE_CUDA_NUM_THREADS;
}

template <typename Dtype>
__global__ void SigmoidBackward(const int n, const Dtype* in_diff,
    const Dtype* out_data, Dtype* out_diff) {
  CUDA_KERNEL_LOOP(index, n) {
    const Dtype sigmoid_x = out_data[index];
    out_diff[index] = in_diff[index] * sigmoid_x * (1 - sigmoid_x);
  }
}

template <typename Dtype>
void SigmoidLayer<Dtype>::Backward_gpu(const vector<Blob<Dtype>*>& top,
    const vector<bool>& propagate_down,
    const vector<Blob<Dtype>*>& bottom) {
  if (propagate_down[0]) {
    const Dtype* top_data = top[0]->gpu_data();
    const Dtype* top_diff = top[0]->gpu_diff();
    Dtype* bottom_diff = bottom[0]->mutable_gpu_diff();
    const int count = bottom[0]->count();
    // NOLINT_NEXT_LINE(whitespace/operators)
    /*CAFFE_CUDA_NUM_THREADS 的定义
    #if __CUDA_ARCH__ >= 200
        const int CAFFE_CUDA_NUM_THREADS = 1024;
    #else
        const int CAFFE_CUDA_NUM_THREADS = 512;
    #endif
    inline int CAFFE_GET_BLOCKS(const int N) {//使用好简洁啊，grid是一维度的。block也是一维的。
      return (N + CAFFE_CUDA_NUM_THREADS - 1) / CAFFE_CUDA_NUM_THREADS;
    }
    */
    SigmoidBackward<Dtype><<<CAFFE_GET_BLOCKS(count), CAFFE_CUDA_NUM_THREADS>>>(
        count, top_diff, top_data, bottom_diff);
    CUDA_POST_KERNEL_CHECK;
  }
}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

caffe

CUDA

caffe SigmoidLayer 学习的相关文章

如何使用 CUDA/Thrust 对两个数组/向量根据其中一个数组中的值进行排序

这是一个关于编程的概念问题总而言之我有两个数组向量我需要对一个数组向量进行排序并将更改传播到另一个数组向量中这样如果我对 arrayOne 进行排序则对于排序中的每个交换 arrayTwo 也会发生同样的情况现在我知
如何为 CUDA 内核选择网格和块尺寸？

这是一个关于如何确定CUDA网格块和线程大小的问题这是对已发布问题的附加问题here https stackoverflow com a 5643838 1292251 通过此链接 talonmies 的答案包含一个代码片段见下文我
内联 PTX 汇编代码强大吗？

我看到一些代码示例人们在 C 代码中使用内联 PTX 汇编代码 CUDA工具包中的文档提到PTX很强大为什么会这样呢如果我们在 C 代码中使用这样的代码我们会得到什么好处内联 PTX 使您可以访问未通过 CUDA 内在函数公开的指
“gld/st_throughput”和“dram_read/write_throughput”指标之间有什么区别？

在 CUDA 可视化分析器版本 5 中我知道 gld st requested throughput 是应用程序请求的内存吞吐量然而当我试图找到硬件的实际吞吐量时我很困惑因为有两对似乎合格的指标它们是 gld st throug
OS X 10.8 上的 PyCuda / 多处理问题

我正在开发一个项目将计算任务分配给多个 python 进程每个进程都与其自己的 CUDA 设备关联生成子进程时我使用以下代码 import pycuda driver as cuda class ComputeServer obje
使用Python构建caffe（找不到-lboost_python3）

我正在尝试用 python 构建 caffe 但它一直这样说 CXX LD o python caffe caffe so python caffe caffe cpp usr bin ld cannot find lboost pytho
PyInstaller 是否包含 CUDA

我正在开发一个Python脚本我使用Python 3 7 3 它使用tensorflow gpu 1 14 0 并使用PyInstaller 3 5将此脚本转换为可执行文件我使用的是 CUDA 10 0 和 cuDNN 7 6 1 我的
cudaDeviceScheduleBlockingSync 和 cudaDeviceScheduleYield 之间有什么区别？

正如这里所说如何减少 CUDA 同步延迟延迟 https stackoverflow com questions 11953722 how to reduce cuda synchronize latency delay 等待设备结果有
CUDA计算能力2.0。全局内存访问模式

CUDA 计算能力 2 0 Fermi 全局内存访问通过 768 KB L2 缓存进行看起来开发人员不再关心全局内存库但全局内存仍然非常慢因此正确的访问模式很重要现在的重点是尽可能多地使用重用 L2 我的问题是如何我将感谢一
如何使用pycaffe重构caffe网络

我想要的是加载网络后我将分解一些特定的图层并保存新的网络例如原网数据 gt conv1 gt conv2 gt fc1 gt fc2 gt softmax New net 数据 gt conv1 1 gt conv1 2 gt c
OpenCV 2.4.3rc 和 CUDA 4.2：“OpenCV 错误：没有 GPU 支持”

我在这张专辑中上传了几张截图 https i stack imgur com TELST jpg https i stack imgur com TELST jpg 我正在尝试在 Visual Studio 2008 中的 OpenCV 中
CUDA 8 编译错误 -std=gnu++11

我正在尝试转换一些代码以使用 CUDA 并且我认为我遇到了兼容性问题我们使用CMake 这些是我使用的 gcc 和 CUDA 版本 gcc version gcc Ubuntu 5 4 0 6ubuntu1 16 04 5 5 4 0 2
NVCC 警告级别

我希望 NVCC 将以下警告视为错误 warning calling a host function foo from a host device function bar NVCC 文档 NVIDIA CUDA 编译器驱动程序 NVCC
caffe安装：opencv libpng16.so.16链接问题

我正在尝试在 Ubuntu 14 04 机器上使用 python 接口编译 caffe 我已经安装了 Anaconda 和 opencvconda install opencv 我还安装了咖啡中规定的所有要求并更改了注释块makefile
为什么 cudaGLSetGLDevice 失败，即使它是在 main 函数的第一行中调用的

我想使用 OpenGL 和 CUDA 之间的互操作性我知道正如一些教程所说第一步是选择设备但是当我在主函数的第一行中调用 cudaGLSetGLDevice 0 时程序退出并显示信息 cudaSafeCall 运行时 API 错
我们如何在每次运行时使用不同的种子在 CUDA C 中生成随机数？

我正在研究一个随机过程我想在每次运行程序时在 CUDA 内核中生成不同的系列随机数这类似于我们在 C 中声明种子时间空接下来是 srand 种子和兰特我可以通过内核将种子从主机传递到设备但是这样做的问题是我必须将整个种子
CUDA-Kernel 应该根据块大小动态崩溃

我想做稀疏矩阵密集向量乘法假设用于压缩矩阵中条目的唯一存储格式是压缩行存储 CRS 我的内核如下所示 global void krnlSpMVmul1 float data mat int num nonzeroes unsigned
使 pycaffe 致命错误：找不到“Python.h”文件

我在运行 OSX 10 9 5 的 Mac 上编译了 caffe 并且我知道尝试编译 pycaffe 当我在 caffe 根文件夹中运行 make pycaffe 时我得到 CXX LD o python caffe caffe so p
如何从尖点库矩阵格式获取原始指针

我需要从尖点库矩阵格式获取原始指针例如 cusp coo matrix
如何在Python中导入caffe模块？

我在 Windows 发布版 x64 上构建了 caffe cpp 的 dll 我将扩展名 dll 更改为 pyd 并尝试将其导入到 python 中 import caffe File caffe master python caffe

随机推荐

Jmeter录制脚本模拟用户登录操作

使用Jmeter测试web应用时通常有两种测试计划面向请求数的测试面向场景的测试模拟用户操作属于面向场景的测试准备工作 1 1 建立线程组和HTTP请求在测试计划中新建线程组线程组中添加一个HTTP请求并配置 1 2 录制控
最小生成树总结1 prim算法

最小生成树总结1 prim算法最小生成树总结2 kurskal算法文章目录 1 最小生成树问题概述 2 Prim算法流程 3 模板 4 板子题 1 最小生成树问题概述给定带权节点网络从中确定一个包含所有节点 n个 n 1条边所有节
机器学习到底是什么？

关于机器学习最简单的定义来自于Berkeley所表述的机器学习是AI的一个分支它探索了让计算机根据经验提高效率的方法为了更深刻的理解这一定义接下来我们将对其进行拆分分析 AI的分支人工智能是一种能够使得计算机及其系统能够成功完成通
MATLAB实现将数据写入到txt文件以及从txt文件中读取数据

1 将数据写入到txt文件 global n global xm global ym xm 100 ym 100 global A global B n 10 A zeros 1 n B zeros 1 n for i 1 n A 1 i
【Scala】scala ':' or newline expected \u200b

1 背景拷贝了网上一段代码发现报错如下这个是因为不可见字符引起的全局替换一下就好了参考 IDEA IDEA报错 illegal character U 00A0异常解决
C++与C#类型转换例子

C 部分类型定义 typedef struct SID AND ATTRIBUTES HASH DWORD SidCount PSID AND ATTRIBUTES SidAttr SID HASH ENTRY Hash SID HASH
Window11安装Docker Desktop（构建软链接解决Docker自动安装在C盘占用内存问题）

一查看电脑是否开启虚拟化二配置 Hyper V 三构建软连接使Dockor可以不安装在C盘四下载安装Dockor 五配置环境一查看电脑是否开启虚拟化打开设备管理器 gt 性能 gt CPU 查看是否开启虚拟化若以开启
python中def main是什么意思_python - 为什么要使用def main（）？

其他人已经回答了但我想我还有其他的东西需要补充 main 语句调用if的原因无特定顺序其他语言如C和Java 具有main 函数该函数在执行程序时调用使用这个if 我们可以让Python像他们一样这对许多人来说更为熟悉代码将
python题库刷题网站_python在线刷题网站

moduleinfo card count count phone 1 count 1 search count count phone 4 count 4 card des 阿里技术人对外发布原创技术内容的最大平台社区覆盖了云计算大数
java snack_Java 中 Snack3的使用

网上看了一篇Java 中 Gson的使用所以也跟着写篇Java 中 Snack3的使用 JSON 是一种文本形式的数据交换格式从Ajax的时候开始流行它比XML更轻量比二进制容易阅读和编写解析和生成的方式很多 Java中最常用的类
DHCP 服务器部署

DHCP gt Dynamic Host Configuration Protocol 动态主机配置协议背景任何一个需要上网的设备都必须得有IP地址子网掩码网关等等网络参数比如手机电脑智能手表智能眼镜一个设备获取IP
【深入理解C++】拷贝构造函数

文章目录 1 拷贝构造函数 2 默认的拷贝操作 3 默认拷贝构造函数 4 何时调用拷贝构造函数 1 拷贝构造函数拷贝构造函数是构造函数的一种当利用已存在的对象创建一个新对象时就会调用新对象的拷贝构造函数进行初始化拷贝构造函数的格式是
linux的mmc子系统与块设备关联

1 前言本文主要block组件的主要流程在介绍的过程中将详细说明和block相关的流程涉及到其它组件的详细流程再在相关文章中说明 2 主要数据结构和API 2 1 struct mmc card Elemete Name struc
Python打包系统简单入门

最近把pyenv pipenv这种都研究了一下然后我发现一个严重的问题就是我虽然看了半天这些工具但是我对Python自己的打包系统却完全没有了解所以这篇文章就来研究一下Python自带的打包系统 pip 先来详细介绍一下pip的用法
IOS_swift_函数用法

1 多个返回值 func x x Int y Int gt Int Int let a x y let b x y return a b let a b x 10 y 3 print a a let val x 10 y 3 print v
【STM32】STM32F103基于CubeIDE移植ThreadX

前言本来ThreadX全家桶是无缝接入STM32单片机的但是今天突然发现ST官方没有X CUBE AZRTOS F1这个软件包使用CubeMX添加工程组件的时候也没有ThreadX可以选择因此就有了此文 Keil环境下的移植可以参
ad pcb界面变成灰色无法编辑

在pcb库中编译后有一个error 点之后就无法编辑pcb了解决方法右键 gt 过滤器 filter gt 清除过滤器 clear filter
【CVPR2022论文精读DiffFace】DiffFace: Diffusion-based Face Swapping with Facial Guidance

CVPR2022论文精读DiffFace DiffFace Diffusion based Face Swapping with Facial Guidance 0 前言 Abstract 1 Introduction 2 Related
Python数据分析--读取npz文件

使用pycharm的朋友们需要在解释器来安装相应库有想练手的朋友用百度网盘链接 https pan baidu com s 1aOTPRsqkgX4isGDhMjLdlQ 提取码 1234 国民生产总值案例读取npz文件第一步
caffe SigmoidLayer 学习

SimgoidLayer 的定义 neuron layer h template

caffe SigmoidLayer 学习

SimgoidLayer 的定义

caffe SigmoidLayer 学习 的相关文章

随机推荐

热门标签

caffe SigmoidLayer 学习的相关文章