【PIPE】流水线设计中的基本模块

2023-11-20

大概分成以下几节：

1，概述及协议
2，valid forward－valid超前
3, bubble collapse －消除气爆
4, input/output skid －不知中文怎么说
5, pipe halt - 流水停顿
6，idle present - 显示空闲

1.protocol

两个模块需要协同工作，少不了的就是你给我一些数据，我告诉你我收到了。或者你问我要一些数据，我过一会给你。
“你给我，我告诉你我收到了”，在通信，称之为握手。在数字设计中也一样。
握手有很多种，pipe里用到的这种握手协议，被我称为valid_ready。描述如下

valid_ready协议：
1，当sender端有数据要发送时，将valid置1，并保证数据有效，可以不用检测ready。
2，当receiver模块允许接受数据，将ready置1，可以不用检测valid是否有效。
3，在任一个cycle，如果valid=1 && ready=1，则接受端将会在紧接着的下一个clock posedge将数据采入，并通过ready信号来表示自己是否可以接受新的数据。
4，在任一个cycle，如果valid=1 && ready=1，如果发送端仍有数据需要发送，则会在下一个clock posedge将新数据放入data bus，来表示自己有新的数据需要发送。如果没有新的数据需要发送，则将valid置0，表示没有数据需要发送。如果前一次的数据没有被接受端接受，即 ready＝0，发送端需要保持valid＝1，否则，数据将被丢弃，并没有被接收端收到。

如上图所示，c1周期，发送端有数据想要发送，将valid置1，并将D0稳定；可是c1周期接收端不肯接受数据（可能因为他正在忙于其他事务的处理），数据没有被接受，发送端只能继续将valid置1，并保持D0不变。c2周期，接受端不再繁忙，可以接受数据了，于是他将ready置1，表明这个周期他可以接受新数据。于是D0便在c2结束的那个上升沿被接收端取走。尽管接受端还想接受数据（c3周期，ready仍为1），但是发送端没有新数据需要发送，于是接收端继续保持ready＝1，表明自己仍可以接受数据。紧接着，发送端在c4周期又有数据需要发送，于是就置vliad＝1，而此时接收端正在等着呢，于是这个数据D1在c4周期，就传送完成。这次发送方发送完D1，紧接着还有D2需要发送，可是接收端不干了，他不能、不想、不愿意接受新的数据，于是D2和表明D2有效的valid只能一直保持在那里，等啊等，等啊等……直到c7，接收端可以接受了。于是D2终于传过去了。

2. basic pipe

basic pipe所谓的pipe，他的目的就是实现pipeline，即流水，有了valid_ready,我们就能很容易的将操作进行流水作业。通过插入pipe，可以将原来需要较多层的逻辑分拆开来，每一级pipe做一点。如下图，这是插入了一级pipe的。其中valid和data是同样的逻辑，所以就合并画在一起了。

下图，这是插入了2级pipe的。

每一级你可以对data进行一些处理，再传给下一级。
对于每一级pipe，其基本的逻辑是这样的。o: output, i:input
vo <= (ri) ? vi : vo;
do <= (ri) ? di : do;
ro = ri;
这个就是最基本的pipe的逻辑。
下面是基本pipe的电路图。

3. valid forward

细心的读者会注意到，当sender想要发送数据的时候，会将vi置1，这样，当receiver能够接受数据时，需要多等一个cycle，即数据先要寄存在pipe中，然后下一个cycle，接受端才能看到数据有效。如果要传输一笔数据需要2个cycle，当数据连续传送时，这没有问题，但是如果数据都是零碎的片断，那么效率就变得比较低下。也就是说，当pipe里面为空，但是receiver端不可以接受数据时，数据还是得停留再sender端，而这个空的pipe，我们称之为bubble。

如何解决这个问题？
当我们发现如果pipe级没有有效数据，即vo＝0，那么我们让vi直接送到receiver端，而不再寄存一级。这样做的好处是效率提高了，坏处就是timing变差了。而且相比于没有插入pipe，timing更糟糕了。因为多了一些mux。其实，最糟糕的是，这种做法毫无用处，除非和下面要讲的bubble collpase配合使用。因为如果没有bubble collapse，它根本就没让pipe工作，因为reset之后，pipe始终为空，于是每一次，数据都绕过了pipe，直接送到了serder端。而且，这比没有插入pipe的timing来的更糟糕。这和我们最初要引出pipe，来实现流水以提高timing性能，这个目的相矛盾。

下面我们要讲提及了很多次的bubble collapse了，看看他神奇在什么地方。其实道理很简单，如果receiver端不ready，而pipe为空，我们就将数据先进入pipe级的寄存器，缓存于pipe级。在sender看来，这个数据已经被pipe级取走，可以放新的数据了。下次，receiver端ready了，直接和pipe要数据即可。这样，bubble就消失了。
如图所示：

逻辑代码如下：
ro = ri || !vo; // ready
vo <= (ro)? vi : vo; // valid
do <= (ro && vi)? di : do; // data

仔细、仔细、再仔细体会一下以上代码

4. input/output skid

pipe能有效的改善data的timing（当然，顺带也改善了valid的timing），使得data在其传输路径上被寄存N拍，如果有复杂的组合逻辑，则可以将组合逻辑拆成一系列的组合逻辑，并在每个之间插入pipe，尽管每一笔数据的延时增加了，但是带宽并没有变小。可是，如果ready信号的产生，传播逻辑比较复杂，我们也同样在某些地方将ready打上一拍，以改善他的timing。可是仅仅对ready打一拍，协议就会被破坏了，使得valid 和ready对应不上。

现在我们仅仅简单的将ready打了一拍给sender端，那么sender端看到就是延时一拍以后的ready，即ro<=ri。如果vi=1&&ro=1，从sender的角度看来，就是data被取走了，可以放一个新的数据了。

让我们用最简单的basic pipe来举例说明。假设sender有3笔数据需要发送，而receiver收到一笔后既不能再接受，需要进行一些处理，等几个cycle之后才能再接受新的数据。

其时序如图所示：

我们来简单分析一下：
最初，sender没有数据要发送，vi＝0；receiver空闲，可以接受数据，ri＝1。但是由于在c3时刻，ri＝0，ro＝1；receiver不可以接收新的数据，而sender没有及时发现，他还是将数据D2押送给了pipe，但是pipe里面囤积的D1并没有被收走，于是pipe处于一个两难的境地，要么将D1丢弃，要么将D2丢弃，无论如何，总是会丢失一笔数据。

D1占据着Pipe里唯一可以容身的小屋（data register），D2来了，也想进来。D1看了看D2，说：“小样，你是新、新、新、新、新来的吧……，我这里只有一间屋，住不下咱俩，要不这间给你，我自己在离sender近一点的地方再造一间新屋，但是得先说好，船来了(ri=1)，我先走。”D2想了想，没办法，一山不容二虎，除非一公和一母，谁让咱俩没性别，要不然……说不定，还能生个小娃，这是后话。

于是，我们又造了一间新的小屋，起名叫skid buffer。当ri从1变0时，即ri＝0，ro＝1，表示receiver端忽然不能接受新数据了，但是sender要晚点才能知道，这时候，skid给D1住，D2住老屋。当ri从0变1时，即ri=1、ro=0，表示receiver有可以接受新数据了，这是得先把skid里得数据放走。此时skid里住着D1呢，D2这时看到得还是ro＝0，所以他继续呆在老屋里不动。除了这两种情况，其他情况都无所谓，随便我们怎么处理skid都可以，如果想要逻辑简单，那么就像我上面所说得那样处理。但是会出现的这个问题：D2在以后的cycle中，尽管不需要再住进skid了，但是还是会给个分身给skid，而自己会直接从老屋乘船走了。这样会造成skid里不停的让无用的D2们进进出出（无效翻转）；为了降低skid再无用的时候不要住无用的D2们的分身，可以加一点控制逻辑，使得D2们在不需要的时候不要浪费skid的资源。（逻辑为 ri ^ ro==0时，disable skid）

下面这个图稍微复杂了点，是一个basic pipe＋skid。控制逻辑最少，但增加了额外的skid使用。

skid和pipe这两部分的位置是可以互换的。如果你能成功的做到，你对以上内容的掌握应该已经炉火纯清了。

5. pipe halt

在输入增加一个信号，用于将pipe停止。
即流水线停顿。来自upstream的valid会立即被忽略，送给上一级的ready立刻被取消。同样送给downstream的valid立刻会被取消，而ready也不予理睬。pipe内部所有数据流全部立即停止。

但是如果pipe内部有skid，为了保证数据的正确，skid级的valid立即取消，但是送给upstream的ready需要在下一个cycle再停顿。恢复的时候也一样，valid立即恢复，而送给upstream的ready需要在下一个cycle才可以恢复。（有关skid的停顿逻辑需要你冥想3分钟，我刚开始几次，每次思考这个问题，都不能一下子想明白，总要绕几圈才豁然。）

6. idle present

Idle 信号表明Pipe中没有有效数据，即每一级pipe的valid无效。
其逻辑为

idle = ~(p1_valid |p2_valid|...)

其中，pn_valid 为第n级Pipe的vo

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

FPGA

【PIPE】流水线设计中的基本模块的相关文章

在vivado中使用tcl脚本（UG894）

本文源自UG894 主要介绍如何在vivado中使用tcl脚本 1 vivado中如何获取tcl help vivado中任何自带的命令都可以通过 help 获取帮助信息也可以直接输入 help 取得vivado命令合集并通过 help
STA（静态时序分析）详解：如何计算最大时钟频率，以及判断电路是否出现时钟违例（timing violation）?

1 什么是STA STA 静态时序分析是时序验证的一种方法用于计算和分析电路是否满足时序约束的要求 2 为什么需要STA 电路能否正常工作其本质上是受最长逻辑通路即关键路径的限制以及受芯片中存储器件的物理约束或工作环境的影响为
SmartFusion从FPGA到ARM（四）——MSS_TIMER定时器的使用

文章目录 1 定时器资源简介 2 MSS TIMER库函数简介 3 简单的周期性中断 4 自定义产生波形 5 64位定时器的使用 6 单次中断模式系列教程 SmartFusion从FPGA到ARM系列教程 1 定时器资源简介 SmartF
Xilinx ISE系列教程（9）：LabTools下载、安装、使用教程（独立的下载工具）

文章目录 1 ISE Vivado LabTools简介 2 ISE 14 7 Lab Tools下载安装 3 Vivado 2018 3 LabTools下载安装 1 ISE Vivado LabTools简介 Xilinx LabT
verilog 基本语法｛｝大括号的使用

的基本使用是两个一个是拼接一个是复制下面列举了几种常见用法基本用法表示拼接第一位第二位表示复制 4 a 等同于 a a a a 所以 13 1 b1 就表示将13个1拼接起来即13 b1111111111111 拼接语法详
JESD204B（RX）协议接口说明。

解释一下Vivado IP协议中的Shared Logic in Example 与 Shared Logic in Core 首先什么是Shared Logic 字面意思很好理解就是共享逻辑主要包括时钟复位等逻辑当选择Share
FPGA Lattice Diamond 开发环境搭建

FPGA Lattice Diamond 开发环境搭建 Lattice Diamond 软件下载在浏览器中输入 Lattice 的官网地址 http www latticesemi com 进入官网首页在上方选择产品系列选项出现如下图所
FPGA功耗估计（二）

针对于Altera的Cyclone III 做出了静态功耗对于Altera 其提供了一个功耗早期估计工具可以在官网上下到首先需要将宏设置为安全在excel选型中选择文件之后便可看到根据相应的选择红框部分可以查看静态功耗对于
FPGA_MIG驱动DDR3

FPGA MIG驱动DDR3 说明 FPGA zynq 7z100 DDR3 MT41K256M16TW 107 内存大小为512MB 数据接口为16bit 环境 Vivado2018 2 IP核 Memory Interface Gene
[从零开始学习FPGA编程-38]：进阶篇 -语法-函数与任务

作者主页文火冰糖的硅基工坊文火冰糖王文兵的博客文火冰糖的硅基工坊 CSDN博客本文网址目录前言第1章什么是函数Function 1 1 什么是函数 1 2 函
64 位 ALU 输出在 TestBench 波上显示高阻抗

我必须制作一个 64 位 ALU 它接受 A 和 B 64 位输入进位输入输入并输出 64 位结果以及 1 位进位输出还有一个 5 位功能选择 FS 其中 FS 0 控制 B 是否反转使用 2to1 多路复用器 F 1 对 A 执行相
Verilog、FPGA、统一寄存器的使用

我有一个问题关于我正在开发的 AGC SPI 控制器在我看来奇怪的行为它是用 Verilog 完成的针对的是 Xilinx Spartan 3e FPGA 该控制器是一个依赖外部输入来启动的 FSM FSM的状态存储在状态寄存器它没有
异步FIFO设计之格雷码

目录二进制转格雷码格雷码转二进制相邻的格雷码只有1bit的差异因此格雷码常常用于异步fifo设计中保证afifo的读地址或写地址被写时钟或读时钟采样时最多只有1bit发生跳变在不考虑路径延时的情况下因为源数据读写地址
同时读取和写入寄存器

我计划在 FPGA 上用 VHDL 设计一个类似 MIPS 的 CPU CPU 将具有经典的五级管道没有转发和危险预防在计算机体系结构课程中我了解到第一个 MIPS CPU 用于在时钟上升沿读取寄存器文件并在时钟下降沿写入我使用的F
VHDL - PhysDesignRules：367

当我尝试从 VHDL 代码合成实现和生成程序文件时我收到警告当我尝试合成时出现此错误 WARNING Xst 647 Input
VHDL门控时钟如何避免

我收到了避免使用门控时钟的建议因为它可能会导致松弛和时序限制问题但我想问一下我可以认为什么是门控时钟例如此代码对时钟进行门控因为 StopCount 对它进行门控 process ModuleCLK begin if rising
模拟器和合成器之间初始化状态机的差异

我的问题是关于合成状态机中使用的第一个状态我正在使用莱迪思 iCE40 FPGA 用于仿真的 EDA Playground 和用于综合的莱迪思 Diamond Programmer 在下面的示例中我生成一系列信号该示例仅显示引用状态机
使用双寄存器方法解决亚稳态问题

为了解决Verilog中不同时钟域引起的亚稳态采用双寄存器方法但据我所知亚稳态的最终输出尚未确定输出独立于输入那么我的问题是如何保证使用双寄存器方法输出的正确性 Thanks 您不能完全确定您避免了亚稳态正如您所提到的亚稳态
FPGA 有哪些实际应用？

我对我的程序为一个小型七段显示器提供动力感到非常兴奋但是当我向不在现场的人展示它时他们总是说那么你能用它做什么我永远无法给他们一个简洁的答案谁能帮我吗第一它们不需要具有易失性存储器事实上大厂商 Xilinx Altera
学习 Verilog 的资源 [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我是 Verilog 新手有人可以推荐学习资源书籍视频博客或任何他们有良好个人经验并帮助他们更

随机推荐

Jmeter性能测试1

性能测试的概述性能百度百科定义器物的性质与效用生活中买手机买电脑买车性能好快时间短资源软件的性能软件在允许的过程中反应的速度时间消耗的资源的情况等等性能测试是通过自动化测试工具模拟多种正常峰值以及异常负
【数据分析入门】Jupyter Notebook

目录一保存加载二适用多种编程语言三编写代码与文本 3 1 编辑单元格 3 2 插入单元格 3 3 运行单元格 3 4 查看单元格四 Widgets 五帮助 Jupyter Notebook是基于网页的用于交互计算的应用程序
Exception Oracle Error

Exception Oracle Error SQLCODE Value ACCESS INTO NULL ORA 06530 6530 CASE NOT FOUND ORA 06592 6592 COLLECTION IS NULL OR
CRC校验（二）

CRC校验二参考 https blog csdn net liyuanbhu article details 7882789 https www cnblogs com esestt archive 2007 08 09 848856
ts 流基础(白话讲解).

author hjjdebug date 2022年 09月 27日星期二 ts 流就是188个字节构成的流数据先来点最简单的 ts 头部 4字节 ts 流是47开头的以188字节为单位的打包流由4字节包头及包体构成 4字节第一个4
最长上升子序列模板与优化后的模板

未优化 include
ckpt 转 pb 模型

tf1 12 checkpoints like we should know our input and output layers name now the code to make the pb is import os os envi
3-基于stm32单片机水位检测测量报警LCD1602显示程序源码原理图元件清单

功能介绍采用stm32单片机电位器 LCD1602显示屏蜂鸣器按键通过电位器来模拟当前的水位高度通过扭转电位器来改变水位高度并且显示到屏幕上通过按键设置上限值和下限值超过值蜂鸣器进行报警 STM32 ADC是一种高精度高
Fiddler突破SSL抓取https网络请求

一准备工具 Fiddler 下载地址 https www telerik com fiddler JustTrustMe https pan baidu com s 1kWlBevwD tBEIH2kzmguLQ 提取码 u3ed 抓取安
kubeadm集群化部署多master节点（生产环境适用）

一背景介绍 k8s通过master集中式管理worknode的容器编排系统而在生产环境为了维护高可用性 master的地位起到举无轻重的作用一旦master节点失守则会导致整个集群服务不可用因此配置多master集群在生产环境非常
nginx之worker进程个数

我的个人博客逐步前行STEP nginx conf配置文件中有一个worker processes配置项默认配置为 worker processes 1 worker进程的数量会直接影响性能每一个worker进程都是单线程进程它们调
vue 窗口拖拽事件v-drag(并且控制不超出屏幕可视区/解决频繁拖拽滞后问题)
复制Simulink中的仿真模型到word中形成矢量图的方法（图像很清楚）

simlink 示波器图像要用to workspace把数据传送到matlab 然后用matlab画图保存为fig 在2012MATLAB中 1选择的这个fit to view 2选择Edit gt copy model to clip
路由中的meta、params传参的一些问题（可传不可传，为空，搭配，点击传递多次参数报错）

当一个路由对象不需要显示某个组件时可以通过meta设置登录注册不需要Footer 通过路由meta配置解决从route当中可以获取到path判断可以解决但是麻烦通过路由配置的时候路由对象当中配置meta设置来做
步进电机驱动器细分原理_步进驱动器细分设置表说明

步进驱动器细分控制原理在步进电机步距角不能满足使用要求时可采用细分驱动器来驱动步进电机细分驱动器的原理是通过改变A B相电流的大小以改变合成磁场的夹角从而可将一个步距角细分为多步步进电机最常见的分为两相步进电机 1 8 或者三相
(C++)读写注册表的类

直接用API读写注册表还是比较麻烦的于是就封装了一个类来操作类声明如下 class rw reg public static BOOL GetRegStr tstring strKeyName tstring strValueName
sockaddr_in中sin_zero的意义，以及sockaddr_in sockaddr in_addr区别联系

struct sockaddr unsigned short sa family address family AF xxx char sa data 14 14 bytes of protocol address sa family是地址
Windows高级安全策略

一账户策略账户策略仅涉及和用户账户的凭据有关的设置例如账户密码的复杂性要求密码的存活时间等通过设置账户策略我们能让所有的本地账户更加安全同时使破解账户密码所需的时间和技术要求会更高账户策略分为两大类密码策略和账户锁定策略
C语言程序——字符串常量的输出

文章目录前言一字符串常量的输出二程序实例 1 程序代码 2 运行结果 3 结果分析三拓展应用总结前言 C语言没有提供字符串变量但是字符串可以作为一个整体进行输出一字符串常量的输出字符串是比较特殊的数据在C语言中可
【PIPE】流水线设计中的基本模块

大概分成以下几节 1 概述及协议 2 valid forward valid超前 3 bubble collapse 消除气爆 4 input output skid 不知中文怎么说 5 pipe halt 流水停顿 6 idle pres

【PIPE】流水线设计中的基本模块

【PIPE】流水线设计中的基本模块 的相关文章

随机推荐

热门标签

【PIPE】流水线设计中的基本模块的相关文章