如何让FasterTransformer支持动态batch和动态sequence length

2023-10-29

FasterTransformer 算子

nvidia在开源的FasterTransformer的代码中，提供tensorrt和tensorflow的自定义算子编译和py调用示例，详见FasterTransformer.py。但是如果使用tensorflow的自定义算子十分不方便，其batch size 和 sequence length都是固定的。现在提供一种方法让其变成动态的，方法如下：

修改bert_transformer_op.cc，将batch_size，from_seq_len，to_seq_len attr属性去掉，改称input参数，代码如下：

   .Input("output_bias: T")
   .Input("output_layernorm_beta: T")
   .Input("output_layernorm_gamma: T")
+  .Input("batch_size: int32")
+  .Input("from_seq_len: int32")
   .Output("output: T")
   .Attr("T: {float, half}")
-  .Attr("batch_size: int >= 1")
-  .Attr("from_seq_len: int >= 1")
-  .Attr("to_seq_len: int >= 1")
+  //.Attr("batch_size: int >= 1")
+  //.Attr("from_seq_len: int >= 1")
+  //.Attr("to_seq_len: int >= 1")
   .Attr("head_num: int >= 1")
   .Attr("size_per_head: int >= 1")
   .SetShapeFn([](shape_inference::InferenceContext *c) {
       int batch_size, from_seq_len, to_seq_len, head_num, size_per_head;
-      c->GetAttr("batch_size", &batch_size);
-      c->GetAttr("from_seq_len", &from_seq_len);
-      c->GetAttr("to_seq_len", &to_seq_len);
+      //c->GetAttr("batch_size", &batch_size);
+      //c->GetAttr("from_seq_len", &from_seq_len);
+      //c->GetAttr("to_seq_len", &to_seq_len);
       c->GetAttr("head_num", &head_num);
       c->GetAttr("size_per_head", &size_per_head);
-      c->set_output(0, c->MakeShape({batch_size * from_seq_len, head_num * size_per_head}));
+      //c->set_output(0, c->MakeShape({batch_size * from_seq_len, head_num * size_per_head}));
+      c->set_output(0, c->input(0));
       return Status::OK();
       });
 template <typename Device, typename T>
@@ -70,14 +71,15 @@ class BertTransformerOp : public OpKernel
   public:
     explicit BertTransformerOp(OpKernelConstruction *context) : OpKernel(context)
     {
-      OP_REQUIRES_OK(context, context->GetAttr("batch_size", &batch_size_));
-      OP_REQUIRES_OK(context, context->GetAttr("from_seq_len", &from_seq_len_));
-      OP_REQUIRES_OK(context, context->GetAttr("to_seq_len", &to_seq_len_));
+      //OP_REQUIRES_OK(context, context->GetAttr("batch_size", &batch_size_));
+      //OP_REQUIRES_OK(context, context->GetAttr("from_seq_len", &from_seq_len_));
+      //OP_REQUIRES_OK(context, context->GetAttr("to_seq_len", &to_seq_len_));
       OP_REQUIRES_OK(context, context->GetAttr("head_num", &head_num_));
       OP_REQUIRES_OK(context, context->GetAttr("size_per_head", &size_per_head_));
 
-      OP_REQUIRES(context, (from_seq_len_ == to_seq_len_),
-          errors::InvalidArgument("Only support from_seq_len == to_seq_len"));
+      //printf("++++++++ %d =%d \n", from_seq_len_, to_seq_len_)
+      //OP_REQUIRES(context, (from_seq_len_ == to_seq_len_),
+      ///    errors::InvalidArgument("Only support from_seq_len == to_seq_len"));
 
       try
       {
@@ -95,6 +97,11 @@ class BertTransformerOp : public OpKernel
       BertEncoderTransformer<EncoderTraits_> *encoder_transformer_;
       try
       {
+     
+        batch_size_ = context->input(19).flat<int32>().size()/3;
+        from_seq_len_ = context->input(20).flat<int32>().size()/3;
+        to_seq_len_ = from_seq_len_;
+        //printf("==>%d %d\n", batch_size_, from_seq_len_);
         fastertransformer::Allocator<AllocatorType::TF> allocator_(context);
         encoder_transformer_ = new BertEncoderTransformer<EncoderTraits_>(allocator_, 
           batch_size_, from_seq_len_, to_seq_len_, head_num_, size_per_head_);
@@ -104,7 +111,7 @@ class BertTransformerOp : public OpKernel
         OP_REQUIRES(context, false, errors::Internal(error.what()));
       }
       
-      OP_REQUIRES(context, context->num_inputs() == 19, errors::InvalidArgument("Less input arguments"));
+      OP_REQUIRES(context, context->num_inputs() == 21, errors::InvalidArgument("Less input arguments"));
 
       EncoderInitParam<DataType_> param; //init param here

由于input在cuda的显存中，直接读取input的数值是不可能的(把数值从显存拷贝内存中，比较耗时)，但是我们可以在内存中直接读取形状的size，我们伪造一个形状的size，通过这个size来获取batch_size 和 seq_len。

FasterTransformer.py修改如下:

    ...
    fast_list_tensor = tf.shape(input_tensor)
    ...
    layer_output = transformer_op_module.bert_transformer(
        layer_input,
        layer_input,
        trainable_vars[0], trainable_vars[2], trainable_vars[4], trainable_vars[1], trainable_vars[3], trainable_vars[5],
        attention_mask,
        trainable_vars[6], trainable_vars[7], trainable_vars[8], trainable_vars[9], trainable_vars[10], trainable_vars[11],
        trainable_vars[12], trainable_vars[13], trainable_vars[14], trainable_vars[15], tf.tile([[1],[2],[3]], [1,fast_list_tensor[0]]),
        tf.tile([[1],[2],[3]], [1,fast_list_tensor[1]]),
        #batch_size=batch_size, 
        #from_seq_len=seq_length, 
        #to_seq_len=seq_length, 
        head_num=num_attention_heads, size_per_head=attention_head_size)

通过以上修改，我们在使用transformer_op_module的时候，就不需要强制指定batch size 和 seq length了，表示生成模型的时候，类似这么配置：

input_ids = tf.placeholder(tf.int32,(None, None), 'input_ids')
input_mask = tf.placeholder(tf.float32,(None, None), 'input_mask')
input_type_ids = tf.placeholder(tf.int32,(None, None), 'input_type_ids')

便可以生成支持动态batch和动态seq len的tensorflow模型了。

转载于:https://www.cnblogs.com/th3Bear/p/11502641.html

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

人工智能

python

如何让FasterTransformer支持动态batch和动态sequence length 的相关文章

下载 PyQt6 的 Qt Designer 并使用 pyuic6 将 .ui 文件转换为 .py 文件

如何下载 PyQt6 的 QtDesigner 如果没有适用于 PyQt6 的 QtDesigner 我也可以使用 PyQt5 的 QtDesigner 但是如何将此 ui 文件转换为使用 PyQt6 库而不是 PyQt5 的 py 文件
Django REST序列化器：创建对象而不保存

我已经开始使用 Django REST 框架我想做的是使用一些 JSON 发布请求从中创建一个 Django 模型对象然后使用该对象而不保存它我的 Django 模型称为 SearchRequest 我所拥有的是 api view
如何在python中读取多个文件中的文本

我的文件夹中有许多文本文件大约有 3000 个文件每个文件中第 193 行是唯一包含重要信息的行我如何使用 python 将所有这些文件读入 1 个文本文件 os 模块中有一个名为 list dir 的函数该函数返回给定目录中所有文
Python、Tkinter、更改标签颜色

有没有一种简单的方法来更改按钮中文本的颜色 I use button text input text here 更改按下后按钮文本的内容是否存在类似的颜色变化 button color red Use the foreground设置按钮
InterfaceError：连接已关闭（使用 django + celery + Scrapy）

当我在 Celery 任务中使用 Scrapy 解析函数有时可能需要 10 分钟时我得到了这个信息我用姜戈 1 6 5 django celery 3 1 16 芹菜 3 1 16 psycopg2 2 5 5 我也使用了psyc
Python PAM 模块的安全问题？

我有兴趣编写一个 PAM 模块该模块将利用流行的 Unix 登录身份验证机制我过去的大部分编程经验都是使用 Python 进行的并且我正在交互的系统已经有一个 Python API 我用谷歌搜索发现pam python http pa
导入错误：没有名为 _ssl 的模块

带 Python 2 7 的 Ubuntu Maverick 我不知道如何解决以下导入错误 gt gt gt import ssl Traceback most recent call last File
Flask 和 uWSGI - 无法加载应用程序 0 (mountpoint='')（找不到可调用或导入错误）

当我尝试使用 uWSGI 启动 Flask 时出现以下错误我是这样开始的 gt cd gt root localhost uwsgi socket 127 0 0 1 6000 file path to folder run py ca
如何使用 Scrapy 从网站获取所有纯文本？

我希望在 HTML 呈现后可以从网站上看到所有文本我正在使用 Scrapy 框架使用 Python 工作和xpath body text 我能够获取它但是带有 HTML 标签而且我只想要文本有什么解决办法吗最简单的选择是ext
Spark的distinct()函数是否仅对每个分区中的不同元组进行洗牌

据我了解 distinct 哈希分区 RDD 来识别唯一键但它是否针对仅移动每个分区的不同元组进行了优化想象一个具有以下分区的 RDD 1 2 2 1 4 2 2 1 3 3 5 4 5 5 5 在此 RDD 上的不同键上所有重复键
为 pandas 数据透视表中的每个值列定义 aggfunc

试图生成具有多个值列的数据透视表我知道我可以使用 aggfunc 按照我想要的方式聚合值但是如果我不想对两列求和或求平均值而是想要一列的总和同时求另一列的平均值该怎么办那么使用 pandas 可以做到这一点吗 df pd D
安装后 Anaconda 提示损坏

我刚刚安装张量流GPU创建单独的后环境按照以下指示here https github com antoniosehk keras tensorflow windows installation 但是安装后当我关闭提示窗口并打开新航站楼弹出
keras加载模型错误尝试将包含17层的权重文件加载到0层的模型中

我目前正在使用 keras 开发 vgg16 模型我用我的一些图层微调 vgg 模型拟合我的模型训练后我保存我的模型model save name h5 可以毫无问题地保存但是当我尝试使用以下命令重新加载模型时load mod
在循环中每次迭代开始时将变量重新分配给原始值（在循环之前定义）

在Python中你使用在每次迭代开始时将变量重新分配给原始值在循环之前定义时也就是说 original 1D o o o for i in range 0 3 new original 1D revert back to orig
python pandas 中的双端队列

我正在使用Python的deque 实现一个简单的循环缓冲区 from collections import deque import numpy as np test sequence np array range 100 2 resha
Pandas Dataframe 中 bool 值的条件前向填充

问题如何转发 fill boolTruepandas 数据框中的值如果是当天的第一个条目 True 到一天结束时请参阅以下示例和所需的输出 Data import pandas as pd import numpy as np df
使用 OpenPyXL 迭代工作表和单元格，并使用包含的字符串更新单元格[重复]

这个问题在这里已经有答案了我想使用 OpenPyXL 来搜索工作簿但我遇到了一些问题希望有人可以帮助解决以下是一些障碍待办事项我的工作表和单元格数量未知我想搜索工作簿并将工作表名称放入数组中我想循环遍历每个数组项并搜索包含特
Numpy 优化

我有一个根据条件分配值的函数我的数据集大小通常在 30 50k 范围内我不确定这是否是使用 numpy 的正确方法但是当数字超过 5k 时它会变得非常慢有没有更好的方法让它更快 import numpy as np N 5000
如何改变Python中特定打印字母的颜色？

我正在尝试做一个简短的测验并且想将错误答案显示为红色欢迎来到我的测验您想开始吗是的祝你好运法国的首都是哪里法国随机答案不正确的答案我正在尝试将其显示为红色我的代码是 print Welcome to my Quiz be
VSCode：调试配置中的 Python 路径无效

对 Python 和 VSCode 以及 stackoverflow 非常陌生直到最近我已经使用了大约 3 个月一切都很好当尝试在调试器中运行任何基本的 Python 程序时弹出窗口The Python path in your

随机推荐

已知p值自由度求t值 matlab,统计学中的F值、P值和r分别表示什么意思，怎么求-如何查看f值-数学-敖篮友同学...

概述本道作业题是敖篮友同学的课后练习分享的知识点是如何查看f值指导老师为束老师涉及到的知识点涵盖统计学中的F值 P值和r分别表示什么意思怎么求如何查看f值数学下面是敖篮友作业题的详细题目统计学中的F值 P值和r分别表示
Go 语言运算符文档与举例

在Go语言中有各种运算符可用于执行不同类型的操作以下是一些常见的Go语言运算符及其说明和示例下面是一个表格归纳了常见的运算符类型和它们的说明运算符类型运算符说明算术运算符相加两个操作数相减两个操作数相乘两个操作数相除
英语语言标准C1,【CEFR】国际通用的学生英语能力水平评测标准

原标题 CEFR 国际通用的学生英语能力水平评测标准教育家陶行知育人和种花一样需要先认识花木特点再区别不同情况给予施肥浇水和培养教育英语学习的过程中有的英语学习者会很迷惑究竟自己在什么水平什么样的水平需要什么样的语言能力
二、XenServer 服务器配置

重启完成XenServer 之后进入菜单驱动文本控制台 Menu Driven Text Console 界面 1 切换到Network and Management Interface 配置管理网络 2 选择Configure Mana
必须了解的8种神经网络架构

机器学习已经在各个行业得到了大规模的广泛应用并为提升业务流程的效率提高生产率做出了极大的贡献目前机器学习主要在以下方面应用模式识别实际场景中的目标包括人脸表情语音识别等等异常检测例如信用卡交易的异常检测传感器异常数据模
两种快速排序的实现(C语言)

两种搜索方式不一样第 0种单向搜索第1 种双向搜代码如下 include
VS2019+QT5.12.10+PCL1.11.1+VTK8.2.0（cmake3.20.4）环境搭配

一编译VTK8 2 0 网上教程一大堆自己看着瞎编吧提示关于QT的部分需要全部勾上不然在vs中qvtkWidget没法使用关于QT的部分需要全部勾上不然在vs中qvtkWidget没法使用关于QT的部分需要全部勾上不然在v
phpstrom插件安装

sublime 中的代码小地图 codeglance https plugins jetbrains com plugin 7275 codeglance Paste Image png 像sublime那样配置主题只需要改一改配置文件
build gradle dependencies闭包的详解

dependencies闭包的整体功能是指定当前项目所有依赖关系本地依赖库依赖及远程依赖本地依赖可以对本地Jar包或者目录添加依赖关系库依赖可以对项目中的库模块添加依赖关系远程依赖可以对jcenter库上的开源项目添加依赖
迪士尼自研算法突破百万高清像素用AI换脸来拍电影

AI换脸又一次刷爆了朋友圈最近云毕业正当时各家科技公司顺势推出了自己的AI换脸技术结果又被同学们玩坏了换脸这件事绝不能少了业界大佬们不得不说好看是不分性别的彦宏兄气质满分仔细来看 AI换脸技术近些年还是成熟不少整体的面部贴
为应对输出风险文本的情况，提出一种针对LLMs简单有效的思维链解毒方法

作者汤泽成周柯言单位苏州大学人工智能研究院论文标题 2308 08295 Detoxify Language Model Step by Step arxiv org 论文代码 https github com codinnlg d
R资源大全

0 前言虽然很早就知道R被微软收购也很早知道R在统计分析处理方面很强大开始一直没有行动过直到直到12月初在微软技术大会看到我软的工程师演示R的使用我就震惊了然后最近在网上到处了解和爬一些R的资料看着看着就入迷了这就是个大
ORL数据集百度网盘

最近做人脸识别找了好久才在一个代码的角落里找到ORL的数据集贫穷使我不愿意花钱下载上传到百度网盘了分享给和我一样贫穷的朋友祝大家早日有钱链接 https pan baidu com s 178K357kYHhaJnYGyGI76R
1、两数之和

题目法1 暴力解法用两个for循环缺点时间复杂度高法1 推荐 nums list map int input split target int input for i in range len nums 1 for j in ra
VBA宏之自动抓取关键文字并填充到指定单元格

需求如下最后一列字段名称为 IPTV 判断最后的数据是在哪一行某两列中筛选含有 IPTV 或 TV 最后一列对应就为 IPTV 否则为空最后生成的结果另存为指定日期名称的Excel文件 Sub 判断平台是否为IPTV 定义变量 Dim
VirtualBox压缩VDI文件 VDI文件瘦身方法

VirtualBox压缩VDI文件 VDI文件瘦身方法一 WINDOWS 下压缩 VDI 文件 1 在虚拟机中右键计算机 gt 管理 gt 磁盘管理 2 右键所有磁盘压缩卷把所有磁盘压缩到最小 3 在未分配空间上右键新建卷 4 低级
c# Lambda

分配给委托类型 Func
三种公钥密码体系（传统公开密钥体系 / 基于身份的公开密钥体系 / 基于无证书的公开密钥体系）

公开密钥体系分类基于证书的公开密钥体系基于身份的公开密钥体系基于无证书的公开密钥体系基于证书的公开密钥体系第一种方案是采用证书机制实现用户的身份和用户的钥匙之间的安全对应证书机制一般都采用公钥基础设施 Public Key I
开心档之Bootstrap4 自定义表单

Bootstrap4 自定义表单 Bootstrap4 可以自定义一些表单的样式来替换浏览器默认的样式自定义复选框如果要自定义一个复选框可以设置 div 为父元素类为 custom control 和 custom checkbox
如何让FasterTransformer支持动态batch和动态sequence length

FasterTransformer 算子 nvidia在开源的FasterTransformer的代码中提供tensorrt和tensorflow的自定义算子编译和py调用示例详见FasterTransformer py 但是如果使用t

如何让FasterTransformer支持动态batch和动态sequence length

FasterTransformer 算子

如何让FasterTransformer支持动态batch和动态sequence length 的相关文章

随机推荐

热门标签