【transformers】tokenizer用法（encode、encode_plus、batch_encode_plus等等）

2023-11-06

tranformers中的模型在使用之前需要进行分词和编码，每个模型都会自带分词器（tokenizer），熟悉分词器的使用将会提高模型构建的效率。
string tokens ids 三者转换

string → tokens tokenize(text: str, **kwargs)
tokens → string convert_tokens_to_string(tokens: List[token])
tokens → ids convert_tokens_to_ids(tokens: List[token])
ids → tokens convert_ids_to_tokens(ids: int or List[int], skip_special_tokens=False)
string → ids encode(text, text_pair=None, add_special_tokens=True, padding=False, truncation=False, max_length=None, return_tensors=None)
text:str, List[str], List[int].
text_pair: str, List[str], List[int]
add_special_tokens: bool.是否添加特殊token（[CLS]、[SEP]）
max_length: int, None.
padding: bool. padding取True or 'longest"时, padding至batch中最长的句子长度; padding取’max_length’时, padding至max_length; padding取False or ‘do_not_pad’ (default), 不padding.
truncation: bool, str。只对输入为 sequence pair 有效。truncation取True or 'longest_first’时, token by token 的截断，哪一句长，截断哪一句的最后一个 token，相同长度就第二句。截至总token数等于 max_length; truncation取’only_first’时只截第一句，至总token数等于 max_length; truncation取’only_second’时只截第二句，至总token数等于 max_length；truncation取False or ‘do_not_truncate’ (default)。
return_tensors: str, None。‘tf’, ‘pt’ or ‘np’ 分布表示不同的tensor type.
ids → string decode(token_ids: List[int], skip_special_tokens=False, clean_up_tokenization_spaces=True)
encode_plus:
encode_plus(text, text_pair=None, add_special_tokens=True, padding=False, truncation=False, max_length=None, stride=0, is_pretokenized=False, pad_to_multiple_of=None, return_tensors=None, return_token_type_ids=None, return_attention_mask=None, return_overflowing_tokens=False, return_special_tokens_mask=False, return_offsets_mapping=False, return_length=False)
batch_encode_plus:
输入为 encode 输入的 batch，其它参数相同。注意，plus 是返回一个字典。
batch_decode:
输入是batch.

#这里以bert模型为例，使用上述提到的函数

from transformers import BertTokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
text = "It's a nice day today!"

#tokenize,#仅用于分词
seg_words = tokenizer.tokenize(text)  
print("tokenize分词结果：\n",seg_words)

#convert_tokens_to_ids，将token转化成id，在分词之后。
#convert_ids_to_tokens,将id转化成token，通常用于模型预测出结果，查看时使用。
seg_word_id = tokenizer.convert_tokens_to_ids(seg_words)  
print("tokenize Id:\n",seg_word_id)

#encode,进行分词和token转换，encode=tokenize+convert_tokens_to_ids
encode_text = tokenizer.encode(text)
print("encode结果：\n",encode_text)

#encode_plus,在encode的基础之上生成input_ids、token_type_ids、attention_mask
encode_plus_text = tokenizer.encode_plus(text)
print("encode_plus结果：\n",encode_plus_text)

#batch_encode_plus,在encode_plus的基础之上，能够批量梳理文本。
batch_encode_plus_text = tokenizer.batch_encode_plus([text,text])
print("batch_encode_plus结果：\n",batch_encode_plus_text)

在这里插入图片描述

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Pytorch学习

人工智能

python

Transformer

Bert

【transformers】tokenizer用法（encode、encode_plus、batch_encode_plus等等）的相关文章

类的 IPython 表示

我正在使用我创建的模块尝试 IPython 但它没有显示类对象的实际表示相反它显示类似的内容 TheClass module TheClass name I heavily在这个模块中使用元类我有真正有意义的类表示应该向用户显示是
Python - 比较同一字典中的值

我有一本字典 d Trump MAGA FollowTheMoney Clinton dems Clinton Stein FollowTheMoney Atlanta 我想删除字符串列表中的重复字符串该字符串是键的值对于这个例子期望
Gunicorn 工作人员无论如何都会超时

我正在尝试通过gunicorn运行一个简单的烧瓶应用程序但是无论我做什么我的工作人员都会超时无论是否有针对应用程序的活动工作人员在我设置任何内容后总是会超时timeout值到是什么导致它们超时当我发出请求时请求成功通过但工作
如何在 Matplotlib 饼图周围绘制箭头以将每个标签指向圆圈中各自的部分？

我一直在用 Matplotlib 绘制一些图表我有一个饼图想要在图表周围绘制箭头使每个标签都指向图表我有一个例子这是我当前的代码 import matplotlib pyplot as plt plt rcParams font
从Django中具有外键关系的两个表中检索数据？ [复制]

这个问题在这里已经有答案了 This is my models py file from django db import models class Author models Model first name models CharFie
python multiprocessing 设置生成进程等待

是否可以生成一些进程并将生成进程设置为等待生成的进程完成下面是我用过的一个例子 import multiprocessing import time import sys def daemon p multiprocessing curr
Python 3d 绘图设置固定色阶

我正在尝试绘制两个 3d 数组第一个数组的 z 值在范围内 0 15 0 15 第二个来自 0 001 0 001 当我绘图时色标自动遵循数据范围如何设置自定义比例我不想看到 0 001 的浅色而应该看到 0 15 的浅色如何修
更好地相当于这个疯狂的嵌套 python for 循环

for a in map for b in map a for c in map b for d in map c for e in map d print a b c d e 上面的代码用于创建图中一定长度的所有路径 map a 表示从
MongoEngine 查询具有以列表中指定的前缀开头的属性的对象的列表

我需要在 Mongo 数据库中查询具有以列表中任何前缀开头的特定属性的元素现在我有一段这样的代码 query mymodel terms term in query terms 并且这会匹配在列表 term 上有一个项目的对象该列表中的
Java 和 Python 可以在同一个应用程序中共存吗？

我需要一个 Java 实例直接从 Python 实例数据存储中获取数据我不知道这是否可能数据存储是否透明唯一或者每个实例如果它们确实可以共存都有其单独的数据存储总结一下 Java 应用程序如何从 Python 应用程序的数据存
通过Python连接到Bigquery：ProjectId和DatasetId必须非空

我编写了以下脚本来通过 SDK 将 Big Query 连接到 Python 如下所示 from google cloud import bigquery client bigquery Client project My First Pr
当字段是数字时怎么说...在 mongodb 中匹配？

所以我的结果中有一个名为城市的字段结果已损坏有时它是一个实际名称有时它是一个数字以下代码显示所有记录 db zips aggregate project city substr city 0 1 sort city 1 我需要修
将 Matlab 的 datenum 格式转换为 Python

我刚刚开始从 Matlab 迁移到 Python 2 7 在读取 mat 文件时遇到一些问题时间信息以 Matlab 的日期数字格式存储对于那些不熟悉它的人日期序列号将日历日期表示为自固定基准日期以来已经过去的天数在 MATLAB
Python：Goslate 翻译请求返回“503：服务不可用”[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我们不允许提出寻求书籍工具软件库等推荐的问题您可以编辑问题以便用事实和引文来回答这个问题似乎不是关于主要由程序员使用的特定编程问
Firebase Firestore：获取文档的生成 ID (Python)

我可以创建一个新文档带有自动生成的 ID 并存储对其的引用如下所示 my data key value doc ref db collection u campaigns add my data 我可以像这样访问数据本身 print d
如何将 Django 中的权限添加到模型并使用 shell 进行测试

我在模型中添加了 Meta 类并同步了数据库然后在 shell 中创建了一个对象它返回 false 所以我真的无法理解错误在哪里或者缺少什么是否在其他文件中可能存在某种配置 class Employer User Employer in
如何在 Flask 中的视图函数/会话之间传递复杂对象

我正在编写一个 Web 应用程序当且仅当用户登录时该应用程序从第三方服务器接收大量数据这些数据被解析为自定义对象并存储在list 现在用户在应用程序中使用这些数据调用不同的视图例如发送不同的请求我不确定什么是最好的模式在视
将索引与值交换的最快方法

考虑pd Series s s pd Series list abcdefghij list ABCDEFGHIJ s A a B b C c D d E e F f G g H h I i J j dtype object 交换索引和值并
JSON：TypeError：Decimal（'34.3'）不是JSON可序列化的[重复]

这个问题在这里已经有答案了我正在运行一个 SQL 查询它返回一个小数列表当我尝试将其转换为 JSON 时出现类型错误查询 res db execute SELECT CAST SUM r SalesVolume 1000 0 AS
NLTK：查找单词大小为 2k 的上下文

我有一个语料库我有一个词对于语料库中该单词的每次出现我想获取一个包含该单词之前的 k 个单词和该单词之后的 k 个单词的列表我在算法上做得很好见下文但我想知道 NLTK 是否提供了一些我错过的功能来满足我的需求 def size

随机推荐

PHP底层工作原理

原文地址 http www cnblogs com phphuaibei archive 2011 09 13 2174927 html 最近搭建服务器突然感觉lamp之间到底是怎么工作的或者是怎么联系起来平时只是写程序重来没有思考
Java中数据类型详解

文章目录一数据类型的作用二两种数据类型 1 基本数据类型 1 第一类整数型 2 第二类浮点型 3 第三类布尔型 4 第四类字符型 2 引用数据类型 1 类 2 数组 3 接口三基本数据类型之间的转化一数据类型的作用
Vue 项目如何实现一个全局菜单搜索框

个人主页山山而川 xyj 作者简介前端领域新星创作者专注于前端各领域技术共同学习共同进步一起加油系列专栏 Vue 系列学习格言与其临渊羡鱼不如退而结网目录前言一过滤路由二搜索框展示路由三雏形出现但有缺陷四
九宫格选择照片

一 Adapter public class RecyclerImageAdapter extends RecyclerView Adapter
使用IDEA创建JavaWeb项目

由于看的视频教程比较老且开发工具为Eclipse 本人已习惯使用IDEA 在此记录一下创建JavaWeb项目过程创建一个项目左侧选择 Java Enterprise 右侧选择 Web Application 这里我输入的项目名字为 F
公开课精华

本文章总结于大疆前技术总监目前在卡内基梅隆大学读博的杨硕博士在深蓝学院的关于机器人的带约束轨迹规划的公开课演讲内容全文约5000字笔者不是机器人领域的因此特地去了解了一下杨硕博士深感佩服不仅是他的履历更多的是他关于学术上的至臻
2021-09-15 C++ 继承和多态（虚函数，纯虚函数，虚继承）

C 继承和多态虚函数纯虚函数虚继承一继承继承的概念为了代码的复用保留基类的原始结构并添加派生类的新成员继承的本质代码复用我们用下图解释下那么我们这里就可以提出几个问题了进程的方式有哪些呢这里有三种继承方式 pu
Vue3 实现背景水印功能

在 web 的世界里对于图片文档等增加水印处理是十分有必要的水印的添加根据环境可以分为两大类前端浏览器环境添加和后端服务环境添加通过 canvas 创建一张含有水印信息的背景图片通过 hooks 函数插入到页面中对外暴露方法设
pnpm安装与卸载

文章目录 1 安装 1 1 Linux CentOS 1 1 1 使用脚本直接安装 1 2 2 通过npm安装 2 卸载 2 1 移除全局安装的包 2 2 移除pnpm cli 2 2 1 脚本直接安装 2 2 2 使用npm安装官方文档
Mysql主从库不同步1236错误：could not find first log file name in binary....

Mysql主从库不同步1236错误 could not find first log file name in binary log index file错误是主从的一个日志问题我们只要简单的配置一下即可解决最近造成Mysql主从库不同
二进制运算基础

本篇随笔仅作记录文中有引用的一篇博客博客地址为 https www cnblogs com joahyau p 6420619 html 首先谈一下为何会写这个知识点这是由一道题引出这个知识点的题目如下 System out pri
在zotero-better-notes新版本里的笔记中插入模板的方法

在zotero better notes新版本里的笔记中插入模板的方法一失效的方法二新的方法三模板分享四模板导入方法一失效的方法上一篇文章Zotero笔记插件zotero better notes的基本使用方法与下载
MySQL主从复制原理、半同步操作步骤及原理

原文地址 http blog csdn net linuxlsq article details 52606292 1 1 企业Linux运维场景数据同步方案 1 1 1 文件级别的异机同步方案 1 scp sftp nc 命令可以实现远程
iOS是伪多任务？

iOS是伪多任务 Android系统原生就支持多任务而iOS系统是从4开始的它的多任务并不是传统意义上的多任务不是任何应用进程都可以在后台自由运行真正做到支持多任务的只有苹果Safari和Mail 很多苹果亲生的应用也都并不支持对
TensorRT学习笔记3 - 运行sampleMNIST

目录步骤遇到的问题步骤 cd your tensorrt path samples sampleMNIST make cd your tensorrt path bin sudo sample mnist h datadir your
多分支git合并流程

阅读摘要推荐一个git合并步骤开发分支可能会多次提交合并到dev master主干分支也会显示很多个提交点这样不方便代码分支管理和回溯发布记录所以推荐如下方法不出意外这也是个新手教程 git 合并步骤本地开发分支建立格式建议
2023年电工杯

电工数学建模竞赛中国电机工程学会杯全国大学生电工数学建模竞赛是全国性大学生学科竞赛活动目的在于按照紧密结合教学实际着重基础注重前沿的原则促进电气类专业建设引导学生注重动手能力创新能力和协作精神的培养提高学生针对实际问题进行
怎么解决idea版本不兼容？

怎么解决2020 3 1版本的idea的jdk不兼容希望好心的大哥哥回答在线等挺急的谢谢
springboot 框架学习 thymeleaf静态模板引擎实现页面跳转

最近在深啃jvm虚拟机主要方法是阅读深入java虚拟机这本书写的很形象深入简单易懂今天上web课程老师讲到servlet时突然想到boot的页面跳转与数据响应之前的springmvc在boot中也有集成但是boot的常用页面
【transformers】tokenizer用法（encode、encode_plus、batch_encode_plus等等）

tranformers中的模型在使用之前需要进行分词和编码每个模型都会自带分词器 tokenizer 熟悉分词器的使用将会提高模型构建的效率 string tokens ids 三者转换 string tokens tokenize te

【transformers】tokenizer用法（encode、encode_plus、batch_encode_plus等等）

【transformers】tokenizer用法（encode、encode_plus、batch_encode_plus等等） 的相关文章

随机推荐

热门标签

【transformers】tokenizer用法（encode、encode_plus、batch_encode_plus等等）的相关文章