Transformers学习笔记5

2023-10-31

hugface hub上不仅有预训练模型还有数据集

下载数据集

from datasets import load_dataset

raw_datasets = load_dataset("glue", "mrpc")
raw_datasets

DatasetDict({
train: Dataset({
features: ['sentence1', 'sentence2', 'label', 'idx'],
num_rows: 3668
})
validation: Dataset({
features: ['sentence1', 'sentence2', 'label', 'idx'],
num_rows: 408
})
test: Dataset({
features: ['sentence1', 'sentence2', 'label', 'idx'],
num_rows: 1725
})
})

默认下载路径为：

~/.cache/huggingface/datasets.

下载的数据集一个字典类型

查看数据集类型

raw_train_dataset.features

{'sentence1': Value(dtype='string', id=None),
'sentence2': Value(dtype='string', id=None),
'label': ClassLabel(num_classes=2, names=['not_equivalent', 'equivalent'], names_file=None, id=None),
'idx': Value(dtype='int32', id=None)}

一次输入2个句子（不用了）

from transformers import AutoTokenizer

checkpoint = "bert-base-uncased"
tokenizer = AutoTokenizer.from_pretrained(checkpoint)
inputs = tokenizer("This is the first sentence.", "This is the second one.")
inputs

{
'input_ids': [101, 2023, 2003, 1996, 2034, 6251, 1012, 102, 2023, 2003, 1996, 2117, 2028, 1012, 102],
'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1],
'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]
}

token-type-ids可以区分token来着哪个句子，方便我们做多句子样本任务。例如判断2个句子是否属于一个段落

可以直接输入2个列表，列表1表示句子1的集合，列表2表示句子2的集合：

tokenized_dataset = tokenizer(
    raw_datasets["train"]["sentence1"],
    raw_datasets["train"]["sentence2"],
    padding=True,
    truncation=True,
)
# 这种方法的缺点是需要一次性将全部数据集读入内存，硬件要求较高

数据集自定义处理（推荐）

使用Dataset.map() 方法

# 定义一个预处理函数，这里不用padding，在后面介绍使用的Dynamic padding效率更高
def tokenize_function(example):
    return tokenizer(example["sentence1"], example["sentence2"], truncation=True)

# batched=true一次应用于数据集的多个元素，提升效率
tokenized_datasets = raw_datasets.map(tokenize_function, batched=True)
tokenized_datasets

DatasetDict({
train: Dataset({
features: ['attention_mask', 'idx', 'input_ids', 'label', 'sentence1', 'sentence2', 'token_type_ids'],
num_rows: 3668
})
validation: Dataset({
features: ['attention_mask', 'idx', 'input_ids', 'label', 'sentence1', 'sentence2', 'token_type_ids'],
num_rows: 408
})
test: Dataset({
features: ['attention_mask', 'idx', 'input_ids', 'label', 'sentence1', 'sentence2', 'token_type_ids'],
num_rows: 1725
})
})

Dynamic padding

from transformers import DataCollatorWithPadding

data_collator = DataCollatorWithPadding(tokenizer=tokenizer)

samples = tokenized_datasets["train"][:8]
samples = {k: v for k, v in samples.items() if k not in ["idx", "sentence1", "sentence2"]}
[len(x) for x in samples["input_ids"]]

[50, 59, 47, 67, 59, 50, 62, 32]#现在前8个标记化的样本的tensor长度是不一样的

batch = data_collator(samples)
{k: v.shape for k, v in batch.items()}

{'attention_mask': torch.Size([8, 67]),
'input_ids': torch.Size([8, 67]),
'token_type_ids': torch.Size([8, 67]),
'labels': torch.Size([8])}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Transformers

Transformer

Powered by 金山文档

Transformers学习笔记5 的相关文章

ubuntu安装docker

sudo apt get remove docker docker engine docker io containerd runc sudo apt get update sudo apt get install apt transpor

随机推荐

强化学习中累积奖赏公式的推导

转载于强化学习中累积奖赏公式的推导 qingtian11112的博客 CSDN博客强化学习累计奖励 1 一些符号解释 P C D 表示条件概率在D发生的条件下 C发生的概率 E C D 表示在D发生的条件下求C的期望即有 X 表示
二叉树面试题

将二叉查找树变为有序双向链表考虑二叉查找树的特点是左子树比根节点小根节点又比右子树小所以要把二叉查找树变为有序的双向链表就要把左子树连接到它的前一个结点右子树作为后一个结点递归的进行下去如图所示问题解决按照中序遍历二叉树
leetcode1798. 你能构造出连续值的最大数目（前缀和，贪心）

题面程序 class Solution public int getMaximumConsecutive vector
DM6446的视频前端VPFE的驱动大框架解析

本文均属自己阅读源码的点滴总结转账请注明出处谢谢欢迎和大家交流 qq 1037701636 email 200803090209 zjut com gzzaigcn2012 gmail com dm6446是基于Davinci架构设计的
什么是NFT？

什么是NFT Not Fungible Token 非同质化代币 NFT是啥内啡肽吗很苦很苦的那个术语说明 NFT Non Fungible Token 非同质化代币 FT Fungible Token 同质化代币 UTXO Unsp
python 模块 — logging模块、smtplib和email模块

python 模块日志什么时候需要日志记录排错程序调试用户行为分析 logging模块日志等级数值表示描述 DEBUG 10 最详细的日志常用于调试 INFO 20 仅次于debug的详细日志记录关键节点 WARNING
std::string用法详解

前言 string 的角色 1 string 使用 1 1 充分使用string 操作符 1 2 眼花缭乱的string find 函数 1 3 string insert replace erase 2 string 和 C风格字符串 3
centos8启动docker-mysql8容器

README 本文记录了 centos8 安装启动mysql8的docker容器的步骤 1 安装mysql8 docker容器步骤1 查看mysql8 docker镜像版本最简单的方式是上 Docker Hubhttps hub do
plsql因事务未提交造成的锁表的解决办法

针对自己经常plsql锁表情况做个备忘录方便下次操作原文链接 https blog csdn net nmjuzi article details 80353670 1 执行以下语句可查询被锁的表 select b owner b ob
敏捷测试团队管理的挑战与机会

敏捷团队的管理其实的确面临着很多的挑战蔡老师分别从敏捷管理的挑战接受敏捷敏捷下面的组织结构敏捷架构下的沟通敏捷下的KPI考核以及机会和发展几个方面进行深入的讨论其实我觉得各个公司施行敏捷的时候都会遇见这次讲师所分享的一些问题
Hive jdbc运行方式

1 在服务器端启动hiveserver2 metastore服务所在的服务器 hive service hiveserver2 2 代码和访问mysql数据库的一样 package com bjsxt hive import java sq
[币严区块链]数字货币交易所之以太坊（ETH）钱包对接（一）以太坊Geth客户端安装...

以太坊Geth客户端安装 geth是以太坊的官方客户端它是一个命令行工具提供很多命令和选项可以运行以太坊节点创建和管理账户发送交易挖矿部署智能合约等下面介绍geth的三种安装方法直接下载可执行文件在线安装从源码编译安装
特征选择-包裹式选择

包裹式选择与过滤式选择不考虑后续学习器不同直接把最终使用的学习器的性能作为特征子集的评价准则换言之包裹式选择的目的就是为给定学习器选择最有利于其性能量身定做的特征子集与过滤式选择的区别包裹式选择方法直接针对给定学习器进行优化
OSI七层作用及常见协议

OSI 模型 Open Systems Interconnection Model 由国际化标准组织ISO The International Organization for Standardization 收录在ISO 7489标准中并
设有一个线性表E = { e1, e2, … , en - 1, en }，设计一个算法，将线性表逆置，即使元素排列次序颠倒过来，成为逆线性表E'={ en , en-1 , … , e2 , e1

设有一个线性表E e1 e2 en 1 en 设计一个算法将线性表逆置即使元素排列次序颠倒过来成为逆线性表E en en 1 e2 e1 要求逆线性表占用原线性表空间并且用顺序表和单链表两种方法表示分别用两个程序来完成将链表倒置
使用R语言使用梯度提升算法进行预测建模

目录 1 什么是梯度提升算法 2 梯度提升算法的步骤 3 在R中实现梯度提升算法进行预测建模
uniapp实现底部导航栏

首先在pages json中找到 globalStyle 在它下面建立 tabBar 如下 tabBar color 7A7E83 selectedColor 3cc51f borderStyle black backgroundColor
statsmodels 无法安装

statsmodels 安装报错使用 whl 包也无法安装 error subprocess exited with error Getting requirements to build wheel did not run succes
End-to-End Human Object Interaction Detection with HOI Transformer（CVPR2021）

基于HOI transformer进行端到端的人与物体的交互检测介绍这是CVPR2021年的一篇论文主要是作者提出了一种端到端的HOI检测方法基于Transformer结构作者总结了以前的研究工作以及方法基本上目前的HOI研究主
Transformers学习笔记5

hugface hub上不仅有预训练模型还有数据集下载数据集 from datasets import load dataset raw datasets load dataset glue mrpc raw datasets Datas

Transformers学习笔记5

下载数据集

查看数据集类型

一次输入2个句子（不用了）

数据集自定义处理（推荐）

Dynamic padding

Transformers学习笔记5 的相关文章

随机推荐

热门标签