将字典列表转换为 tf 数据集

2024-02-16

我有一本已经完全预处理的字典，可以输入到 BERT 模型中。然而，我很难将其放入 tf.dataset 中。这就是我的数据集的一个元素：print(dataset[0])

{'input_ids': <tf.Tensor: shape=(128,), dtype=int64, numpy= array([  101,   171,   112,  2537, 12293,   131, 11250,   118,   118,
        2537, 12293,   131, 11250,  1110,  1126,  1237,  1778,  1326,
        1687,  1111,  5957,  1398, 11737,  1118,  8129, 14399,  1105,
        3230,  9426, 27277,   119,  1135,  1110,  1103,  1148,  1326,
        1872,  4418,  1111,  1115,  1555,   117,  1105,  1103,  1148,
        2537, 12293,  1326,  1290,  2537, 12293,   131,  9892,  4803,
        1107,  1478,   119,  9617,  4986,   170,  4967,  1196,  1103,
        1958,  1104,  1103,  1560,  2537, 12293,  1326,  1105,  2767,
        1121,  1103, 21169,  1104,  1103, 18061,  1666,  2672,  2441,
         117, 11250, 16001,  1103,  4245,   118,   118,   148,  1979,
        1320,  1594,  1229,  1378,  1103,  3039,  1104,  1103,  6684,
       11250,   119, 23886,   147,   119, 16218,  1105,  6619, 11679,
       19644,  2145,  2867,  1112,  1437, 14627,   102,   171,   112,
        1110,  1175,   170,  1207,  2851,   189, 14909,  1326,  1909,
         112,   102])>, 'input_mask': <tf.Tensor: shape=(128,), dtype=int64, numpy= array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1])>, 'segment_ids': <tf.Tensor: shape=(128,), dtype=int64, numpy= array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1])>, 'labels': <tf.Tensor: shape=(), dtype=int64, numpy=1>}

我需要做的就是将其转换为 tf.data.Dataset() 格式，但是，我似乎无法弄清楚如何使任何功能可用from_tensor_slices, from_tensors, from_generator用我所拥有的去工作。

您可以使用 pandas 来做到这一点（或者您可以模仿to_dict method)

dataset = tf.data.Dataset.from_tensor_slices(pd.DataFrame.from_dict(records).to_dict(orient="list"))

where records是一个字典列表。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

tensorflow

Dataset

preprocessor

将字典列表转换为 tf 数据集的相关文章

如何使用 Python 和 Selenium WebDriver 获取 localStorage

相当于什么 driver get cookies 获取 LocalStorage 而不是 ookies python API没有提供直接读写本地存储的方法但可以通过execute script class LocalStorage de
出现异常时进行截图

嘿有没有一种方法可以在异常任何异常时捕获屏幕截图我的失败解决方案位于BaseTestCase unittest TestCase子类 class BaseTestCase unittest TestCase classmetho
为什么 statsmodels 和 R 的逻辑回归结果不同？

我正在尝试比较 python 的 statsmodels 和 R 中的逻辑回归实现 Python版本 import statsmodels api as sm import pandas as pd import pylab as pl i
Django管理命令是在单独的进程中执行的吗？

Django 有很多管理命令此外我们还可以编写自己的命令进行 shell 调用后会发生什么python manage py XXX 代码是否会在从 shell 启动的进程中执行或者 shell 进程只是与执行命令的主 Django
代码运行时出现内存问题（Python、Networkx）

我编写了一个代码来生成具有 379613734 条边的图但由于内存问题代码无法完成当经过 6200 万行时大约会占用服务器内存的 97 所以我杀了它您有解决这个问题的想法吗我的代码是这样的 import os sys impor
time.sleep - TypeError：需要一个浮点[关闭]

Closed 这个问题是无法重现或由拼写错误引起 help closed questions 目前不接受答案 time sleep 2 TypeError a float is required 我该如何解决我不确定我应该在这里做什么您
Pandas系列矢量化文本处理

我想使用矢量化操作改进我的 Pandas 代码假设我有一个简单的 DataFrame 其中有一个文本列其中可能包含 url Column1 0 hello http www google com 1 bye www mail com w
如何在 matplotlib 图中禁用 xkcd？

您可以通过以下方式打开 xkcd 风格 import matplotlib pyplot as plt plt xkcd 但如何禁用它呢 I try self fig clf 但这行不通简而言之要么使用 Valentin 提到的上下文管
fleiss kappa 是衡量注释者间一致性的可靠指标吗？下面的结果让我很困惑，使用它时是否涉及任何假设？

我有带有以下描述的注释矩阵 3 名注释者 3个类别 206 个科目数据存储在 numpy ndarray 变量 z 中 array 0 2 1 0 2 1 0 2 1 0 2 1 1 1 1 0 2 1 0 3 0 0 3 0 0 3 0
使用字符串迭代 url - python

我现在完全被我的代码困住了首先我尝试从 volkskrant 的存档页面检索所有网址这是我被打击的第一步某一特定日期的 url 如下所示 http www volkskrant nl archief detail 01012016
如何在 Python 中从 C++/C# 紧密实现 ?: ？

在 C 中我可以轻松编写以下内容 string stringValue string IsNullOrEmpty otherString defaultString otherString 有没有一种快速的方法可以在 Python 中做同
如何在Python中使用内联正则表达式修饰符[重复]

这个问题在这里已经有答案了我有一个正则表达式 n DOCUMENTATION n n n 2 s 女巫我正在尝试处理这样的一些文件 usr bin python coding utf 8
.NET 是否有相当于 Python 中的 **kwargs 的功能？

我一直无法通过典型渠道找到这个问题的答案在Python中我可以有以下函数定义 def do the needful kwargs Kwargs is now a dictionary i e do the needful spam 42
从 SQL 数据库导入表并按日期过滤行时，将 Pandas 列解析为日期时间

我有一个DataFrame列名为date 我们如何将日期列转换解析为DateTime object 我使用 Postgresql 数据库加载日期列sql read frame 的一个例子date列是2013 04 04 我想做的是选择
Python 正则表达式中的 \B+ 与 [\B]+ 与 [^\b]+

我在回答 SO 问题时遇到了一个我不明白的问题我创建了一个简化的示例来说明该问题场景我正在测试两个标记不是随机的英语单词在字符串中至少相距一定距离在这个例子中我们有一个动物列表我们要确保在羊和狼之间至少还有其他三种动物否则
Django model.foreignKey 并返回 self.text 错误

所以我正在 Django 中处理 model py 但遇到了 2 个 pylint 错误我不明白为什么这是 pylint 的问题还是我在代码中做错了什么 E1120 No value for argument on delete in
为什么使用 LAMP 托管时避免使用 CGI for Python？

我已经使用 PHP 多年了最近我在论坛上看到很多帖子说PHP 已经过时了现代编程语言更简单更安全等等所以我决定开始学习Python 由于我习惯使用 PHP 因此我刚刚开始通过上传 htaccess 文件来构建页面 addtype
在 pandas DataFrame 中使用比较列表的问题

我在 pandas 中有一个 DataFrame 其列类型之一是 int 上的列表如下所示 df pandas DataFrame 1 2 3 4 5 6 7 8 9 10 columns a b c d gt gt gt df a b
在 envoy 中使用 rm *（通配符）：没有这样的文件或目录

我正在使用 Python 和 Envoy 我需要删除目录中的所有文件除了一些文件外该目录是空的在终端中这将是 rm tmp my silly directory 常识表明在特使中这转化为 r envoy run rm tmp m
捕获 subprocess.run() 的输入

我在 Windows 上有一个交互式命令行 exe 文件是由其他人编写的当程序出现异常时它会终止并且我对程序的所有输入都会丢失所以我正在编写一个 python 程序它调用一个阻塞子进程subprocess run 并捕获所有输入

随机推荐

如何在java中将文本区域与图像分开

我正在使用 OCR 来识别护照详细信息因为我使用的是 Tesseract Java API 为了获得更好的准确性我需要将整个图像可以是 png jpeg tiff 仅划分为文本区域有没有开源的java库可以将文本区域与图像分开请给
Flask.cli.NoAppException：应用程序崩溃

当我尝试访问 Flask 应用程序时它崩溃了这类似于错误this https stackoverflow com questions 41474520 flask flask cli noappexception with app fa
TFS：不允许将工作项类型添加为链接

我刚刚完成生成自定义WITH 工作项类型 CRM 案例我在需求类别的类别子级中添加相关信息
厨师刀命令 404 未找到

我正在尝试使用 Chef 我按照他们提供的所有步骤使用您的硬件安装和配置 Chef 服务器我已从工作站运行以下命令 knife SSL check Output 连接到主机 my server 443已成功验证来自 my server
如何使用@DbRef注释引用GridFSFile（spring data mongodb）

我有一个春天 Documentobject Profile 我想像这样引用 GridFSFile DbRef private GridFSFile file 该文件被写入另一个集合类型GridFS 我总是有一个java lang Stack
GridView 自动将行高设置为最高的网格项

标题是我想要实现的目标的简化版本一个 GridView 它根据我提供的原型网格项自动设置行高原型项目是最高的可能项目例如如果网格项目包含文本则原型将包含最长的可能文本一种可能的解决方法是使用 ListView 其中每一行都包含在
ctypes 指向 numpy 数组中间的指针

我知道如何获取指向 numpy 数组开头的 ctypes 指针 a np arange 10000 dtype np double p a ctypes data as POINTER c double p contents c doubl
keras 规范化轴参数有什么作用？

我是深度学习的初学者正在 keras 中处理 mnist 数据集我使用归一化作为 tf keras utils normalize x train axis 1 我不明白轴参数是什么意思你能帮我解决这个问题吗 Normalize 函数
如何使用 pyspark 计算 apache Spark 数据帧的大小？

有没有办法使用 pyspark 计算 Apache Spark 数据帧的大小以字节为单位为什么不缓存 df 然后在存储下查看 Spark UI 并将单位转换为字节 df cache
Google Drive Api - 使用实体框架自定义 IDataStore

我实现了我的自定义IDataStore这样我就可以存储最终用户令牌 on my database而不是默认的实现它保存在文件系统在 AppData 内 public class GoogleIDataStore IDataStore pu
在没有脚本标签的情况下执行 XSS JavaScript

我正在学习 XSS 出于道德目的我想知道如何在不使用
AngularJS：使用 ng-repeat 保留插入顺序

我正在使用 ng repeat 实现自动完成系统基本上我有一个提供 ng repeat 的对象数组我注意到当我将新内容插入数组时插入顺序不会保留例如广告订单 A B C ng 重复渲染顺序甲丙乙 A B C 中的每一个都
如何在 LINQ 中选择所有字段以及一些新字段？

我收到了 RDLC 报告 SQL DB 中存储的日期格式是格鲁吉亚语我想在报告中将日期显示为波斯语使用 Linq 我想选择数据库的所有字段以及一些用作波斯日期字段的新字段我使用以下语法 var invoices from invoic
如何用Vagrant处理Mysql、网站源等数据？

如何使用 Vagrant 处理 Mysql 网站源等数据作为一名程序员我喜欢能够轻松设置开发环境因此我创建了一个流浪盒子并为其配置了木偶但我问自己盒子中的数据怎么样如果我需要销毁盒子并重新创建它会怎样我的所有数据都将被删除
Chrome 中的引导模式问题

我的 asp net mvc 代码中有一个引导模式它在运行时进行主体绑定第一次我单击某些按钮并且模态工作良好通过 jquery ajax 从控制器返回主体然后必须动态改变模型的主体它也很好用通过 jquery Ajax 和 js
如何实现以下C++输出格式？

我希望按照以下规则打印出 double 1 No scietific notation 2 Maximum decimal point is 3 3 No trailing 0 例如 0 01 formated to 0 01 2 1234
在 Android 上使用 firebase 发送好友请求

我正在从 Parse 迁移到 Firebase 我的 sendRequest 函数执行以下任务假设user1向user2发送请求检查用户名是否存在检查user1是否尚未向user2发送请求检查user1和user2是否还不是朋友一
Jenkins Pipeline - 阅读前一阶段日志

考虑一个有两个阶段的 Jenkins Pipeline Stage A then Stage B 在阶段 B 中是否可以解析阶段 A 的日志中的某些特定文本 Use tee将输出拆分为标准输出和文件接下来解析文件中的文本 STAGE A
如何使用Microsoft Graph Client SDK(C#)重置密码？

用户如何使用 Microsoft Graph 客户端重置密码我无法找到正确的方法来做到这一点谢谢汤姆关于委托范围的说法是正确的Directory AccessAsUser All允许登录用户更改密码标准User ReadWrite可
将字典列表转换为 tf 数据集

我有一本已经完全预处理的字典可以输入到 BERT 模型中然而我很难将其放入 tf dataset 中这就是我的数据集的一个元素 print dataset 0 input ids

将字典列表转换为 tf 数据集

将字典列表转换为 tf 数据集 的相关文章

随机推荐

热门标签

将字典列表转换为 tf 数据集的相关文章