更新标记生成器后，LineByLineTextDataset 继续加载

2023-12-03

更新标记生成器后，当我运行此行时：

数据集 = LineByLineTextDataset(tokenizer=bert_tokenizer, file_path="./some_file.txt", 块大小=128,)

它会永远加载。

这是完整的代码：

from transformers import BertTokenizer, BertForMaskedLM

bert_tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
model = BertForMaskedLM.from_pretrained("bert-base-uncased")

new_tokens = []
text = open("parsed_data.txt", "r")
for line in text:
        for word in line.split():
           new_tokens.append(word)   

print(len(bert_tokenizer))  # 30522
bert_tokenizer.add_tokens(new_tokens)
model.resize_token_embeddings(len(bert_tokenizer))
print(type(new_tokens))
print(len(new_tokens))      # 53966
print(len(bert_tokenizer))  # 36369

from transformers import LineByLineTextDataset
dataset = LineByLineTextDataset(
    tokenizer=bert_tokenizer,
    file_path="./parsed_data.txt",
    block_size=128,
)

parsed_data.txt 文件包含简单文本。

之前有人发过同样的问题。链接：github.com/huggingface/transformers/issues/5944

None

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

NLP

bertlanguagemodel

huggingfacetransformers

更新标记生成器后，LineByLineTextDataset 继续加载的相关文章

类的 IPython 表示

我正在使用我创建的模块尝试 IPython 但它没有显示类对象的实际表示相反它显示类似的内容 TheClass module TheClass name I heavily在这个模块中使用元类我有真正有意义的类表示应该向用户显示是
如何在 __init__ 中使用await设置类属性

我如何定义一个类await在构造函数或类体中例如我想要的 import asyncio some code class Foo object async def init self settings self settings setti
在 Celery 任务中调用 Google Cloud API 永远不会返回

我正在尝试拨打外部电话Google Cloud Natural Language API从一个内Celery任务使用google cloud python包裹问题是对 API 的调用永远不会返回挂起 celery task def g
NLTK 2.0分类器批量分类器方法

当我运行此代码时它会抛出一个错误我认为这是由于 NLTK 3 0 中不存在batch classify 方法我很好奇如何解决旧版本中的某些内容在新版本中消失的此类问题 def accuracy classifier gold resu
我应该使用 Python 双端队列还是列表作为堆栈？ [复制]

这个问题在这里已经有答案了我想要一个可以用作堆栈的 Python 对象使用双端队列还是列表更好元素数量较少还是数量较多有什么区别您的情况可能会根据您的应用程序和具体用例而有所不同但在一般情况下列表非常适合堆栈 append is
Django Rest Framework 是否有第三方应用程序来自动生成 swagger.yaml 文件？

我有大量的 API 端点编写在django rest framework并且不断增加和更新如何创建和维护最新的 API 文档我当前的版本是 Create swagger yaml文件并以某种方式在每次端点更改时自动生成然后使用此文件作
使用主题交换运行多个 Celery 任务

我正在用 Celery 替换一些自制代码但很难复制当前的行为我期望的行为如下创建新用户时应向tasks与交换user created路由键该消息应该触发两个 Celery 任务即send user activate email
从Django中具有外键关系的两个表中检索数据？ [复制]

这个问题在这里已经有答案了 This is my models py file from django db import models class Author models Model first name models CharFie
在 Django Admin 中调整字段大小

在管理上添加或编辑条目时 Django 倾向于填充水平空间但在某些情况下当编辑 8 个字符宽的日期字段或 6 或 8 个字符的 CharField 时这确实是一种空间浪费字符宽然后编辑框最多可容纳 15 或 20 个字符我如何告
Pycharm 在 os.path 连接上出现“未解析的引用”

将pycharm升级到2018 1 并将python升级到3 6 5后 pycharm报告未解析的引用 join 最新版本的 pycharm 不会显示以下行的任何警告 from os path import join expanduser
Tensorboard SyntaxError：语法无效

当我尝试制作张量板时出现语法错误尽管开源代码我还是无法理解我尝试搜索张量板的代码但不清楚即使我不擅长Python 我这样写路径C Users jh902 Documents logs因为我正在使用 Windows 10 但我不确定
python的shutil.move()在linux上是原子的吗？

我想知道python的shutil move在linux上是否是原子的如果源文件和目标文件位于两个不同的分区上行为是否不同或者与它们存在于同一分区上时的行为相同吗我更关心的是如果源文件和目标文件位于同一分区上 shutil move
Django 视图中的“请求”是什么

在 Django 第一个应用程序的 Django 教程中我们有 from django http import HttpResponse def index request return HttpResponse Hello world
将 Matlab 的 datenum 格式转换为 Python

我刚刚开始从 Matlab 迁移到 Python 2 7 在读取 mat 文件时遇到一些问题时间信息以 Matlab 的日期数字格式存储对于那些不熟悉它的人日期序列号将日历日期表示为自固定基准日期以来已经过去的天数在 MATLAB
Spider 必须返回 Request、BaseItem、dict 或 None，已“设置”

我正在尝试从以下位置下载所有产品的图像我的蜘蛛看起来像 from shopclues items import ImgData import scrapy class multipleImages scrapy Spider name m
带有 LSTM 的 GridSearchCV/RandomizedSearchCV

我一直在尝试通过 RandomizedSearchCV 调整 LSTM 的超参数我的代码如下 X train X train reshape X train shape 0 1 X train shape 1 X test X test
为什么 csv.DictReader 给我一个无属性错误？

我的 CSV 文件是 200 Service 我放入解释器的代码是 snav csv DictReader open screennavigation csv delimiter print snav fieldnames 200 for
每当使用 import cv2 时 OpenCV 都会出错

我在终端上使用 pip3 install opencv contrib python 安装了 cv2 并且它工作了但是每当我尝试导入 cv2 或运行导入了 cv2 的 vscode 文件时在 python IDLE 上它都会说 Trac
Firebase Firestore：获取文档的生成 ID (Python)

我可以创建一个新文档带有自动生成的 ID 并存储对其的引用如下所示 my data key value doc ref db collection u campaigns add my data 我可以像这样访问数据本身 print d
如何将 Django 中的权限添加到模型并使用 shell 进行测试

我在模型中添加了 Meta 类并同步了数据库然后在 shell 中创建了一个对象它返回 false 所以我真的无法理解错误在哪里或者缺少什么是否在其他文件中可能存在某种配置 class Employer User Employer in

随机推荐

如何强制 ie11 请求新的图标？

我正在开发一个网站该网站根据登录的用户详细信息更改其图标控制器在后端处理此请求并为该网站发送适当的图标到目前为止我通过以下方式避免了大多数浏览器缓存图标然而该图标仍然在 ie11 中被缓存当我在 Netbeans 上打开调试
如何检查我的 python 对象是否是数字？ [复制]

这个问题在这里已经有答案了在Java中数字类型都是从Number派生出来的所以我会使用 x instanceof Number python 的等价物是什么测试你的变量是否是一个实例numbers Number gt gt gt i
MySQL 权重评级

我想根据票数创建一个权重的评级因此 1 票 5 票不可能比 4 票 4 票更好我找到了这个数学形式 bayesian avg num votes avg rating this num votes this rating avg num
在 Python 中创建条形图

我尝试用 python 创建条形图时遇到一些问题我的图表代码如下所示 import matplotlib matplotlib use Agg from pylab import import calendar def webshow i
将二维动态数组传递给 C++ 中的函数

我有这个二维动态数组我想将它传递给一个函数我该怎么做 int board board new int boardsize creates a multi dimensional dynamic array for int i 0 i l
有没有办法在 Google 幻灯片中使用 Google Apps 脚本获取/添加动画到对象？

使用 Google Apps 脚本格式化 Google 幻灯片演示文稿时是否有任何方法可以访问和或修改有关对象文本框形状图像等动画的数据以便添加删除或修改动画目前无法使用 Google Apps 脚本获取设置动画或过渡
如何获取下个月每一天的名称？

DateTime dt new DateTime dt DateTime Now AddMonths 1 int x DateTime DaysInMonth dt Year dt Month MessageBox Show x ToStr
调用 glutWireSphere() 时 PyOpenGL 访问冲突读取

我正在使用构建一个应用程序PyOpenGL and PyQt5 on Python3 5 2 该应用程序的目的是设置一个窗口QGLWidget类并使用绘制球体glutWireSphere功能该代码在我的上运行良好Ubuntu Linux
单个结构数据成员的奇怪指针地址

我今天观察到一些奇怪的行为代码如下代码 include
如何在 Protractor 测试中在 httpBackendMocks 之间切换

我正在尝试在 Protractor 测试中模拟对 API 调用的响应在不同的测试中以及测试内应用程序将使用不同的 POST 数据 POST 到 API 始终相同的 URL 并期望不同的响应具体来说它是一个搜索引擎我发送不同的查询
使用具有 EnableCaching = true 的 ObjectDataSource 优化分页和排序

我正在使用使用 Linq To SQL 类备份的 ODS ObjectDataSource 来填充页面上的 Gridview 考虑到性能我禁用了 Gridview 的 Viewstate 并在 ODS 中启用了缓存除此之外我还优化了
Selenium 可以在没有 GUI 的 Ubuntu 上工作吗？

这个问题在这里已经有答案了我在 Amazon AWS 和 Cloud 9 等各种云平台上使用 Codeception 默认情况下这两个平台都没有 GUI 我的问题是你能在这种类型的系统上运行 Selenium 吗或者我需要以某种方式
youtube-dl 给了我一个关于 ssl 的错误

以下是 youtube dl 给我的错误另一个工具you get给了我一个类似的错误我应该怎么做才能从 youtube 下载视频 youtube dl f 137 https youtu be 0Ef9GudbxXY 17 27 23
类型错误：get() 需要 1 个位置参数，但给出了 3 个

此代码将通过以下方式运行基本数据输入窗口tkinter这将保存用户的输入当我运行代码并用鼠标单击提交按钮时出现错误 print Informaci n Adicional format self entry name get 1 0
OpenStreetMap 经常发送网关超时错误

我在程序中使用传单地图代码如下
是否有“git merge -s ours”的“他们的”版本？

将主题分支 B 合并到 A 时使用git merge 我遇到一些冲突我知道所有的冲突都可以使用 B 中的版本来解决我知道git merge s ours 但我想要的是类似的东西git merge s theirs 为什么它不存在与现有
Rails 3 有条件包含 Javascript 文件

我正在尝试找出将以下内容包含在 Rails 3 中的最佳方法正如你所看到的我只是希望 IE 可以使用该 javascript 文件所以也许我根本不应该这样做我愿意接受建议我用它来指定要包含的默认 javascript 文件 con
Xcode 8.2.1 / Swift 3 - 从 Plist 字典数组加载 TableView

我有一个 plist 我将其复制到我的项目中以在 TableView 中使用它 plist 加载我通过将内容和行数打印到控制台来进行验证当我构建项目时我得到一个没有数据的空白 TableView 我已经搜索并尝试了几天但仍然无法让它
Modelica 类图

我正在寻找一种可以自动从 Modelica 代码创建类图的工具 https trac modelica org Modelica attachment ticket 85 classDiagramModelicaMedia png我需要
更新标记生成器后，LineByLineTextDataset 继续加载

更新标记生成器后当我运行此行时数据集 LineByLineTextDataset tokenizer bert tokenizer file path some file txt 块大小 128 它会永远加载这是完整的代码 from

更新标记生成器后，LineByLineTextDataset 继续加载

更新标记生成器后，LineByLineTextDataset 继续加载 的相关文章

随机推荐

热门标签

更新标记生成器后，LineByLineTextDataset 继续加载的相关文章