使用 keras tokenizer 处理不在训练集中的新单词

2024-01-26

我目前正在使用 Keras Tokenizer 创建单词索引，然后将该单词索引与导入的 GloVe 字典进行匹配以创建嵌入矩阵。然而，我遇到的问题是，这似乎破坏了使用词向量嵌入的优点之一，因为当使用经过训练的模型进行预测时，如果它遇到不在分词器的词索引中的新词，则会将其从序列中删除。

#fit the tokenizer
tokenizer = Tokenizer()
tokenizer.fit_on_texts(texts)
word_index = tokenizer.word_index

#load glove embedding into a dict
embeddings_index = {}
dims = 100
glove_data = 'glove.6B.'+str(dims)+'d.txt'
f = open(glove_data)
for line in f:
    values = line.split()
    word = values[0]
    value = np.asarray(values[1:], dtype='float32')
    embeddings_index[word] = value
f.close()

#create embedding matrix
embedding_matrix = np.zeros((len(word_index) + 1, dims))
for word, i in word_index.items():
    embedding_vector = embeddings_index.get(word)
    if embedding_vector is not None:
        # words not found in embedding index will be all-zeros.
        embedding_matrix[i] = embedding_vector[:dims]

#Embedding layer:
embedding_layer = Embedding(embedding_matrix.shape[0],
                        embedding_matrix.shape[1],
                        weights=[embedding_matrix],
                        input_length=12)

#then to make a prediction
sequence = tokenizer.texts_to_sequences(["Test sentence"])
model.predict(sequence)

那么有没有办法我仍然可以使用分词器将句子转换为数组，并且仍然尽可能多地使用 GloVe 词典中的单词，而不是只使用训练文本中显示的单词？

编辑：经过进一步考虑，我想一个选择是将一个或多个文本添加到标记器适合的文本中，其中包括手套字典中的键列表。不过，如果我想使用 tf-idf，这可能会扰乱一些统计数据。是否有更好的方法或不同的更好方法？

在 Keras Tokenizer 中，您有oov_token范围。只需选择您的令牌，未知单词就会有该令牌。

tokenizer_a = Tokenizer(oov_token=1)
tokenizer_b = Tokenizer()
tokenizer_a.fit_on_texts(["Hello world"])
tokenizer_b.fit_on_texts(["Hello world"])

Outputs

In [26]: tokenizer_a.texts_to_sequences(["Hello cruel world"])
Out[26]: [[2, 1, 3]]

In [27]: tokenizer_b.texts_to_sequences(["Hello cruel world"])
Out[27]: [[1, 2]]

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 keras tokenizer 处理不在训练集中的新单词的相关文章

使用 psycopg2 在 python 中执行查询时出现“编程错误：语法错误位于或附近”

我正在运行 Python v 2 7 和 psycopg2 v 2 5 我有一个 postgresql 数据库函数它将 SQL 查询作为文本字段返回我使用以下代码来调用该函数并从文本字段中提取查询 cur2 execute SELECT
Django 代理模型的继承和多态性

我正在开发一个我没有启动的 Django 项目我面临着一个问题遗产我有一个大模型在示例中简化称为MyModel这应该代表不同种类的物品的所有实例对象MyModel应该具有相同的字段但方法的行为根据项目类型的不同而有很大差异到目
通过最小元素比较对 5 个元素进行排序

我必须在 python 中使用元素之间的最小比较次数来建模对 5 个元素的列表进行排序的执行计划除此之外复杂性是无关紧要的结果是一个对的列表表示在另一时间对列表进行排序所需的比较我知道有一种算法可以通过 7 次比较总是在元素之间
Django：按钮链接

我是一名 Django 新手用户尝试创建一个按钮单击该按钮会链接到我网站中的另一个页面我尝试了一些不同的例子但似乎没有一个对我有用举个例子为什么这不起作用
python 相当于 R 中的 get() （= 使用字符串检索符号的值）

在 R 中 get s 函数检索名称存储在字符变量向量中的符号的值s e g X lt 10 r lt XVI s lt substr r 1 1 X get s 10 取罗马数字的第一个符号r并将其转换为其等效整数尽管花了一些时间翻
如何从网页中嵌入的 Tableau 图表中抓取工具提示值

我试图弄清楚是否有一种方法以及如何使用 python 从网页中的 Tableau 嵌入图形中抓取工具提示值以下是当用户将鼠标悬停在条形上时带有工具提示的图表示例我从要从中抓取的原始网页中获取了此网址 https covid19 colo
是否可以忽略一行的pyright检查？

我需要忽略一行的pyright 检查有什么特别的评论吗 def create slog group SLogGroup data Optional dict None SLog insert one SLog group group da
SQLALchemy .query：类“Car”的未解析属性引用“query”

我有一个这里已经提到的问题https youtrack jetbrains com issue PY 44557 https youtrack jetbrains com issue PY 44557 但我还没有找到解决方案我使用 Pyt
绘制方程

我正在尝试创建一个函数它将绘制我告诉它的任何公式 import numpy as np import matplotlib pyplot as plt def graph formula x range x np array x rang
从 Flask 访问 Heroku 变量

我已经使用以下命令在 Heroku 配置中设置了数据库变量 heroku config add server xxx xxx xxx xxx heroku config add user userName heroku config add
BeautifulSoup 中的嵌套标签 - Python

我在网站和 stackoverflow 上查看了许多示例但找不到解决我的问题的通用解决方案我正在处理一个非常混乱的网站我想抓取一些数据标记看起来像这样 table tbody tr tr tr td td td table tr t
添加不同形状的 numpy 数组

我想添加两个不同形状的 numpy 数组但不进行广播而是将缺失值视为零可能最简单的例子是 1 2 3 2 gt 3 2 3 or 1 2 3 2 1 gt 3 2 3 1 0 0 我事先不知道形状我正在弄乱每个 np shape
如何在ipywidget按钮中显示全文？

我正在创建一个ipywidget带有一些文本的按钮但按钮中未显示全文我使用的代码如下 import ipywidgets as widgets from IPython display import display button wid
向 Altair 图表添加背景实心填充

I like Altair a lot for making graphs in Python As a tribute I wanted to regenerate the Economist graph s in Mistakes we
有没有办法检测正在运行的代码是否正在上下文管理器内执行？

正如标题所述有没有办法做到这样的事情 def call back if called inside context print running in context else print called outside context 这将
类型错误：预期单个张量时的张量列表 - 将 const 与 tf.random_normal 一起使用时

我有以下 TensorFlow 代码 tf constant tf random normal time step batch size 1 1 我正进入状态TypeError List of Tensors when single Te
有人用过 Dabo 做过中型项目吗？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我们正处于一个新的 ERP 风格的客户端服务器应用程序的开始阶段该应用程序是作为 Python 富客户端开发的我们目前正在评估 Dabo
Python Selenium：如何在文本文件中打印网站上的值？

我正在尝试编写一个脚本该脚本将从 tulsaspca org 网站获取以下 6 个值并将其打印在 txt 文件中最终输出应该是 905 4896 7105 23194 1004 42000 放置的动物的 HTML span class
如何使用 Pycharm 安装 tkinter？ [复制]

这个问题在这里已经有答案了 I used sudo apt get install python3 6 tk而且效果很好如果我在终端中打开 python Tkinter 就可以工作但我无法将其安装在我的 Pycharm 项目上 pip
如何将输入读取为数字？

这个问题的答案是社区努力 help privileges edit community wiki 编辑现有答案以改进这篇文章目前不接受新的答案或互动 Why are x and y下面的代码中使用字符串而不是整数注意在Python 2

随机推荐

如何将文本放入绘图的方框内

我想将文本放在 matplotlib 图上的框中但是文档 http matplotlib org users recipes html placing text boxes仅给出如何将其放在右上角的示例并且选择不同的角并不完全简单这是
将 json 字符串转换为 Java Map(JSONLib)

如何使用 JSON lib http json lib sourceforge net 将 json 字符串转换为 Java Map 我可以转换为 DynaBean JSONObject jsonObject JSONObject JSON
Scanf 似乎无法在带有 GDB 的 Eclipse CDT 中以调试模式工作

在调试模式下运行此代码时 include
如何在 Django 中使用 DeleteView 显示相关项目？

我正在做一个视图来从模型中删除实例使用 Django 中的通用视图DeleteView 但它会级联并删除其他模型中的实例 url r person P
UITextView 撤消管理器不适用于替换属性字符串（iOS 6）

iOS 6 已更新为使用 UITextView 进行富文本编辑 UITextView 现在获得一个 attributeText 属性该属性是愚蠢的不可变这是在 NDA 下在 iOS 6 Apple 论坛上提出的问题由于 iOS 6 现
Varchar数据有选择地显示结果

我正在开发一个应用程序来监控 IP 地址活动我在 Ubuntu 12 04 上使用 LAMP 堆栈在mysql数据库中我创建了一个包含2列的表 ip和mac 数据类型均为varchar 我将一些数据放入表中当我使用 select f
是否可以手动分解 C++ 符号？

我收到一些这样的错误 dyld lazy symbol binding failed Symbol not found ZN2nm8RationalIxEC1ERKNS 10RubyObjectE Referenced from Users
如何查看模板类型参数推导的类型？

有没有一种简单的方法可以强制编译器向我显示为模板参数推导的类型例如给定 template
如何在 Spring 中使用注释和纯 Java 设置 hibernate.hbm2ddl.auto

如何仅使用 Java 和注释在 Spring 中设置以下内容
让线程等待计时器或信号？

我正在编写一个多线程Python应用程序其中每个线程应该在以下情况下唤醒来自主线程的信号自行启动的 Timer 调用换句话说线程应该根据它们为自己设置的计时器唤醒并且能够在相关事件出现时响应来自管理线程的信号实现双重定时器
为什么 sql server 在 NVarchar 字段中存储问号字符而不是日语字符？

我正在尝试将日语字符存储在 SQL Server 2000 数据库的 nvarchar 字段中当我运行如下更新语句时 update blah set address N where key ID 1 从 SQL Server Manage
我需要将利率转换为小数值

我有以下内容应该返回利息除以 100 的值我如何实现这个 import math p int raw input Please enter deposit amount n r float raw input Please input
有没有正确的方法来子类 Tensorflow 的数据集？

我正在研究可以处理自定义 Tensorflow 数据集的不同方法并且我习惯于查看PyTorch 的数据集 https pytorch org tutorials beginner basics data tutorial html cre
一个或两个字母后跟 3-4 个数字

我正在尝试找到正确的正则表达式模式以允许一两个字母后跟 3 到 5 个数字最后可选一个字母最后应该允许非字母数字来包裹字符串 Allowed M394 MP4245 TD493 X4958A V49534 U394U A5909 No
Heroku 部署错误：找不到模块“/app/index.js”

我正在尝试在 Heroku 上部署 mt 应用程序但总是遇到相同的错误 2016 08 18T10 16 10 988982 00 00 heroku web 1 Starting process with command node in
React Native 组件中的 onEnter/onExit 方法 (react-native-router-flux)

因此我可以在路由器定义中的应用程序根目录中使用 onEnter onExit 方法并且它工作得很好
有没有 Doctrine 和 Propel 的比较？

我看过很多 Doctrine 与 Propel 的比较但没有一个真正说服我选择 Doctrine 而不是 Propel 我已经使用 Propel 一段时间了几乎我读到的每一个比较都表明 Propel 没有被很好地记录为第一个问题而且我
ASIHTTPRequest 与 AFNetworking 与 NSUrlRequest

过去我用过ASIHTTPRequest但现在有NSURLRequest 我们应该使用NSURLRequest现在有什么缺点吗对于现在阅读本文的人我最终使用了AFNetworking正如答案中提到的 https github com A
asp.net缓存多线程锁webparts

我有以下场景假设我们有两个不同的 Web 部件对相同的数据进行操作一个是饼图另一个是数据表在其 Page Load 中它们从数据库异步加载数据加载后将其放入应用程序缓存中以供进一步使用或由其他 Web 部件使用因此每个 Web
使用 keras tokenizer 处理不在训练集中的新单词

我目前正在使用 Keras Tokenizer 创建单词索引然后将该单词索引与导入的 GloVe 字典进行匹配以创建嵌入矩阵然而我遇到的问题是这似乎破坏了使用词向量嵌入的优点之一因为当使用经过训练的模型进行预测时如果它遇到不在分

使用 keras tokenizer 处理不在训练集中的新单词

使用 keras tokenizer 处理不在训练集中的新单词 的相关文章

随机推荐

热门标签

使用 keras tokenizer 处理不在训练集中的新单词的相关文章