词汇量和嵌入维度之间的首选比例是多少？

2024-01-28

例如使用时gensim, word2vec或用于训练嵌入向量的类似方法我想知道什么是好的比率，或者嵌入维度与词汇量之间是否有首选比率？随着更多数据的出现，这种情况会如何变化？

由于我仍在讨论这个主题，因此在训练嵌入向量时如何选择合适的窗口大小？

我问这个问题是因为我不是用现实生活中的语言词典来训练我的网络，而是这些句子会描述进程和文件以及其他进程等之间的关系。例如，我的文本语料库中的一个句子如下所示：

smss.exe irp_mj_create systemdrive windows system32 ntdll dll DesiredAccess：执行/遍历、同步、处置：打开、选项：、属性：不适用，ShareMode：读取，AllocationSize：不适用，OpenResult：已打开”

正如您可能想象的那样，变化有很多，但问题仍然是如何以最佳方式微调这些超参数，以便嵌入空间不会过度拟合，同时又为每个单词提供足够的有意义的特征。

Thanks,

Gabriel

比率不是您的目标

我不记得这个问题的任何具体论文，但这个问题感觉有点奇怪 - 一般来说，如果我有一个很棒的模型，但想切换到两倍或十倍大的词汇表，我会not更改嵌入尺寸。

恕我直言，它们是非常正交的、不相关的参数。决定最佳嵌入维度的关键因素主要与计算资源的可用性（越小越好，因此如果结果没有差异并且可以将维度减半，就这样做）、任务和（最重要的）嵌入数量相关。监督训练示例 - 嵌入维度的选择将决定你将压缩/故意限制词汇信息的程度；更大的维度将使您的模型能够区分更多的词汇细节，当且仅当您的监督数据有足够的信息来区分时，这才是好的。use该词汇细节正确，但如果不存在，那么额外的词汇信息将过度拟合，并且较小的嵌入维数将更好地概括。因此，词汇量大小和嵌入维度之间的比率不是（恕我直言，我无法提供证据，这只是实践经验）值得关注的东西，因为嵌入维度的最佳大小由下式决定：你在哪里使用嵌入，而不是训练嵌入的数据。

无论如何，这似乎是一种情况，你的里程会有所不同 - 任何理论和讨论都会很有趣，但是你的任务和文本领域非常具体，一般 NLP 的发现可能适用也可能不适用于你的情况，并且它会是最好获得有效的经验证据your数据。使用 64/128/256 或 100/200/400 或任何大小训练嵌入，使用其中每一个训练模型，并比较效果；与思考效果应该是什么相比，这会花费更少的精力（人，而不是 GPU）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

词汇量和嵌入维度之间的首选比例是多少？的相关文章

我的训练和验证代码（张量流）是否正确以及模型是否过度拟合？

这是我的代码 for it in range EPOCH 24410 BATCH SIZE tr pa tr sp sess run tr para tr spec train loss sess run loss fw op feed d
在 keras 中使用条件实现自定义损失函数

我需要一些有关 keras 损失函数的帮助我一直在使用 Tensorflow 后端在 keras 上实现自定义损失函数我已经在 numpy 中实现了自定义损失函数但如果它可以转换为 keras 损失函数那就太好了损失函数采用数据帧
在Python中清理属于不同语言的文本

我有一个文本集合其中的句子要么完全是英语印地语或马拉地语每个句子附加的 id 为 0 1 2 分别代表文本的语言无论任何语言的文本都可能有 HTML 标签标点符号等我可以使用下面的代码清理英语句子 import HTMLPars
keras LSTM 以正确的形状提供输入

我从具有以下形状的 pandas 数据框中获取一些数据 df head gt gt gt Value USD Drop 7 Up 7 Mean Change 7 Change Predict 0 06480 2 0 4 0 0 000429
在逻辑回归中使用排名数据

当我努力学习这些概念时我将对此给予最大赏金我正在尝试在逻辑回归中使用一些排名数据我想使用机器学习来制作一个简单的分类器来判断网页是否好这只是一个学习练习所以我不期望有很好的结果只是希望学习过程和编码技术我已将数据放入 c
使用 NLP 进行句子压缩 [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案使用机器翻译我可以获得一个句子的非常压缩的版本例如我真的很想喝一杯美味可口的咖啡将被翻译为我想喝咖
Keras 中的条件批量归一化

我正在尝试在 Keras 中实现条件批量标准化我假设我必须创建一个自定义层因此我从正常化 https github com keras team keras blob master keras layers normalization
NLTK 无法找到 stanford-postagger.jar！设置CLASSPATH环境变量

我正在开发一个项目需要我使用 nltk 和 python 来标记令牌所以我想用这个但遇到了一些问题我浏览了很多其他已经提出的问题和其他论坛但我仍然无法解决这个问题问题是当我尝试执行以下命令时 from nltk tag impo
在 GPU 上训练时如何处理非确定性？

在调整超参数以使模型性能更好时我注意到每次运行代码时获得的分数以及创建的模型都是不同的尽管修复了随机操作的所有种子如果我在CPU上运行就不会出现这个问题我搜索了一下发现这是使用 GPU 训练时的常见问题这是一个非常好的详细
如何在带有 LSTM 层的 TensorFlow Hub 中使用嵌入模型？

我正在学习 TensorFlow 2 通过 TF Hub 教程进行文本分类它使用了 TF hub 的嵌入模块我想知道是否可以修改模型以包含 LSTM 层这是我尝试过的 train data validation data test d
如何将 sklearn.naive_bayes 与（多个）分类特征一起使用？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我想学习朴素贝叶斯模型来解决类为布尔值的问题有些特征是布尔型的但其他特征是分类型的并且可以采用少量值 5 如果我所有的功能都是布尔值
多输出回归问题的多重损失

所以我试图训练一个 CNN 模型来预测 4 个实值输出回归问题我尝试使用均方误差作为损失函数我的问题是我是否将输出层分支为 4 个不同的输出层其中有 4 个不同的输出层由于最后一层的权重是单独更新的 loss 4 MSE 确实可以使
Tensorboard 和 Dropout 层

我有一个非常基本的查询我制作了 4 个几乎相同差异在于输入形状的 CNN 并在连接到全连接层的前馈网络时合并了它们几乎相同的 CNN 的代码 model3 Sequential model3 add Convolution2D 32
使用 flow_from_dataframe y_col 的正确“值”是什么

我正在用 pandas 读取 csv 文件并给出存储在中的列名称colname colnames file label Read data from file data pd read csv Hand Annotations 2 csv
池化与随时间池化

我从概念上理解最大总和池中发生的情况作为 CNN 层操作但我看到这个术语随时间变化的最大池或随时间变化的总和池例如用于句子分类的卷积神经网络 https arxiv org pdf 1408 5882 pdfYoon Kim
如何使用DecisionTreeClassifier平衡分类？

我有一个数据集其中类别不平衡课程是0 1 or 2 如何计算每个类别的预测误差然后重新平衡weights相应地在 scikit learn 中如果您想完全平衡将每个类别视为同等重要您可以简单地通过class weight bala
提高SVM分类器准确率的技术

我正在尝试使用 UCI 数据集构建一个分类器来预测乳腺癌我正在使用支持向量机尽管我尽最大努力提高分类器的准确性但仍无法超过 97 062 我尝试过以下方法 1 Finding the most optimal C and gamma
Keras：binary_crossentropy 和 categorical_crossentropy 混淆

使用 TensorFlow 一段时间后我阅读了一些 Keras 教程并实现了一些示例我找到了几个使用卷积自动编码器的教程keras losses binary crossentropy作为损失函数我想binary crossentro
PyTorch 中的后向函数

我对 pytorch 的后向功能有一些疑问我认为我没有得到正确的输出 import numpy as np import torch from torch autograd import Variable a Variable torch
如何在 Tensorflow Keras 中规范化我的图像数据

如前所述我正在尝试在训练模型之前标准化我的数据集我正在使用tf keras preprocessing image ImageDataGenerator之前执行此操作 train data tf cast train data tf f

随机推荐

如何从子进程（通过 Parallel::ForkManager 分叉）传递变量？

我的查询在下面的代码中我试图打印 commandoutput 0 被转移或传递到即将到来的子程序中我尝试通过转移来传递它但我失败了你能帮我正确的方法吗 Code my max forks 4 createThreads my com
从具有开始/结束日期的行创建年份序列行的数据框

我对 R 和编码来说是一个相对较新的用户我已经搜索过但无法解决这个问题我有以下数据 groupid start date end date Status 1 2014 01 01 2017 01 01 A 1 2018 01 01 20
Python - 检查字母是否在列表中

如果一个字母字符串在列表中 find letter o 你好 c 再见返回 True 否则返回 False def find letter lst lst o hello 1 n o if not lst return 0 elif
响应式背景图像 bootstrap 3

我正在使用 bootstrap 并试图使我的背景图像具有响应能力但它不起作用这是我的代码 html div class row div class bg img src img home bg jpg alt home backgrou
`Class of` 类型声明的含义是什么？

在查看我的代码之一时我陷入了如下的一项声明 TMyObjectClass class of TMyObject 我有点困惑想知道这句话的含义是什么作为TMyObjectClass声明之上没有任何声明 and TMyObject声明如下
ElasticSearch：未分配的分片，如何修复？

我有一个有4个节点的ES集群 number of replicas 1 search01 master false data false search02 master true data true search03 master fals
按下按钮刷新 tkinter 框架

我正在使用来自的代码在 tkinter 中的两个框架之间切换 https stackoverflow com questions 7546050 switch between two frames in tkinter制作我的图形用户界面
在 Swift 中将参数传递给选择器

我正在构建一个应用程序来跟踪大学课程的阅读作业每个 ReadingAssignment 都包含一个 Bool 值指示读者是否已完成阅读作业 ReadingAssignments 被收集到 WeeklyAssignment 数组中我希望
具有相同标签的不同散点图标记

我遇到了类似的问题Matplotlib 一个标签具有多个不同标记的图例 https stackoverflow com questions 9262307 matplotlib legend with multiple differen
多个域的集成 Windows 身份验证

我有一个针对域 A 用户的 Asp net 网站具有集成 Windows 身份验证现在B域的用户需要访问该网站但域B用户访问网站时会弹出窗口输入验证信息我的问题是如何配置IIS或Windows Server 让B域用户像A域用户一
XAML 文件的智能感知 (Xamarin.Forms)

在 Visual Studio 15 中如何让 XAML Intellisense 适用于 Xamarin Forms 中的 XAML 文件编辑将答案与问题分开这个解决方案是在这个论坛 https social msdn micro
如何检测 Angular 中属性的更改

我有一个带有子组件的组件timeline
$null 应该位于相等比较的左侧吗？（-eq 与数组）

与同事讨论应该 null是在支票的左边还是右边有什么例子可以说明为什么这很重要吗 abc null null eq abc True abc eq null True All ok abc 6 7 null 8 9 null eq ab
使用 NPOI 将图像插入 Excel 文件

我正在使用 C 在 Visual Studio 2010 中编写一个程序并且正在使用 NPOI 库我正在尝试将图像插入到 Excel 文件中我尝试了两种不同的方法但都不起作用 Method 1 HSSFPatriarch patri
服务重启后 Docker 节点宕机

我的服务器似乎空间不足并且某些已部署的 Docker 堆栈出现了一些问题我花了一段时间才弄清楚但最终我做到了并删除了一些容器和图像以释放一些空间我能够跑service docker restart它起作用了然而也存在一些问题
通过java应用程序发送附有excel文件的电子邮件 - 不起作用

我试图通过Java应用程序发送一封邮件其中包含excel文件作为附件而不实际创建该文件 excel文件中的数据来自数据库我可以发送带有附件的邮件但文件是文本制表符分隔格式但我希望该文件仅为 Excel 格式请帮忙以下是代码
在 Java 调试器中，如何忽略从未通过我的代码的异常

我目前正在使用 IntelliJ IDEA 进行 Java 开发但我也对针对其他 IDE 的答案或调试 Java 代码的一般概念感兴趣因为我在许多 IDE 中都错过了这个功能所以我不确定在从其他语言转移我的调试习惯时是否错过了工作流程
Google Dataflow（Apache Beam）JdbcIO批量插入mysql数据库

我正在使用 Dataflow SDK 2 X Java API Apache Beam SDK 将数据写入 mysql 我创建了基于管道Apache Beam SDK 文档 https beam apache org documentati
使用 window.open() 的多个窗口

众所周知如果您单击嵌入其中的提交按钮onClick windown open 这将打开一个新窗口其中包含您指定的所有可爱属性但是如果继续单击父窗口并再次单击提交按钮而不关闭先前的弹出窗口则同一窗口将被新数据覆盖现在我需要一种
词汇量和嵌入维度之间的首选比例是多少？

例如使用时gensim word2vec或用于训练嵌入向量的类似方法我想知道什么是好的比率或者嵌入维度与词汇量之间是否有首选比率随着更多数据的出现这种情况会如何变化由于我仍在讨论这个主题因此在训练嵌入向量时如何选择合适的窗口大小

词汇量和嵌入维度之间的首选比例是多少？

比率不是您的目标

词汇量和嵌入维度之间的首选比例是多少？ 的相关文章

随机推荐

热门标签

词汇量和嵌入维度之间的首选比例是多少？的相关文章