在 Word2Vec 中合并预训练模型？

2024-01-09

我已经下载了 1000 亿字的 Google 新闻预训练矢量文件。除此之外，我还在训练自己的 3GB 数据，生成另一个预训练的矢量文件。两者都有 300 个特征维度和超过 1GB 的大小。

我如何合并这两个巨大的预训练向量？或者我如何训练一个新模型并在另一个模型之上更新向量？我看到基于 C 的 word2vec 不支持批量训练。

我正在寻找从这两个模型计算单词类比。我相信从这两个来源学习的向量会产生相当好的结果。

没有直接的方法可以合并单独培训课程的最终结果。

即使对于完全相同的数据，初始种子或线程调度抖动的轻微随机化也会导致不同的最终状态，使得向量只能在同一会话内完全可比较。

这是因为每个会话都会发现a有用的向量配置...但是有许多同样有用的配置，而不是单一的最佳配置。

例如，无论您达到什么最终状态，都会有许多旋转/反射，这些旋转/反射在训练预测任务上可以完全一样好，或者在某些其他任务（例如类比求解）上表现完全一样好。但这些可能的替代方案中的大多数都没有可以混合和匹配以进行有用的相互比较的坐标。

使用先前训练运行的数据预加载模型might使用新数据进行更多训练后可以改善结果，但我不知道对这种可能性有任何严格的测试。效果可能取决于您的具体目标、参数选择以及新旧数据的相似程度，或者代表将使用向量的最终数据。

例如，如果 Google 新闻语料库与您自己的训练数据或您将使用词向量理解的文本不同，则使用它作为起点可能只会减慢您的训练速度或产生偏差。另一方面，如果您对新数据进行足够长时间的训练，最终预加载值的任何影响都可能会被稀释为零。（如果您确实想要“混合”结果，则可能必须同时对新数据进行训练，并以交错目标将向量推回先前的数据集值。）

结合独立会议的结果的方法可能会成为一个很好的研究项目。也许 word2vec 语言翻译项目中使用的方法——学习词汇空间之间的投影——也可以在不同运行的不同坐标之间进行“翻译”。也许将一些向量锁定在适当的位置，或者对“预测新文本”和“保持接近旧向量”的双重目标进行训练将带来有意义的改进组合结果。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

machinelearning

Word2Vec

在 Word2Vec 中合并预训练模型？的相关文章

单词预测算法

我确信有一篇关于此问题的帖子但我找不到提出这个确切问题的帖子考虑以下我们有字典可供使用我们收到了许多单词段落我希望能够根据此输入预测句子中的下一个单词假设我们有几个句子例如你好我的名字是汤姆他的名字是杰瑞他去了没有水的
在基本 Tensorflow 2.0 中运行简单回归

我正在学习 Tensorflow 2 0 我认为在 Tensorflow 中实现最基本的简单线性回归是一个好主意不幸的是我遇到了几个问题我想知道这里是否有人可以提供帮助考虑以下设置 import tensorflow as tf 2
Keras 可以处理不同尺寸的输入图像吗？

Keras 可以处理不同尺寸的输入图像吗例如在全卷积神经网络中输入图像可以具有任意大小然而我们在用Keras创建网络时需要指定输入形状因此我们如何使用 Keras 来处理不同的输入尺寸而不将输入图像调整为相同的尺寸谢谢你的帮
使用神经网络包进行多项分类

这个问题应该很简单但文档没有帮助我正在使用 R 我必须使用neuralnet多项式分类问题的包所有示例均针对二项式或线性输出我可以使用二项式输出进行一些一对一的实现但我相信我应该能够通过使用 3 个单元作为输出层来做到这一点其中
如何跨多个文本文件查找字典中键的频率？

我应该计算文档 individual articles 中所有文件中字典 d 的所有键值的频率这里文档 individual articles 大约有20000个txt文件文件名为1 2 3 4 例如假设 d Britain 5 7
敏感性特异性图 python

我正在尝试重现类似于此的灵敏度特异性图其中 X 轴是阈值但我还没有找到如何做到这一点一些 skalern 指标如 ROC 曲线会返回真阳性和假阳性但我还没有找到任何选项来制作此图我试图将概率与实际标签进行比较以保持计数我得到
是否可以使用具有余弦相似度的 KDTree？

看来我不能使用这个相似度度量sklearn例如 KDTree 但我需要因为我正在使用测量单词向量相似度对于这种情况快速鲁棒定制算法是什么我知道关于Local Sensitivity Hashing 但它应该经过大量调整和测试才能找到
sklearn.model_selection.train_test_split 示例中的“随机状态”是什么？ [复制]

这个问题在这里已经有答案了有人能给我解释一下吗random state在下面的例子中意味着什么 import numpy as np from sklearn model selection import train test split
使用 sklearn 进行稀疏主成分分析

我正在尝试从中复制一个应用程序paper https people eecs berkeley edu elghaoui Pubs SPCAhandbookSV pdf 作者下载的地方20个新闻组 http scikit learn org
为什么我的精确率-召回率和 ROC 曲线不平滑？

我有一些标记为 0 或 1 的数据我正在尝试使用随机森林来预测这些类别每个实例都标有 20 个用于训练随机森林的特征约 30 000 个训练实例和约 6000 个测试实例我使用以下代码绘制精确召回率和 ROC 曲线 precisio
使用 Azure 机器学习检测图像中的符号

4年前我发帖这个问题 https stackoverflow com q 6999920 411094不幸的是得到的一些答案超出了我的技能水平我刚刚参加了一次构建巡演会议他们在会上谈论了机器学习这让我想到了使用 ML 来解决我的问题
使用 scikit-learn 在朴素贝叶斯分类器中混合类别数据和连续数据

我正在使用 Python 中的 scikit learn 开发分类算法来预测某些客户的性别除此之外我想使用朴素贝叶斯分类器但我的问题是我混合了分类数据例如在线注册接受电子邮件通知等和连续数据例如年龄长度会员资格等
Keras 中的条件批量归一化

我正在尝试在 Keras 中实现条件批量标准化我假设我必须创建一个自定义层因此我从正常化 https github com keras team keras blob master keras layers normalization
在 GPU 上训练时如何处理非确定性？

在调整超参数以使模型性能更好时我注意到每次运行代码时获得的分数以及创建的模型都是不同的尽管修复了随机操作的所有种子如果我在CPU上运行就不会出现这个问题我搜索了一下发现这是使用 GPU 训练时的常见问题这是一个非常好的详细
如何将 sklearn.naive_bayes 与（多个）分类特征一起使用？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我想学习朴素贝叶斯模型来解决类为布尔值的问题有些特征是布尔型的但其他特征是分类型的并且可以采用少量值 5 如果我所有的功能都是布尔值
在Python中表示语料库句子的一种热门编码

我是 Python 和 Scikit learn 库的初学者我目前需要从事一个 NLP 项目该项目首先需要通过 One Hot Encoding 来表示一个大型语料库我已经阅读了 Scikit learn 关于 preprocessi
如何在 Tensorflow 中使用预训练的 Word2Vec 模型

我有一个Word2Vec训练过的模型Gensim 我如何使用它Tensorflow for Word Embeddings 我不想在 Tensorflow 中从头开始训练嵌入有人可以告诉我如何用一些示例代码来做到这一点吗假设您有一个字典
如何在sklearn决策树中显示特征名称？

我目前有一个决策树将功能名称显示为X index i e X 0 X 1 X 2 etc from sklearn import tree from sklearn tree import DecisionTreeClassifier d
batch_size = x.shape[0] AttributeError: 'tuple' 对象没有属性 'shape'

该代码结合图像和掩模进行图像检测我怎样才能纠正这个错误 batch size x shape 0 AttributeError tuple 对象没有属性 shape 这是用于训练的代码 train datagen ImageDataGen
预处理 csv 文件以与 tflearn 一起使用

我的问题是关于在将 csv 文件输入神经网络之前对其进行预处理我想使用 python 3 中的 tflearn 为著名的 iris 数据集构建一个深度神经网络数据集 http archive ics uci edu ml machine

随机推荐

.NET 主要版本和发布分支的 git 分支策略

对于包含多个类库的 NET 项目我当前使用以下 git 分支策略 feature 1 master v PR v release 7 0 v I branch
iPhone 7/7plus 上的空 snapshotView

我的第一个问题是最近我将 Xcode 更新到 8 并且resizableSnapshotView该方法在某些模拟器上无法正常工作 snapshotView 在所有 iOS9 10 的测试设备和 iPhone6s 下的模拟器上都运行良好但
Qt 安卓.获取设备屏幕分辨率

我正在 Android 设备上使用 qt 5 3 进行开发我无法获取屏幕分辨率对于旧的 qt 5 版本此代码有效 QScreen screen QApplication screens at 0 largh screen gt ava
通过合并日期时间和日期列上的两个 DF 查找昨天的高价

我正在尝试合并两个 df 其中一个 df 有一个datetime列另一个只有一个date柱子我的申请是找到昨天的high使用 OHLC 数据集的价格我在下面附加了一些起始代码但我将描述我正在寻找的内容鉴于这种intraday数据集
从 Git 中删除过时的提交

我已经进行了一些测试提交以测试提交挂钩并且始终将索引重置为我最后一次正常提交现在这些过时的提交仍然存在 gt git reflog fcdabf7 HEAD 0 reset moving to fcdabf7e01845d6f000f
如何在javascript中完全获取具有重复键的JSON

我试图从 url 获取 JSON 但在响应对象中重复的键被删除有没有什么方法可以完全获取它而不删除重复的键这是我的js代码 document ready function var s getJSON new json console l
关键帧不是关键帧？ AV_PKT_FLAG_KEY 未解码为 AV_PICTURE_TYPE_I

解码标志中包含 AV PKT FLAG KEY 的数据包后我原本期望得到 I 帧但结果却得到了 P 帧拨打电话后 avcodec decode video2 codecCtx frame frameFinished packet mp
iOS 呈现动画为“推”的视图控制器（左右动画）

目前我有一个视图控制器呈现其他视图控制器我想做的是重新创建推送视图控制器时使用的默认动画我目前的做法是 FirstViewController IBAction private func push sender AnyObject l
如何捕获 ASCX 控件（而不是隐藏代码）引发的异常？

我有一个很大的 ASPX 页面其中包含许多 ASCX 控件如果控件引发异常它应该记录异常并仅隐藏其自身所有其他控件仍应呈现如何处理从前端文件 ASCX 而不是代码隐藏引发的各个 ASCX 的异常例如尝试使用以下方法引用无效属
算法 CRC-12

我正在尝试对 12 位 CRC 和算法执行 crc table 但总是得到错误的结果你能帮助我吗要创建 crc 表我尝试 void crcInit void unsigned short remainder int dividend
为什么我的 Perl 代码中会收到“调用得太早以检查原型”警告？

我有一个像这样的 Perl 文件 use strict f1 sub f3 f2 sub f1 sub f2 简而言之 f1在定义之前被调用因此 Perl 发出警告 f1 调用得太早无法检查原型但情况也是如此f2 唯一的区别是它是从另
如何抑制整个命名空间文件的 StyleCop 警告

我正在使用 Style Cop 版本 4 7 全局抑制并不适用于选定命名空间的每个成员我在同一命名空间 StyleCopSample Test 中有两个文件当我在第一个文件中设置抑制消息时仅针对该文件抑制消息但第二个文件仍然会收到警
R 裁剪栅格的无数据

我想裁剪一些栅格的无数据部分图像的示例1 https i stack imgur com hkr4d png其中无数据为黑色无需手动定义范围任何想法您可以使用trim删除只有外部行和列NA values library raster
同时是 Kotlin 成员和扩展

为了更多地了解 Kotlin 并使用它我正在开发一个示例 Android 应用程序我可以在其中尝试不同的事情然而即使在搜索该主题一段时间后我仍无法找到以下问题的正确答案让我们在 View 类上声明一个虚拟扩展函数 fun V
当我的程序出现分段错误时，即使设置了 RUST_BACKTRACE=1，为什么我也得不到回溯？

我想查看随机分段错误的回溯所以我设置了RUST BACKTRACE 1环境变量通常它会打印回溯信息但这次不打印为什么不RUST BACKTRACE work RUST BACKTRACE 1 target debug grin mi
重写 Javascript Map 的相等函数

我想在 Javascript 中创建一个 Map 字典其中键是数字数组值是某个对象我想从地图中检索以前使用相同数组内容存储的值即如果我有一个包含某些内容的数组我想检索以前为具有相同内容的数组存储的值如果有在大多数其他语言中
异步/等待和缓存

我的服务层正在缓存大量对 memcached 的 Db 请求这是否导致无法使用 Async Await 例如我怎么能等待这个 public virtual Store GetStoreByUsername string username
NSString 内部结构 - 长度如何工作？

我有一个关于 NSString 内部结构的问题我想检查字符串长度基本上我想知道 NSString 是否知道它的长度每次计数计数并缓存结果我应该存储它的长度并每次计算或调用长度方法吗为了测试一个字符串我可以测试 nil 或询问它
xml dom解析器在java中按名称查找标签

我有一个 xml 我只想获取城市和温度我尝试了以下方法 HttpParams httpParameters new BasicHttpParams HttpClient httpclient new DefaultHttpClient h
在 Word2Vec 中合并预训练模型？

我已经下载了 1000 亿字的 Google 新闻预训练矢量文件除此之外我还在训练自己的 3GB 数据生成另一个预训练的矢量文件两者都有 300 个特征维度和超过 1GB 的大小我如何合并这两个巨大的预训练向量或者我如何训练一个

在 Word2Vec 中合并预训练模型？

在 Word2Vec 中合并预训练模型？ 的相关文章

随机推荐

热门标签

在 Word2Vec 中合并预训练模型？的相关文章