在 Word2Vec 中合并预训练模型?

2024-01-09

我已经下载了 1000 亿字的 Google 新闻预训练矢量文件。除此之外,我还在训练自己的 3GB 数据,生成另一个预训练的矢量文件。两者都有 300 个特征维度和超过 1GB 的大小。

我如何合并这两个巨大的预训练向量?或者我如何训练一个新模型并在另一个模型之上更新向量?我看到基于 C 的 word2vec 不支持批量训练。

我正在寻找从这两个模型计算单词类比。我相信从这两个来源学习的向量会产生相当好的结果。


没有直接的方法可以合并单独培训课程的最终结果。

即使对于完全相同的数据,初始种子或线程调度抖动的轻微随机化也会导致不同的最终状态,使得向量只能在同一会话内完全可比较。

这是因为每个会话都会发现a有用的向量配置...但是有许多同样有用的配置,而不是单一的最佳配置。

例如,无论您达到什么最终状态,都会有许多旋转/反射,这些旋转/反射在训练预测任务上可以完全一样好,或者在某些其他任务(例如类比求解)上表现完全一样好。但这些可能的替代方案中的大多数都没有可以混合和匹配以进行有用的相互比较的坐标。

使用先前训练运行的数据预加载模型might使用新数据进行更多训练后可以改善结果,但我不知道对这种可能性有任何严格的测试。效果可能取决于您的具体目标、参数选择以及新旧数据的相似程度,或者代表将使用向量的最终数据。

例如,如果 Google 新闻语料库与您自己的训练数据或您将使用词向量理解的文本不同,则使用它作为起点可能只会减慢您的训练速度或产生偏差。另一方面,如果您对新数据进行足够长时间的训练,最终预加载值的任何影响都可能会被稀释为零。 (如果您确实想要“混合”结果,则可能必须同时对新数据进行训练,并以交错目标将向量推回先前的数据集值。)

结合独立会议的结果的方法可能会成为一个很好的研究项目。也许 word2vec 语言翻译项目中使用的方法——学习词汇空间之间的投影——也可以在不同运行的不同坐标之间进行“翻译”。也许将一些向量锁定在适当的位置,或者对“预测新文本”和“保持接近旧向量”的双重目标进行训练将带来有意义的改进组合结果。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

在 Word2Vec 中合并预训练模型? 的相关文章

  • 单词预测算法

    我确信有一篇关于此问题的帖子 但我找不到提出这个确切问题的帖子 考虑以下 我们有字典可供使用 我们收到了许多单词段落 我希望能够根据此输入预测句子中的下一个单词 假设我们有几个句子 例如 你好 我的名字是汤姆 他的名字是杰瑞 他去了没有水的
  • 在基本 Tensorflow 2.0 中运行简单回归

    我正在学习 Tensorflow 2 0 我认为在 Tensorflow 中实现最基本的简单线性回归是一个好主意 不幸的是 我遇到了几个问题 我想知道这里是否有人可以提供帮助 考虑以下设置 import tensorflow as tf 2
  • Keras 可以处理不同尺寸的输入图像吗?

    Keras 可以处理不同尺寸的输入图像吗 例如 在全卷积神经网络中 输入图像可以具有任意大小 然而 我们在用Keras创建网络时需要指定输入形状 因此 我们如何使用 Keras 来处理不同的输入尺寸而不将输入图像调整为相同的尺寸 谢谢你的帮
  • 使用神经网络包进行多项分类

    这个问题应该很简单 但文档没有帮助 我正在使用 R 我必须使用neuralnet多项式分类问题的包 所有示例均针对二项式或线性输出 我可以使用二项式输出进行一些一对一的实现 但我相信我应该能够通过使用 3 个单元作为输出层来做到这一点 其中
  • 如何跨多个文本文件查找字典中键的频率?

    我应该计算文档 individual articles 中所有文件中字典 d 的所有键值的频率 这里 文档 individual articles 大约有20000个txt文件 文件名为1 2 3 4 例如 假设 d Britain 5 7
  • 敏感性特异性图 python

    我正在尝试重现类似于此的灵敏度特异性图 其中 X 轴是阈值 但我还没有找到如何做到这一点 一些 skalern 指标 如 ROC 曲线 会返回真阳性和假阳性 但我还没有找到任何选项来制作此图 我试图将概率与实际标签进行比较以保持计数 我得到
  • 是否可以使用具有余弦相似度的 KDTree?

    看来我不能使用这个相似度度量sklearn例如 KDTree 但我需要 因为我正在使用测量单词向量相似度 对于这种情况 快速鲁棒定制算法是什么 我知道关于Local Sensitivity Hashing 但它应该经过大量调整和测试才能找到
  • sklearn.model_selection.train_test_split 示例中的“随机状态”是什么? [复制]

    这个问题在这里已经有答案了 有人能给我解释一下吗random state在下面的例子中意味着什么 import numpy as np from sklearn model selection import train test split
  • 使用 sklearn 进行稀疏主成分分析

    我正在尝试从中复制一个应用程序paper https people eecs berkeley edu elghaoui Pubs SPCAhandbookSV pdf 作者下载的地方20个新闻组 http scikit learn org
  • 为什么我的精确率-召回率和 ROC 曲线不平滑?

    我有一些标记为 0 或 1 的数据 我正在尝试使用随机森林来预测这些类别 每个实例都标有 20 个用于训练随机森林的特征 约 30 000 个训练实例和约 6000 个测试实例 我使用以下代码绘制精确召回率和 ROC 曲线 precisio
  • 使用 Azure 机器学习检测图像中的符号

    4年前我发帖这个问题 https stackoverflow com q 6999920 411094不幸的是 得到的一些答案超出了我的技能水平 我刚刚参加了一次构建巡演会议 他们在会上谈论了机器学习 这让我想到了使用 ML 来解决我的问题
  • 使用 scikit-learn 在朴素贝叶斯分类器中混合类别数据和连续数据

    我正在使用 Python 中的 scikit learn 开发分类算法来预测某些客户的性别 除此之外 我想使用朴素贝叶斯分类器 但我的问题是我混合了分类数据 例如 在线注册 接受电子邮件通知 等 和连续数据 例如 年龄 长度 会员资格 等
  • Keras 中的条件批量归一化

    我正在尝试在 Keras 中实现条件批量标准化 我假设我必须创建一个自定义层 因此 我从正常化 https github com keras team keras blob master keras layers normalization
  • 在 GPU 上训练时如何处理非确定性?

    在调整超参数以使模型性能更好时 我注意到每次运行代码时获得的分数 以及创建的模型 都是不同的 尽管修复了随机操作的所有种子 如果我在CPU上运行就不会出现这个问题 我搜索了一下 发现这是使用 GPU 训练时的常见问题 这是一个非常好的 详细
  • 如何将 sklearn.naive_bayes 与(多个)分类特征一起使用? [关闭]

    Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案 我想学习朴素贝叶斯模型来解决类为布尔值的问题 有些特征是布尔型的 但其他特征是分类型的 并且可以采用少量值 5 如果我所有的功能都是布尔值
  • 在Python中表示语料库句子的一种热门编码

    我是 Python 和 Scikit learn 库的初学者 我目前需要从事一个 NLP 项目 该项目首先需要通过 One Hot Encoding 来表示一个大型语料库 我已经阅读了 Scikit learn 关于 preprocessi
  • 如何在 Tensorflow 中使用预训练的 Word2Vec 模型

    我有一个Word2Vec训练过的模型Gensim 我如何使用它Tensorflow for Word Embeddings 我不想在 Tensorflow 中从头开始训练嵌入 有人可以告诉我如何用一些示例代码来做到这一点吗 假设您有一个字典
  • 如何在sklearn决策树中显示特征名称?

    我目前有一个决策树 将功能名称显示为X index i e X 0 X 1 X 2 etc from sklearn import tree from sklearn tree import DecisionTreeClassifier d
  • batch_size = x.shape[0] AttributeError: 'tuple' 对象没有属性 'shape'

    该代码结合图像和掩模进行图像检测 我怎样才能纠正这个错误 batch size x shape 0 AttributeError tuple 对象没有属性 shape 这是用于训练的代码 train datagen ImageDataGen
  • 预处理 csv 文件以与 tflearn 一起使用

    我的问题是关于在将 csv 文件输入神经网络之前对其进行预处理 我想使用 python 3 中的 tflearn 为著名的 iris 数据集构建一个深度神经网络 数据集 http archive ics uci edu ml machine

随机推荐

  • .NET 主要版本和发布分支的 git 分支策略

    对于包含多个类库的 NET 项目 我当前使用以下 git 分支策略 feature 1 master v PR v release 7 0 v I branch
  • iPhone 7/7plus 上的空 snapshotView

    我的第一个问题是 最近我将 Xcode 更新到 8 并且resizableSnapshotView该方法在某些模拟器上无法正常工作 snapshotView 在所有 iOS9 10 的测试设备和 iPhone6s 下的模拟器上都运行良好 但
  • Qt 安卓.获取设备屏幕分辨率

    我正在 Android 设备上使用 qt 5 3 进行开发 我无法获取屏幕分辨率 对于旧的 qt 5 版本 此代码有效 QScreen screen QApplication screens at 0 largh screen gt ava
  • 通过合并日期时间和日期列上的两个 DF 查找昨天的高价

    我正在尝试合并两个 df 其中一个 df 有一个datetime列 另一个只有一个date柱子 我的申请是找到昨天的high使用 OHLC 数据集的价格 我在下面附加了一些起始代码 但我将描述我正在寻找的内容 鉴于这种intraday数据集
  • 从 Git 中删除过时的提交

    我已经进行了一些测试提交 以测试提交挂钩 并且始终将索引重置为我最后一次正常提交 现在这些过时的提交仍然存在 gt git reflog fcdabf7 HEAD 0 reset moving to fcdabf7e01845d6f000f
  • 如何在javascript中完全获取具有重复键的JSON

    我试图从 url 获取 JSON 但在响应对象中重复的键被删除 有没有什么方法可以完全获取它而不删除重复的键 这是我的js代码 document ready function var s getJSON new json console l
  • 关键帧不是关键帧? AV_PKT_FLAG_KEY 未解码为 AV_PICTURE_TYPE_I

    解码标志中包含 AV PKT FLAG KEY 的数据包后 我原本期望得到 I 帧 但结果却得到了 P 帧 拨打电话后 avcodec decode video2 codecCtx frame frameFinished packet mp
  • iOS 呈现动画为“推”的视图控制器(左右动画)

    目前 我有一个视图控制器呈现其他视图控制器 我想做的是重新创建推送视图控制器时使用的默认动画 我目前的做法是 FirstViewController IBAction private func push sender AnyObject l
  • 如何捕获 ASCX 控件(而不是隐藏代码)引发的异常?

    我有一个很大的 ASPX 页面 其中包含许多 ASCX 控件 如果控件引发异常 它应该记录异常并仅隐藏其自身 所有其他控件仍应呈现 如何处理从前端文件 ASCX 而不是代码隐藏 引发的各个 ASCX 的异常 例如 尝试使用以下方法引用无效属
  • 算法 CRC-12

    我正在尝试对 12 位 CRC 和算法执行 crc table 但总是得到错误的结果 你能帮助我吗 要创建 crc 表 我尝试 void crcInit void unsigned short remainder int dividend
  • 为什么我的 Perl 代码中会收到“调用得太早以检查原型”警告?

    我有一个像这样的 Perl 文件 use strict f1 sub f3 f2 sub f1 sub f2 简而言之 f1在定义之前被调用 因此 Perl 发出警告 f1 调用得太早 无法检查原型 但情况也是如此f2 唯一的区别是它是从另
  • 如何抑制整个命名空间文件的 StyleCop 警告

    我正在使用 Style Cop 版本 4 7 全局抑制并不适用于选定命名空间的每个成员 我在同一命名空间 StyleCopSample Test 中有两个文件 当我在第一个文件中设置抑制消息时 仅针对该文件抑制消息 但第二个文件仍然会收到警
  • R 裁剪栅格的无数据

    我想裁剪一些栅格的无数据部分 图像的示例1 https i stack imgur com hkr4d png其中无数据为黑色 无需手动定义范围 任何想法 您可以使用trim删除只有外部行和列NA values library raster
  • 同时是 Kotlin 成员和扩展

    为了更多地了解 Kotlin 并使用它 我正在开发一个示例 Android 应用程序 我可以在其中尝试不同的事情 然而 即使在搜索该主题一段时间后 我仍无法找到以下问题的正确答案 让我们在 View 类上声明一个 虚拟 扩展函数 fun V
  • 当我的程序出现分段错误时,即使设置了 RUST_BACKTRACE=1,为什么我也得不到回溯?

    我想查看随机分段错误的回溯 所以我设置了RUST BACKTRACE 1环境变量 通常它会打印回溯信息 但这次不打印 为什么不RUST BACKTRACE work RUST BACKTRACE 1 target debug grin mi
  • 重写 Javascript Map 的相等函数

    我想在 Javascript 中创建一个 Map 字典 其中键是数字数组 值是某个对象 我想从地图中检索以前使用相同数组内容存储的值 即 如果我有一个包含某些内容的数组 我想检索以前为具有相同内容的数组存储的值 如果有 在大多数其他语言中
  • 异步/等待和缓存

    我的服务层正在缓存大量对 memcached 的 Db 请求 这是否导致无法使用 Async Await 例如我怎么能等待这个 public virtual Store GetStoreByUsername string username
  • NSString 内部结构 - 长度如何工作?

    我有一个关于 NSString 内部结构的问题 我想检查字符串长度 基本上我想知道 NSString 是否知道它的长度 每次计数 计数并缓存结果 我应该存储它的长度并每次计算或调用长度方法吗 为了测试一个字符串 我可以测试 nil 或询问它
  • xml dom解析器在java中按名称查找标签

    我有一个 xml 我只想获取城市和温度 我尝试了以下方法 HttpParams httpParameters new BasicHttpParams HttpClient httpclient new DefaultHttpClient h
  • 在 Word2Vec 中合并预训练模型?

    我已经下载了 1000 亿字的 Google 新闻预训练矢量文件 除此之外 我还在训练自己的 3GB 数据 生成另一个预训练的矢量文件 两者都有 300 个特征维度和超过 1GB 的大小 我如何合并这两个巨大的预训练向量 或者我如何训练一个