如何计算2个node2vec模型之间的距离

2024-03-15

我有 2 个不同时间戳的 node2vec 模型。我想计算两个模型之间的距离。两个模型具有相同的词汇，我们更新模型。

我的模型是这样的

model1:
"1":0.1,0.5,...
"2":0.3,-0.4,...
"3":0.2,0.5,...
.
.
.    
model2:
    "1":0.15,0.54,...
    "2":0.24,-0.35,...
    "3":0.24,0.47,...
    .
    .
    .

假设您使用了标准word2vec库来训练您的模型，每次运行都会引导一个完全独立的模型，其坐标不一定与任何其他模型具有可比性。

（由于算法中或训练输入的多线程处理中的一些固有的随机性，即使在完全相同的数据上运行两个训练会话也会产生不同的模型。它们对于下游应用程序应该都是有用的，但是个别的令牌可以处于任意不同的位置。）

也就是说，您可以尝试综合一些衡量两个模型差异程度的指标。例如，您可能：

选择一堆随机（或领域重要）单词对。分别检查每个模型中每对之间的相似性，然后比较模型之间的这些值。（也就是说，比较model1.similarity(token_a, token_b) with model2.similarity(token_a, token_b).）将模型之间的差异视为所有测试的相似差异的加权组合。
对于一些重要的相关标记集，收集每个模型中前 N 个最相似的标记。通过某种排名相关性度量来比较此列表，以查看一个模型对每个标记的“邻域”的改变程度。

对于其中的每一个，我建议根据完全相同的训练数据的基线情况来验证它们的操作，这些数据已经使用不同的起始随机进行了洗牌和/或训练seed。他们是否将这些模型显示为“几乎等效”？如果没有，您需要调整训练参数或综合测量，直到达到预期结果 - 即使标记具有非常不同的坐标，来自相同数据的模型也会被判断为相似。

另一种选择可能是从合成语料库中训练一个巨大的组合模型，其中：

两个时代所有未经修改的原始“文本”都出现一次
来自每个单独时代的文本再次出现，但其标记的某些随机比例被特定于时代的修饰符修改。（例如， 'foo' 有时会变成'foo_1'在第一时代的文本中，有时会变成'foo_2'在第二纪元的文本中。（你不想转换all将任何一个文本中的标记转换为特定于时代的标记，因为只有彼此共同出现的标记才会相互影响，因此您希望任一时代的标记有时以常见/共享变体形式出现，但也经常以特定于时代的形式出现变体。）

最后，原始令牌'foo'将得到三个向量：'foo', 'foo_1', and 'foo_2'。它们应该都非常相似，但是特定时代的变体会相对更多地受到特定时代背景的影响。因此，这三个时代之间的差异（以及现在共同坐标空间中的相对运动）将表明两个时代数据之间发生的变化的幅度和类型。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何计算2个node2vec模型之间的距离的相关文章

Python、Tkinter、更改标签颜色

有没有一种简单的方法来更改按钮中文本的颜色 I use button text input text here 更改按下后按钮文本的内容是否存在类似的颜色变化 button color red Use the foreground设置按钮
如何打印没有类型的defaultdict变量？

在下面的代码中 from collections import defaultdict confusion proba dict defaultdict float for i in xrange 10 confusion proba di
如何在 Sublime Text 2 的 OSX 终端中显示构建结果

我刚刚从 TextMate 切换到 Sublime Text 2 我非常喜欢它让我困扰的一件事是默认的构建结果显示在 ST2 的底部我的程序产生一些很长的结果显示它的理想方式如在 TM2 中是并排查看它们如何在 Mac 操作系统
如何在Windows上模拟socket.socketpair

标准Python函数套接字套接字对 https docs python org 3 library socket html socket socketpair不幸的是它在 Windows 上不可用从 Python 3 4 1 开始我
如何在 MATLAB 中绘制 3D 曲面图？

我有一个像这样的数据集 0 1 0 2 0 3 0 4 1 10 11 12 13 2 11 12 13 14 3 12 13 14 15 4 13 14 15 16 我想在 matlab 中绘制 3D 曲面图使列标题位于 y 轴行标题
如何使用装饰器禁用某些功能的中间件？

我想模仿的行为csrf exempt see here https docs djangoproject com en 1 11 ref csrf django views decorators csrf csrf exempt and h
feedparser 在脚本运行期间失败，但无法在交互式 python 控制台中重现

当我运行 eclipse 或在 iPython 中运行脚本时它失败了 ascii codec can t decode byte 0xe2 in position 32 ordinal not in range 128 我不知道为什么但
python pandas 中的双端队列

我正在使用Python的deque 实现一个简单的循环缓冲区 from collections import deque import numpy as np test sequence np array range 100 2 resha
当玩家触摸屏幕一侧时，如何让 pygame 发出警告？

我使用 pygame 创建了一个游戏当玩家触摸屏幕一侧时我想让 pygame 给出类似你不能触摸屏幕两侧的错误我尝试在互联网上搜索但没有找到任何好的结果我想过在屏幕外添加一个方块当玩家触摸该方块时它会发出警告但这花了很长
使用 OpenPyXL 迭代工作表和单元格，并使用包含的字符串更新单元格[重复]

这个问题在这里已经有答案了我想使用 OpenPyXL 来搜索工作簿但我遇到了一些问题希望有人可以帮助解决以下是一些障碍待办事项我的工作表和单元格数量未知我想搜索工作簿并将工作表名称放入数组中我想循环遍历每个数组项并搜索包含特
Python 3 中“map”类型的对象没有 len()

我在使用 Python 3 时遇到问题我得到了 Python 2 7 代码目前我正在尝试更新它我收到错误类型错误 map 类型的对象没有 len 在这部分 str len seed candidates 在我像这样初始化它之前 se
如何将 PIL 图像转换为 NumPy 数组？

如何转换 PILImage来回转换为 NumPy 数组这样我就可以比 PIL 进行更快的像素级转换PixelAccess允许我可以通过以下方式将其转换为 NumPy 数组 pic Image open foo jpg pix numpy
Python：计算字典的重复值

我有一本字典如下 dictA unit1 test1 alpha unit1 test2 beta unit2 test1 alpha unit2 test2 gamma unit3 test1 delta unit3 test2 gamm
检查所有值是否作为字典中的键存在

我有一个值列表和一本字典我想确保列表中的每个值都作为字典中的键存在目前我正在使用两组来确定字典中是否存在任何值 unmapped set foo set bar keys 有没有更Pythonic的方法来测试这个感觉有点像黑客您的方
如何从没有结尾的管道中读取 python 中的 stdin

当管道来自打开时不知道正确的名称我无法从 python 中的标准输入或管道读取数据文件我有作为例子管道测试 py import sys import time k 0 try for line in sys stdin k k
在 Pandas DataFrame Python 中添加新列[重复]

这个问题在这里已经有答案了例如我在 Pandas 中有数据框 Col1 Col2 A 1 B 2 C 3 现在如果我想再添加一个名为 Col3 的列并且该值基于 Col2 式中如果Col2 gt 1 则Col3为0 否则为1 所以
在python中，如何仅搜索所选子字符串之前的一个单词

给定文本文件中的长行列表我只想返回紧邻其前面的子字符串例如单词狗描述狗的单词例如假设有这些行包含狗 hotdog big dog is dogged dog spy with my dog brown dogs 在这种情况下期望
协方差矩阵的对角元素不是 1 pandas/numpy

我有以下数据框 A B 0 1 5 1 2 6 2 3 7 3 4 8 我想计算协方差 a df iloc 0 values b df iloc 1 values 使用 numpy 作为 cov numpy cov a b I get ar
Python 分析：“‘select.poll’对象的‘poll’方法”是什么？

我已经使用 python 分析了我的 python 代码cProfile模块并得到以下结果 ncalls tottime percall cumtime percall filename lineno function 13937860 9
Pandas 与 Numpy 数据帧

看这几行代码 df2 df copy df2 1 df 1 df 1 values 1 df2 ix 0 0 我们的教练说我们需要使用 values属性来访问底层的 numpy 数组否则我们的代码将无法工作我知道 pandas Data

随机推荐

如何对没有分支文件夹的 TFS Team 项目进行分支

我有一个这样的团队项目 DefaultCollection Project 1 Project 2 Project 3 Somefile txt Somefile2 doc 所有文件和项目都位于团队项目的根目录中我没有主干和分支文
使用 WordPress 高级自定义字段时“url”的字符串偏移量非法

我正在将 Bootstrap 模板转换为 WordPress 主题对于自定义字段我正在使用该插件高级自定义字段 https wordpress org plugins advanced custom fields 问题是当我尝试在以下命
使用多个 OR || 简化 IF 语句相同变量的条件

这是我的代码 var something four if something one something two something three something five something six something seven do
使用@staticmethod 有什么好处吗？

我想知道您是否在代码中使用 staticmethod 装饰器就我个人而言我不使用它因为写 staticmethod 比写 self 需要更多的字母使用它的唯一好处对我来说可能是代码更加清晰但由于我通常为 sphinx 编写方法
C++ 程序无法使用 Clang 和 Visual Studio 2010 Express 进行编译

我正在尝试使用 Visual C 2010 Express 编译本教程中所述的源代码 http kevinaboos wordpress com 2013 07 23 clang tutorial part ii libtooling ex
如何以编程方式找出机器的上次登录时间？

我想 a 以编程方式和 b 远程查找用户成功登录 Windows 计算机的最后日期时间通过远程桌面或控制台我愿意采用任何典型的 Windows 语言 C C VB 批处理文件 JScript 等但任何解决方案都很好尝试这个 pub
将朴素贝叶斯训练分类器保存在 NLTK 中

我对如何保存经过训练的分类器有点困惑例如每次我想使用分类器时重新训练它显然非常糟糕且缓慢我如何保存它并在需要时再次加载它代码如下提前感谢您的帮助我正在使用 Python 和 NLTK 朴素贝叶斯分类器 classifier nl
为什么说C++不支持参数多态？

根据维基百科页面参数多态性 https en wikipedia org wiki Parametric polymorphism 类型多态性的一些实现表面上与参数多态性相似同时也引入了特殊方面 C 模板专门化就是一个例子问题为什么说
哪些 UNIX 命令支持彩色输出？

我喜欢使用支持彩色输出的 UNIX bash 命令因此我定义了一些别名它们自动启用我知道支持此选项的命令的彩色输出但是我确信有数百个命令支持彩色输出我想知道它们是什么我的那些 bash aliases文件是 ls color
.NET - 调整图像大小的边框

我正在尝试在 NET 中调整图像大小但调整大小后的图像周围出现微弱的黑色边框我找到了一个帖子 http social msdn microsoft com forums en US csharpgeneral thread cf7650
从变量引用另一个工作簿中的工作表时下标超出范围

看图片 http s12 postimg org ov8djtuh9 Capture jpg http s12 postimg org ov8djtuh9 Capture jpg Context 尝试激活另一个工作簿中的工作表变量 cSh
Flexbox 难以将图标与容器底部对齐

我在使用 Flexbox 时遇到了一些困难如你所见我有一个aside包含社交媒体图标的有序列表的元素由于某种原因我无法将这些图标粘在包含的内容的底部div HTML代码 div class outercontainer group
SQL 在每个 SELECT 请求上获取 ROW_NUMBER 和 COUNT

我正在构建一个网格机制我需要从数据库中检索找到的总数或记录的数据仅检索其中包含 row number 的这些记录的范围我正在使用 Sql Server 进行测试但我也需要在 Oracle 和 MySql 上支持它这就是我正在尝试的
Visual Studio 2013 中的 SQL Server 项目

我最近从 Visual Studio 2010 升级到 Visual Studio 2013 我的大多数项目都可以使用 VS2013 打开但 SQL Server 2008 数据库项目被列为不兼容除外 VS2013 项目模板不包含 S
JELLY_BEAN 及以下版本的 JavascriptInterface 注释

正如上面明确指出的官方文档 https developer android com reference android webkit WebView html addJavascriptInterface 28java lang Objec
PostgreSQL psql命令行显示bytea列

我有一个图像数据库图像表有两个bytea列我想查询该表并查看这些列以便能够了解这些条目是否存储图像因为它们是可为空的列目前当我使用 psql 命令行查询数据库时我的整个命令行屏幕会变成空白试图显示 bytea 我已经用谷歌搜
无法将“UITableViewCell”类型的值转换为“(AppName).(CustomCellName)”

我目前正在尝试使用 xCode 6 3 swift 1 2 创建自定义表格视图单元格由于某些原因在 cellforRowAtIndexPath 方法中我似乎无法设置我的单元格变量代码将编译但是当这行代码命中时 var cell M
Scala Sets 包含相同的元素，但 SameElements() 返回 false

在使用 Scala 进行工作时可迭代对象的练习 http scala exercises 47deg com koans iterables 我遇到了以下奇怪的行为 val xs Set 5 4 3 2 1 val ys Set 1 2 3
删除 node-role.kubernetes.io/master:NoSchedule 污点

我可以输入什么 CLI 命令来删除node role kubernetes io master NoSchedule来自 Kubernetes 集群中主节点的污染以下命令失败 lnxcfg ip 10 0 0 193 kubectl ta
如何计算2个node2vec模型之间的距离

我有 2 个不同时间戳的 node2vec 模型我想计算两个模型之间的距离两个模型具有相同的词汇我们更新模型我的模型是这样的 model1 1 0 1 0 5 2 0 3 0 4 3 0 2 0 5 model2 1 0 15 0

如何计算2个node2vec模型之间的距离

如何计算2个node2vec模型之间的距离 的相关文章

随机推荐

热门标签

如何计算2个node2vec模型之间的距离的相关文章