word2vec gensim 多种语言

2024-04-10

这个问题完全超出了我的想象。我正在使用 gensim 训练 Word2Vec 模型。我提供了多种语言的数据，即英语和印地语。当我试图找到最接近“人”的词时，我得到的是：

model.wv.most_similar(positive = ['man'])
Out[14]: 
[('woman', 0.7380284070968628),
 ('lady', 0.6933152675628662),
 ('monk', 0.6662989258766174),
 ('guy', 0.6513140201568604),
 ('soldier', 0.6491742134094238),
 ('priest', 0.6440571546554565),
 ('farmer', 0.6366012692451477),
 ('sailor', 0.6297377943992615),
 ('knight', 0.6290514469146729),
 ('person', 0.6288090944290161)]
--------------------------------------------

问题是，这些都是英文单词。然后我试图找到相同含义的印地语和英语单词之间的相似性，

model.similarity('man', 'आदमी')
__main__:1: DeprecationWarning: Call to deprecated `similarity` (Method will 
be removed in 4.0.0, use self.wv.similarity() instead).
Out[13]: 0.078265618974427215

这个准确度应该比所有其他准确度都要好。我的印地语语料库是通过翻译英语语料库制作的。因此，这些词出现在类似的上下文中。因此他们应该很接近。

这就是我在这里所做的：

#Combining all the words together.
all_reviews=HindiWordsList + EnglishWordsList

#Training FastText model
cpu_count=multiprocessing.cpu_count()
model=Word2Vec(size=300,window=5,min_count=1,alpha=0.025,workers=cpu_count,max_vocab_size=None,negative=10)
model.build_vocab(all_reviews)
model.train(all_reviews,total_examples=model.corpus_count,epochs=model.iter)
model.save("word2vec_combined_50.bin")

我一直在处理一个非常相似的问题，并找到了一个相当强大的解决方案。这张纸 https://arxiv.org/pdf/1309.4168.pdf表明可以在使用不同语言训练的两个 Word2Vec 模型之间定义线性关系。这意味着您可以导出翻译矩阵，将词嵌入从一种语言模型转换为另一种语言模型的向量空间。这一切意味着什么？这意味着我可以从一种语言中取出一个单词，并在另一种语言中找到具有相似含义的单词。

我编写了一个小型 Python 包来为您实现此功能：transvec https://pypi.org/project/transvec/。下面是我使用预训练模型来搜索俄语单词并查找具有相似含义的英语单词的示例：

import gensim.downloader
from transvec.transformers import TranslationWordVectorizer

# Pretrained models in two different languages.
ru_model = gensim.downloader.load("word2vec-ruscorpora-300")
en_model = gensim.downloader.load("glove-wiki-gigaword-300")

# Training data: pairs of English words with their Russian translations.
# The more you can provide, the better.
train = [
    ("king", "царь_NOUN"), ("tsar", "царь_NOUN"),
    ("man", "мужчина_NOUN"), ("woman", "женщина_NOUN")
]

bilingual_model = TranslationWordVectorizer(en_model, ru_model).fit(train)

# Find words with similar meanings across both languages.
bilingual_model.similar_by_word("царица_NOUN", 1) # "queen"
# [('king', 0.7763221263885498)]

不用担心俄语单词上奇怪的 POS 标签 - 这只是我使用的特定预训练模型的一个怪癖。

所以基本上，如果你可以提供一个单词列表及其翻译，那么你就可以训练一个TranslationWordVectorizer翻译any将源语言语料库中存在的单词转换为目标语言。当我真正使用它时，我通过从数据中提取所有单独的俄语单词，通过谷歌翻译运行它们，然后保留所有翻译成英语单词的内容来生成一些训练数据。结果非常好（抱歉，我还没有关于基准测试的更多详细信息；它仍在进行中！）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

word2vec gensim 多种语言的相关文章

Python - 比较同一字典中的值

我有一本字典 d Trump MAGA FollowTheMoney Clinton dems Clinton Stein FollowTheMoney Atlanta 我想删除字符串列表中的重复字符串该字符串是键的值对于这个例子期望
pandas DataFrame.join 的运行时间是多少（大“O”顺序）？

这个问题更具概念性理论性与非常大的数据集的运行时间有关所以我很抱歉没有一个最小的例子来展示我有一堆来自两个不同传感器的数据帧我需要最终将它们连接成两个very来自两个不同传感器的大数据帧 df snsr1 and df snsr2
我应该使用 Python 双端队列还是列表作为堆栈？ [复制]

这个问题在这里已经有答案了我想要一个可以用作堆栈的 Python 对象使用双端队列还是列表更好元素数量较少还是数量较多有什么区别您的情况可能会根据您的应用程序和具体用例而有所不同但在一般情况下列表非常适合堆栈 append is
如何从Python中的函数返回多个值？ [复制]

这个问题在这里已经有答案了如何从Python中的函数返回多个变量您可以用逗号分隔要返回的值 def get name you code return first name last name 逗号表示它是一个元组因此您可以用括号将值括
Python 3d 绘图设置固定色阶

我正在尝试绘制两个 3d 数组第一个数组的 z 值在范围内 0 15 0 15 第二个来自 0 001 0 001 当我绘图时色标自动遵循数据范围如何设置自定义比例我不想看到 0 001 的浅色而应该看到 0 15 的浅色如何修
打印包含字符串和其他 2 个变量的变量

var a 8 var b 3 var c hello my name is var a and var b bye print var c 当我运行程序时 var c 会像这样打印出来 hello my name is 8 and 3 b
Python 内置的 super() 是否违反了 DRY？

显然这是有原因的但我没有足够的经验来认识到这一点这是Python中给出的例子docs http docs python org 2 library functions html super class C B def method se
如何将特定范围内的标量添加到 numpy 数组？

有没有一种更简单更节省内存的方法可以单独在 numpy 中执行以下操作 import numpy as np ar np array a l r ar c a a 0 l ar tolist a r 它可能看起来很原始但它涉及获取给定数
无法导入 langchain.agents.load_tools

我正在尝试使用 LangChain Agents 但无法导入 load tools 版本 langchain 0 0 27 我尝试过这些 from langchain agents import initialize agent from
尽管我已在 python ctypes 中设置了信号处理程序，但并未调用它

我尝试过使用 sigaction 和 ctypes 设置信号处理程序我知道它可以与python中的信号模块一起使用但我想尝试学习当我向该进程发送 SIGTERM 时但它没有调用我设置的处理程序只打印终止为什么它不调用处理程序
Python - 如何确定解析的 XML 元素的层次结构级别？

我正在尝试使用 Python 解析 XML 文件中具有特定标记的元素并生成输出 excel 文档该文档将包含元素并保留其层次结构我的问题是我无法弄清楚每个元素解析器在其上迭代的嵌套深度 XML 示例摘录 3 个元素它们可以任意嵌套
如何使用 Python 3 检查目录是否包含文件

我到处寻找这个答案但找不到我正在尝试编写一个脚本来搜索特定的子文件夹然后检查它是否包含任何文件如果包含则写出该文件夹的路径我已经弄清楚了子文件夹搜索部分但检查文件却难倒了我我发现了有关如何检查文件夹是否为空的多个建议并且我尝
python 中的“槽包装器”是什么？

object dict 和其他地方的隐藏方法设置为这样的
每当使用 import cv2 时 OpenCV 都会出错

我在终端上使用 pip3 install opencv contrib python 安装了 cv2 并且它工作了但是每当我尝试导入 cv2 或运行导入了 cv2 的 vscode 文件时在 python IDLE 上它都会说 Trac
Firebase Firestore：获取文档的生成 ID (Python)

我可以创建一个新文档带有自动生成的 ID 并存储对其的引用如下所示 my data key value doc ref db collection u campaigns add my data 我可以像这样访问数据本身 print d
如何将 Django 中的权限添加到模型并使用 shell 进行测试

我在模型中添加了 Meta 类并同步了数据库然后在 shell 中创建了一个对象它返回 false 所以我真的无法理解错误在哪里或者缺少什么是否在其他文件中可能存在某种配置 class Employer User Employer in
将索引与值交换的最快方法

考虑pd Series s s pd Series list abcdefghij list ABCDEFGHIJ s A a B b C c D d E e F f G g H h I i J j dtype object 交换索引和值并
pytest找不到模块[重复]

这个问题在这里已经有答案了我正在关注pytest 良好实践 https docs pytest org en latest explanation goodpractices html test discovery或者至少我认为我是但是
python 对浮点数进行不正确的舍入

gt gt gt a 0 3135 gt gt gt print 3f a 0 314 gt gt gt a 0 3125 gt gt gt print 3f a 0 312 gt gt gt 我期待 0 313 而不是 0 312 有没有
如何在Python脚本中从youtube-dl中提取文件大小？

我是 python 编程新手我想在下载之前提取视频音频大小任何 YouTube 视频 gt gt gt from youtube dl import YoutubeDL gt gt gt url https www youtube c

随机推荐

为我的网络应用程序生成虚拟数据 - 寻找字典[关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案抱歉如果这不是主题但它is当然是编程related 我需要大规模测试我的 Web 应用程序并发用户
CouchDB“加入”两个文档

我有两个看起来有点像这样的文档 Doc id AAA creator id data DataKey id credits left 500 times used 0 data id AAA 我想要做的是创建一个视图它允许我传递 Data
如果达到标识列的最大值，将附加什么？ [复制]

这个问题在这里已经有答案了可能的重复主键 Id 会发生什么情况当它超过限制时 https stackoverflow com questions 5305232 what happens to the primary key id w
“find”（命令）找不到 -wholename 的任何内容

为什么这个命令有效 home user1 tmp find wholename tmp file c exec echo user2 tmp file c home user1 tmp 而且这个命令不起作用什么也没发现 home user
使用 StaticResource 作为 VisualTransition 的 Storyboard 时出错

我在 Button 控件的 VisualStateGroup 内有一个 VisualTransition Storyboard 属性绑定到 StaticResource Storyboard
如何将cropit中的图片导出到php进行上传？

我已经在互联网上搜索了一段时间但找不到任何可以告诉我如何将结果从 image cropper cropit export 转换为 PHP 可以上传到服务器的图像我正在使用 Cropit 插件我需要的只是一个可以传递到我的 php 上传
如何在文本中间的
内使用
标记
？ [复制]

这个问题在这里已经有答案了我想做这样的事情 p This is a p h2 text h2 paragraph 我禁用了 h2 的边距和填充但它仍然打破了 h2 标签前后的线条如何在文本中间使用 h2 标签并使其看起来像普通单词就
Xcode 8 Swift 3 音高改变声音

我正在尝试制作一个带有击中声音的简单游戏每当您击中某物时击中声音都会有不同的音调我以为这很简单但最终却带来了很多东西其中大部分是我完全从别人那里复制的 func hitSound value Float let audioPlay
C 编程：预处理器、宏作为标记

我正在尝试做一些概念上与此类似的事情但似乎无法让它发挥作用最后显示错误任何想法 include
z/OS 如何调用 Web 服务？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我有一个 COBOL 程序需要从 Web 服务获取数据如果不使用 CICS 我最好的选择是什么我认为 C 程序可以读取 Web
Python-2.x 中的 super() 是否损坏？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
在页面视图之间导航时如何取消所有正在运行的传奇

当用户决定导航到应用程序内的另一个页面时我正在尝试找到一种简单易用的方法来取消页面内所有正在运行的传奇我们不使用路由而是使用每个页面是一个更大的主机应用程序中自己的小部件负责在用户导航时创建和加载每个页面目前我们正在
在 .NET 5.0 上向 Windows 窗体添加配置

我正在将现有的 Windows 窗体 C 应用程序迁移到 NET 5 0 并且我正在尝试遵循迁移文档 https learn microsoft com en us dotnet desktop winforms migration vie
CMake：执行宏/函数作为add_custom_command的命令

我正在使用一个外部库它提供了用于自动代码生成的 CMake 函数以在我的 CMakeLists 中使用问题是每当我修改 CMakeLists 时该函数都会再次运行从而触发新生成但未更改的源的重新编译我需要像 add custo
如何让 forEach 循环等待每个 Ajax 函数完成

我有一个array语句我想循环遍历每个语句并提交给server via an ajax称呼我必须确保每一个ajax请求在发送下一个请求之前执行因为server边代码我正在创建一个unique key为了这array的声明发生的情况
使用 PDO 设置连接超时

我正在使用 PDO 从 MySQL 服务器获取数据我注意到的是如果 MySQL 服务器不可用则需要really 相对很长时间这段代码返回异常 try handle new PDO db type host db host dbnam
如何将 CMD shell 变量展开两次（递归）

使用 Windows XP CMD 命令行我可以将变量展开两次如下所示 set AAA BBB set BBB CCC for F usebackq tokens i in echo AAA do echo i 会回声CCC I e A
调用未定义函数 pcntl_fork() php-fpm nginx

我正在尝试使用pcntl fork 在 php fpm 中但它不可用我得到 Call to undefined function pcntl fork 尽管我已经评论过了disable functions in the php ini
为什么固定大小的缓冲区只能是原始类型？

我们必须与本机代码进行大量互操作在这种情况下使用不需要封送处理的不安全结构要快得多但是当结构包含非基本类型的固定大小缓冲区时我们无法执行此操作为什么 C 编译器要求固定大小缓冲区只能是基本类型为什么固定大小的缓冲区不能由如下结
word2vec gensim 多种语言

这个问题完全超出了我的想象我正在使用 gensim 训练 Word2Vec 模型我提供了多种语言的数据即英语和印地语当我试图找到最接近人的词时我得到的是 model wv most similar positive man O

word2vec gensim 多种语言

word2vec gensim 多种语言 的相关文章

随机推荐

标记

热门标签

word2vec gensim 多种语言的相关文章