word2vec 模型由字符而不是单词组成

2024-03-17

我正在尝试使用 Gensim 在波斯语上制作一个 word2vec 模型,其中以“空格”作为字符分隔符,我使用 python 3.5。我遇到的问题是我给出了一个文本文件作为输入,它返回一个模型,该模型仅包含每个字符而不是单词。我还以推荐的单词列表的形式给出了输入:

Python Gensim word2vec 词汇键 https://stackoverflow.com/questions/43065843/python-gensim-word2vec-vocabulary-key%5D

它对我不起作用,我认为它没有考虑句子中的单词顺序,所以它是不正确的。

我对输入进行了一些预处理,其中包括:

将多个空白折叠成一个
通过空格分割进行标记
删除长度小于 3 个字符的单词 删除停用词

我将文本交给了 word2vec,它给了我正确的结果,但我需要在 python 上使用它,所以我的选择仅限于使用 Gensim。

我还尝试在 gensim 上加载由 word2vec 源创建的模型,但出现错误,因此我需要通过 Gensim 创建 word2vec 模型。

我的代码是:

  wfile = open('aggregate.txt','r')    
  wfileRead = wfile.read()    
  model = word2vec.Word2Vec(wfileRead , size=100)   
  model.save('Word2Vec.txt')

gensim Word2Vec 模型不期望strings作为其文本示例(句子),但是令牌列表。因此,在将文本传递给 Word2Vec 之前,由您的代码对文本进行标记。

如图所示,您的代码只是将原始数据从“aggregate.txt”文件传递到 Word2Vec 中,如下所示wFileRead.

查看 gensim 文档中的示例,包括LineSentencegensim 包含的课程,用于获取想法

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

word2vec 模型由字符而不是单词组成 的相关文章

  • 为什么我们使用输入隐藏权重矩阵而不是隐藏输出权重矩阵作为词向量?

    在word2vec中 经过训练 我们得到两个权重矩阵 1 输入隐藏权重矩阵 2 隐藏输出权重矩阵 人们会使用输入隐藏权重矩阵作为词向量 每一行对应一个词 即词向量 这是我的困惑 为什么人们使用输入隐藏权重矩阵而不是隐藏输出权重矩阵作为词向量
  • TensorFlow 嵌入查找

    我正在尝试学习如何使用 TensorFlow 构建用于语音识别的 RNN 首先 我想尝试 TensorFlow 页面上提供的一些示例模型TF RNN https www tensorflow org versions master tuto
  • gensim 保存加载模型弃用警告

    保存 加载 gensim 词嵌入时 我收到以下弃用警告 model save mymodel model home lib python3 7 site packages smart open smart open lib py 398 U
  • 在 word2vec Gensim 中获取二元组和三元组

    我目前在我的 word2vec 模型中使用 uni gram 如下所示 def review to sentences review tokenizer remove stopwords False Returns a list of se
  • word2vec - 什么是最好的?添加、连接或平均词向量?

    我正在研究循环语言模型 为了学习可用于初始化语言模型的词嵌入 我使用 gensim 的 word2vec 模型 训练后 word2vec 模型为词汇表中的每个单词保存两个向量 单词嵌入 输入 隐藏矩阵的行 和上下文嵌入 隐藏 输出矩阵的列
  • 为什么word2Vec使用余弦相似度?

    我一直在阅读有关 Word2Vec 的论文 例如this one https papers nips cc paper 5021 distributed representations of words and phrases and th
  • 使用 word2vec 嵌入句子

    我想比较不同句子中提到的相同单词的差异 例如 旅行 我想做的是 将提及 旅行 一词的句子视为纯文本 在每个句子中 将 旅行 替换为travel sent x 在这些句子上训练 word2vec 模型 计算 Travel sent1 trav
  • 在 Word2Vec 中合并预训练模型?

    我已经下载了 1000 亿字的 Google 新闻预训练矢量文件 除此之外 我还在训练自己的 3GB 数据 生成另一个预训练的矢量文件 两者都有 300 个特征维度和超过 1GB 的大小 我如何合并这两个巨大的预训练向量 或者我如何训练一个
  • 文本聚类主题建模效率低下

    我尝试使用 LDA 进行文本聚类 但它没有给我不同的聚类 下面是我的代码 Import libraries from gensim import corpora models import pandas as pd from gensim
  • 手动将搭配添加到 gensim 短语器

    我正在对语言学论文进行主题建模 并使用 Gensim 短语来识别频繁的搭配 我希望能够将术语 do support 和 it clefts 标记为一个单词 因为它们是特定的语言术语 但是 如果我在取出停用词后制作 Gensim 模型 则不会
  • 使用 t-sne 可视化从 gensim 生成的 word2vec

    我使用 gensim 在我自己的语料库上训练了 doc2vec 和相应的 word2vec 我想使用 t sne 和单词来可视化 word2vec 如图所示 图中的每个点也带有 单词 我在这里看了一个类似的问题 word2vec 上的 t
  • 在 Tensorboard 投影仪中可视化 Gensim Word2vec 嵌入

    我只看到了几个提出这个问题的问题 但没有一个有答案 所以我想我不妨尝试一下 我一直在使用 gensim 的 word2vec 模型来创建一些向量 我将它们导出为文本 并尝试将其导入到嵌入投影仪的张量流实时模型中 一个问题 没用 它告诉我张量
  • 我正在使用 Word2Vec 和 gensim 在 python 中出现“__init__() 获得意外的关键字参数'文档'”此错误

    我正在使用 Word2vec 和 gensim 进行项目 model gensim models Word2Vec documents userDataFile txt size 150 window 10 min count 2 work
  • 如何在 python-gensim 中使用潜在狄利克雷分配(LDA)来抽象二元组主题而不是一元组?

    LDA 原始输出 一元语法 主题1 水肺 水 蒸汽 潜水 主题2 二氧化物 植物 绿色 碳 所需输出 二元组主题 主题1 水肺潜水 水蒸气 主题2 绿色植物 二氧化碳 任何想法 鉴于我有一个名为docs 包含文档中的单词列表 我可以使用 n
  • H2O 是否或将会提供任何与 h2o word2vec 一起使用的预训练向量?

    H2O 最近在其 API 中添加了 word2vec 能够在您自己提供的语料库上轻松训练自己的词向量真是太好了 然而 使用大数据和大型计算机存在更大的可能性 由于网络带宽和计算能力的限制 谷歌或 H2O ai 等软件供应商可能无法访问这种类
  • Gensim LDA 主题分配

    我希望使用 LDA 将每个文档分配给一个主题 现在我意识到您得到的是 LDA 主题的分布 然而 正如您从下面最后一行看到的 我将其分配给最有可能的主题 我的问题是这样的 我必须跑lda corpus 有点第二次为了获得这些主题 是否有其他内
  • 如何使用 word2vec 找到与向量最接近的单词

    我刚刚开始使用 Word2vec 我想知道如何找到最接近向量的单词 我有这个向量 它是一组向量的平均向量 array 0 00449447 0 00310097 0 02421786 dtype float32 有没有一种直接的方法可以在我
  • 从文本文件中提取与输入单词最相似的前 N ​​个单词

    我有一个文本文件 其中包含我使用 BeautifulSoup 提取的网页内容 我需要根据给定的单词从文本文件中找到 N 个相似的单词 流程如下 从中提取文本的网站 https en wikipedia org wiki Football h
  • 如何使用 python-pandas 和 gensim 将数据框中的单词映射到整数 ID?

    给定这样一个数据框 包括项目和相应的评论文本 item id review text B2JLCNJF16 i was attracted to this B0009VEM4U great snippers 我想绘制顶部的地图5000最常用
  • Python NLP 英式英语与美式英语

    我目前正在用Python 进行NLP 工作 然而 在我的语料库中 既有英式英语也有美式英语 实现 实现 我正在考虑将英式英语转换为美式英语 但是 我没有找到一个好的工具 包来做到这一点 有什么建议么 我也找不到包 但试试这个 请注意 我必须

随机推荐

  • gcc 中的线程安全原子操作

    在我编写的一个程序中 我有很多代码如下 pthread mutex lock frame gt mutex frame gt variable variable pthread mutex unlock frame gt mutex 如果中
  • 我怎样才能简化或清理这个字谜方法?

    我这里有一个方法 它接受一个字符串数组 并将彼此不同的字符串分组在一起 每个组形成主数组的子数组anagram groups array 输出很好 但我觉得我的代码可能过于复杂 如果不将事物重构为更多方法 如何简化我的逻辑和 或语法 def
  • 为什么 Grails 建议将操作作为方法的控制器使用单例作用域?

    我知道 Grails 的早期版本使用控制器的原型范围 因为当时的操作都是闭包 我知道当前版本文档建议使用单例作用域控制器作为使用方法作为操作的控制器 从下面的文章来看 方法和单例作用域似乎更可取或更推荐 但尚不清楚原因 ttp grails
  • 部署站点后,我无权访问 navigator.mediaDevices。我该如何解决?

    我目前正在尝试使用 WebRTC api 并让一切在本地运行 当我部署到surge sh我无法访问navigator mediaDevices目的 我该如何解决这个问题 以下代码行是我遇到问题的地方 const stream await n
  • 如何获取卫星资源DLL的模块句柄? (c++ Visual Studio)

    我们已将所有字符串移至 MFC 应用程序的资源 和附属 DLL 现在 主要语言已合并到 EXE 本身中 因此当我调用 LoadString 时 我只需传入 exe 的模块句柄即可 但是 我需要使其通用 如何以通用方式获取模块句柄 并确保在适
  • document.addEventListener("touchmove", PreventBehavior, false); - 阻止我使用溢出:滚动; - 解决办法吗?

    我使用phonegap构建一个ios应用程序 这样你就无法移动phonegap使用的窗口document addEventListener touchmove preventBehavior false 这很好 但它也阻止我使用 cssov
  • iOS - Facebook Open Graph API - 让标题显示在用户生成的图像旁边

    我无法在用户生成的照片上显示标题 如下所示 相反 这是一张非用户生成的照片 带有标题和描述 启用用户生成的照片后 通过iOS Facebook Open Graph Api 确保照片是用户生成的 https stackoverflow co
  • SQL 主键:整数与 varchar

    我正在合作的团队决定创建一个带有 varchar 主键的表 该表被该主键上的另一个表引用 我有按照我在大学学到的知识创建整数主键的习惯 我读到使用整数主键可以提高性能 问题是我不知道创建整数主键的任何其他原因 你有什么建议吗 主键应该代表行
  • 我的程序不会根据条件停止

    所以 我的程序不会在条件 str2 o 下停止 因此 如果有人知道原因以及如何解决它 它将帮助我 这是我的代码 include
  • log4j2 未检测到自定义附加程序插件

    我正在尝试为 log4j 2 0 创建自定义附加程序 但在让我的 log4j 配置识别附加程序时遇到问题 我知道 log4j 2 0 不支持配置属性中的包 所以我按照建议尝试了here https stackoverflow com que
  • 在事件操作中突出显示 SVG 中的多个路径元素

    我有一个 SVG 它在一个组中包含多个路径元素 它是一个包含多个岛屿的地图 我希望当用户启动 onclick 等操作时突出显示所有岛屿 每个岛屿由组内的路径表示 我可以通过这样做来突出显示每个元素
  • 创建过程 MySQL

    我试图将一个过程从使用 sql plus 转换为 mysql 但在第三行出现语法错误 其中显示 W IN IN NUMBER 并且 IN 突出显示为语法错误 SQL Plus CREATE OR REPLACE PROCEDURE PRC
  • 移动表格使 IE9 崩溃

    因此 我对导致浏览器崩溃的 IE9 错误感到抓狂 我有一个表 正在使用媒体查询为小屏幕设备重新格式化 这是一些非常巧妙的编码 但是在 IE9 中 当我将浏览器窗口重新调整为大于媒体查询时 它会使 IE9 崩溃 似乎当你尝试从 CSS 中删除
  • 新的 C++11 range-for (foreach) 语法:哪些编译器支持它?

    我在中看到了这个 c 11 代码片段Jeremy Siek 在 BoostCon 上的演讲 http ecee colorado edu siek boostcon2010bgl pdf deque
  • 将数据保存和加载到文件 C++(初学者)

    我有一个包含许多不同变量的类 例如其中有一些多维向量 我听说您可以将数据直接存储和加载到文件中 但是可以到什么程度呢 例如 如果我创建此类的实例 填充它 然后将其保存到文件中 我可以以相同的方式加载它吗 就像那是如何运作的 我是一次性保存所
  • 如何在Android Studio上创建Renderscript脚本并运行它们?

    背景 我想研究如何在 Android 上创建 Renderscript 脚本以及一般的 Renderscript 在过去的一年里 Android Studio 成为 Google 支持 Android 应用程序开发的唯一 IDE 问题 为此
  • SQL vs MySQL:关于聚合操作和 GROUP BY 的规则

    In 这本书 https rads stackoverflow com amzn click com 0072465638我目前正在阅读有关数据库的课程 给出了以下使用聚合运算符的非法查询的示例 找出最年长水手的姓名和年龄 考虑以下尝试回答
  • 使用 readdir() 读取目录时删除文件

    我的代码是这样的 DIR pDir opendir path to my dir struct dirent pFile NULL while pFile readdir Check if it is a zip file if subrs
  • ** IE11 不支持运算符。如何使用代码将其替换为Math.pow?

    我有这个示例公式 97000 5 50 100 12 1 1 5 50 100 12 1 120 问题是此代码在 IE11 中无法正常工作 我尝试过这种方法来替换每个 with Math pow 但我无法让它正常工作 function de
  • word2vec 模型由字符而不是单词组成

    我正在尝试使用 Gensim 在波斯语上制作一个 word2vec 模型 其中以 空格 作为字符分隔符 我使用 python 3 5 我遇到的问题是我给出了一个文本文件作为输入 它返回一个模型 该模型仅包含每个字符而不是单词 我还以推荐的单