错误：“utf8”编解码器无法解码位置 0 中的字节 0x80：起始字节无效

2024-01-07

我正在尝试执行以下操作Kaggle作业 https://www.kaggle.com/c/word2vec-nlp-tutorial。我正在使用 gensim 包来使用 word2vec。我能够创建模型并将其存储到磁盘。但是当我尝试加载文件时，出现以下错误。

    -HP-dx2280-MT-GR541AV:~$ python prog_w2v.py 
Traceback (most recent call last):
  File "prog_w2v.py", line 7, in <module>
    models = gensim.models.Word2Vec.load_word2vec_format('300features_40minwords_10context.txt', binary=True)
  File "/usr/local/lib/python2.7/dist-packages/gensim/models/word2vec.py", line 579, in load_word2vec_format
    header = utils.to_unicode(fin.readline())
  File "/usr/local/lib/python2.7/dist-packages/gensim/utils.py", line 190, in any2unicode
    return unicode(text, encoding, errors=errors)
  File "/usr/lib/python2.7/encodings/utf_8.py", line 16, in decode
    return codecs.utf_8_decode(input, errors, True)
UnicodeDecodeError: 'utf8' codec can't decode byte 0x80 in position 0: invalid start byte

我发现类似的问题。但我无法解决这个问题。我的 prog_w2v.py 如下。

import gensim
import time
start = time.time()    
models = gensim.models.Word2Vec.load_word2vec_format('300features_40minwords_10context.txt', binary=True) 
end = time.time()   
print end-start,"   seconds"

我正在尝试使用生成模型代码在这里 http://ideone.com/9DXo4w。该程序大约需要半个小时来生成模型。因此我无法多次运行它来调试它。

您没有正确加载文件。您应该使用 load() 而不是 load_word2vec_format()。当您使用 C 代码训练模型并将模型保存为二进制格式时，会使用后者。但是，您没有以二进制格式保存模型，而是使用 python 对其进行训练。因此，您可以简单地使用以下代码，它应该可以工作：

models = gensim.models.Word2Vec.load('300features_40minwords_10context.txt')

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

错误：“utf8”编解码器无法解码位置 0 中的字节 0x80：起始字节无效的相关文章

Python 类型提示 Dict 语法错误可变默认值是不允许的。使用“默认工厂”

我不知道为什么解释器会抱怨这个类型的字典对于这两个实例我得到一个不允许可变默认值使用默认工厂语法错误我使用的是 python 3 7 3 from dataclasses import dataclass from typing
让 VoiceChannel.members 和 Guild.members 返回完整列表的问题

每当我尝试使用 VoiceChannel members 或 Guild members 时它都不会提供适用成员的完整列表我从文本命令的上下文中获取 VoiceChannel 和 Guild 如下所示 bot command name
如何在 __init__ 中使用await设置类属性

我如何定义一个类await在构造函数或类体中例如我想要的 import asyncio some code class Foo object async def init self settings self settings setti
为什么 dataclasses.astuple 返回类属性的深层副本？

在下面的代码中astuple函数正在执行数据类的类属性的深层复制为什么它不能产生与函数相同的结果my tuple import copy import dataclasses dataclasses dataclass class Dem
NLTK 2.0分类器批量分类器方法

当我运行此代码时它会抛出一个错误我认为这是由于 NLTK 3 0 中不存在batch classify 方法我很好奇如何解决旧版本中的某些内容在新版本中消失的此类问题 def accuracy classifier gold resu
我应该使用 Python 双端队列还是列表作为堆栈？ [复制]

这个问题在这里已经有答案了我想要一个可以用作堆栈的 Python 对象使用双端队列还是列表更好元素数量较少还是数量较多有什么区别您的情况可能会根据您的应用程序和具体用例而有所不同但在一般情况下列表非常适合堆栈 append is
Django Rest Framework 是否有第三方应用程序来自动生成 swagger.yaml 文件？

我有大量的 API 端点编写在django rest framework并且不断增加和更新如何创建和维护最新的 API 文档我当前的版本是 Create swagger yaml文件并以某种方式在每次端点更改时自动生成然后使用此文件作
如何从Python中的函数返回多个值？ [复制]

这个问题在这里已经有答案了如何从Python中的函数返回多个变量您可以用逗号分隔要返回的值 def get name you code return first name last name 逗号表示它是一个元组因此您可以用括号将值括
从Django中具有外键关系的两个表中检索数据？ [复制]

这个问题在这里已经有答案了 This is my models py file from django db import models class Author models Model first name models CharFie
PyQt 使用 ctrl+Enter 触发按钮

我正在尝试在我的应用程序中触发确定按钮我当前尝试的代码是这样的 self okPushButton setShortcut ctrl Enter 然而它不起作用这是有道理的我尝试查找一些按键序列here http ftp ics
pandas - 包含时间序列数据的堆积条形图

我正在尝试使用时间序列数据在 pandas 中创建堆积条形图 DATE TYPE VOL 0 2010 01 01 Heavy 932 612903 1 2010 01 01 Light 370 612903 2 2010 01 01 Me
Pandas 组合不同索引的数据帧

我有两个数据框df 1 and df 2具有不同的索引和列但是有一些索引和列重叠我创建了一个数据框df索引和列的并集因此不存在重复的索引或列我想填写数据框df通过以下方式 for x in df index for y in df
带有 LSTM 的 GridSearchCV/RandomizedSearchCV

我一直在尝试通过 RandomizedSearchCV 调整 LSTM 的超参数我的代码如下 X train X train reshape X train shape 0 1 X train shape 1 X test X test
Python：Goslate 翻译请求返回“503：服务不可用”[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我们不允许提出寻求书籍工具软件库等推荐的问题您可以编辑问题以便用事实和引文来回答这个问题似乎不是关于主要由程序员使用的特定编程问
如果 PyPy 快 6.3 倍，为什么我不应该使用 PyPy 而不是 CPython？

我已经听到很多关于PyPy http en wikipedia org wiki PyPy项目他们声称它比现有技术快 6 3 倍CPython http en wikipedia org wiki CPython口译员开启他们的网站 ht
每当使用 import cv2 时 OpenCV 都会出错

我在终端上使用 pip3 install opencv contrib python 安装了 cv2 并且它工作了但是每当我尝试导入 cv2 或运行导入了 cv2 的 vscode 文件时在 python IDLE 上它都会说 Trac
如何使用 PrimaryKeyRelatedField 更新多对多关系上的类别

Django Rest 框架有一个主键相关字段 http www django rest framework org api guide relations primarykeyrelatedfield其中列出了我的 IDmany to m
python 对浮点数进行不正确的舍入

gt gt gt a 0 3135 gt gt gt print 3f a 0 314 gt gt gt a 0 3125 gt gt gt print 3f a 0 312 gt gt gt 我期待 0 313 而不是 0 312 有没有
如何将Python3设置为Mac上的默认Python版本？

有没有办法将 Python 3 8 3 设置为 macOS Catalina 版本 10 15 2 上的默认 Python 版本我已经完成的步骤看看它安装在哪里 ls l usr local bin python 我得到的输出是这样的
JSON：TypeError：Decimal（'34.3'）不是JSON可序列化的[重复]

这个问题在这里已经有答案了我正在运行一个 SQL 查询它返回一个小数列表当我尝试将其转换为 JSON 时出现类型错误查询 res db execute SELECT CAST SUM r SalesVolume 1000 0 AS

随机推荐

如何避免 Hibernate 中旧式的外连接 (+)？

我写了这样的 HQL 查询 SELECT a FROM A a LEFT JOIN a b where Hibernate 生成这样的 sql 查询 SELECT a FROM A a LEFT JOIN a b where a b id
使用 Node.js 和 PostgreSQL 的 INSERT 操作不起作用

我正在使用 Node js 和 PostgreSQL 创建我的第一个应用程序该应用程序连接到数据库创建表对网站进行网络抓取将信息插入数据库然后与数据库断开连接我正在尝试使用async await 问题是插入操作不起作用没有错误
使用 Jquery Mobile 对图像进行捏合放大/缩小效果

我必须使用 jquery Mobile 插件在图像上添加捏缩放缩小效果的功能有人可以帮忙吗多谢 Brock 这在 jQuery Mobile 上是可能的但您需要使用名为的第 3 方实现锤子 js https github com E
有没有好的参考 SharePoint 数据绑定语法？

我使用 SharePoint Designer 将 asp 服务器控件放入我的 SharePoint XSLT 中我发现它非常方便将值预先填充到表单中或者提供与 SharePoint 定义的布局隐藏字段等不同的体验例如如果我这样
Jupyter 创建笔记本失败：FORBIDDEN

我刚刚将 Jupyter 升级到版本 4 3 1 虽然我可以打开以前创建的 ipynb 文件但无法创建新文件当我尝试创建新的笔记本文件时我收到一个弹出窗口显示创建笔记本失败创建新笔记本时出错禁止在终端中我注意到这个输出 W 12
编译器无法判断哪个具有重复字段的记录类型应该是函数参数类型

我的程序有一些具有相同字段名称的记录类型每种记录类型意味着不同的内容编译器坚持认为与此记录形状匹配的函数参数必须是最后声明的类型即使我声明具有明确字段名称的记录实例并且始终将一致的类型传递到每个函数中处理这个问题的适当方法是什么
ivy如何将maven范围映射到ivy配置

Maven 存储库例如Maven 存储库 http mvnrepository com 提供最广泛的依赖管理项目 Ivy 提供了访问 Maven 存储库并从那里下载工件的可能性这些存储库中只有 pom 文件没有 ivy xml 它们可
Oracle JDBC 驱动程序版本 11.2.0.2.0 中的夏令时处理是否被破坏？

我突然注意到我在 Oracle 11g R2 中使用的 Oracle JDBC 驱动程序认为美国的夏令时是在今年 3 月 13 日凌晨 2 59 59 之后开始的事实上它是在凌晨1点59分59秒之后开始的我做了一些额外的测试发现该驱
为什么在 std::deque 末尾或开头插入或删除元素的复杂度是常量 O(1)？

根据C 标准 http en cppreference com w cpp container dequestd deque 是类似的东西 std vector
如何通过 Scala Reader 从 Java 代码注入依赖项

这是一个依赖服务 public class Service1 通过阅读器使用它的 Scala 代码 object TupleEx type FailFast A Either List String A type Env A ReaderT
对行中单元格中具有特定值的列中的单元格进行求和

我的表如下 Timestamp Category Cost Shopping 5 Charity 10 Dining 20 Mortgage 1000 Dining 30 etc 我需要的是每个类别值的公式该公式将获得具有该类别的行的成本
是否可以设置 matlab 在运行之前验证可达函数

背景我习惯了强类型的编译语言所以我习惯了拼写错误几乎会立即被识别为未声明的变量然而由于 Matlab 是一种弱类型语言这不会自动发生我的开发周期往往是 write function s Run lt Crash due to m
bash 变量插值通过连字符或下划线分隔变量

这是一个简单的脚本只是为了查看文件是否已下载在此脚本中 find 命令的计算结果始终为零即使它没有找到任何内容所以我把它注释掉了 on the filename day CTRwFEES hoo01M 我必须在文件名末尾添加下划线
如何在 C# ASP.NET 中从 gridview 的页脚行查找文本框的值
如何在动态查询中连接 uniqueidentifier

我有一个动态查询我想在其中连接 uniqueidentifier 但和运算符不支持此操作有没有办法可以将 uniqueidentifier 连接到动态字符串在这方面的任何示例或任何帮助都将受到高度重视您是否尝试过先转换并转换为字
在 ListView 中显示 Firebase 数据

好的我让它运行显示用户 ID 但不显示分数然后我开始做一些改变忘记了我改变了什么现在我又回到了 null null 我觉得我可能删除了某些内容或拼写错误了某些内容 dbref addValueEventListener new c
如何从我的硬盘驱动器中打开不在 Outlook 中的 Outlook .msg 文件？

我到处搜索这个看似简单的任务但我遇到的所有参考文献要么保存到硬盘驱动器要么从 Outlook 文件夹中读取我有以下代码循环遍历硬盘驱动器上文件夹中的文件名但我不知道如何采用该路径并使用 Outlook 打开它 Dim inPath
尝试和树之间的区别？

我记得尝试不存储每个节点的全部数据只存储父节点的后缀树确实存储了整个数据但仅根据前缀组织自身因此尝试变得更小这使得例如可以很好地压缩字典这真的是唯一的区别吗从实际应用程序中我记得尝试在范围查询中更快甚至还有特殊的 solr
无线电输入验证返回错误[关闭]

Closed 这个问题需要调试细节 help minimal reproducible example 目前不接受答案我已经被困在这个问题上有一段时间了无法弄清楚为什么单选验证在我当前的项目中不起作用但如果表单除了单选按钮本身之外没有
错误：“utf8”编解码器无法解码位置 0 中的字节 0x80：起始字节无效

我正在尝试执行以下操作Kaggle作业 https www kaggle com c word2vec nlp tutorial 我正在使用 gensim 包来使用 word2vec 我能够创建模型并将其存储到磁盘但是当我尝试加载文件时

错误：“utf8”编解码器无法解码位置 0 中的字节 0x80：起始字节无效

错误：“utf8”编解码器无法解码位置 0 中的字节 0x80：起始字节无效 的相关文章

随机推荐

热门标签

错误：“utf8”编解码器无法解码位置 0 中的字节 0x80：起始字节无效的相关文章