codecs.open(utf-8) 无法读取纯 ASCII 文件

2023-11-24

我有一个纯 ASCII 文件。当我尝试用以下命令打开它时codecs.open(..., "utf-8")，我无法读取单个字符。 ASCII 是 UTF-8 的子集，为什么不能codecs以UTF-8模式打开这样的文件？

# test.py

import codecs

f = codecs.open("test.py", "r", "utf-8")

# ASCII is supposed to be a subset of UTF-8:
# http://www.fileformat.info/info/unicode/utf8.htm

assert len(f.read(1)) == 1 # OK
f.readline()
c = f.read(1)
print len(c)
print "'%s'" % c
assert len(c) == 1 # fails

# max% p test.py
# 63
# '
# import codecs
#
# f = codecs.open("test.py", "r", "utf-8")
#
# # ASC'
# Traceback (most recent call last):
#   File "test.py", line 15, in <module>
#     assert len(c) == 1 # fails
# AssertionError
# max%

system:

Linux max 4.4.0-89-generic #112~14.04.1-Ubuntu SMP Tue Aug 1 22:08:32 UTC 2017 x86_64 x86_64 x86_64 GNU/Linux

当然，它适用于常规open。如果我删除它也有效"utf-8"选项。还有什么63意思是？就像第三行的中间一样。我不明白。

发现你的问题：

当传递编码时，codecs.open返回一个StreamReaderWriter，这实际上只是 (not的子类；这是一种“组成”关系，而不是继承）StreamReader and StreamWriter。问题是：

StreamReaderWriter提供“正常”read方法（也就是说，它需要一个size参数就是这样）
它委托给内部StreamReader.read method，其中sizeargument 只是关于要读取的字节数的提示，而不是限制；这second争论，chars，是一个严格的限制器，但是StreamReaderWriter从不传递该论点（它不接受它）
When size暗示，但不限制使用chars, if StreamReader有缓冲数据，并且它足够大以匹配size hint StreamReader.read盲目地返回缓冲区的内容，而不是根据缓冲区以任何方式限制它size提示（毕竟只是chars强加一个maximum返回尺寸）

的 APIStreamReader.read和的意义size/chars因为 API 是这里唯一有记录的东西；事实是codecs.open回报StreamReaderWriter不是契约性的，也不是事实StreamReaderWriter wraps StreamReader，我刚刚用过ipython's ??魔法阅读源代码codecs模块来验证此行为。但无论是否有记录，这就是它正在做的事情（请随意阅读源代码StreamReaderWriter，都是Python级别的，所以很简单）。

最好的解决方案是切换到io.open，在每个标准情况下都更快、更正确（codecs.open支持不相互转换的怪异编解码器bytes [Py2 str] and str [Py2 unicode]，而是处理str to str or bytes to bytes编码，但这是一个极其有限的用例；大多数时候，你在之间转换bytes and str）。您所需要做的就是导入io代替codecs，并更改codecs.open线路至：

f = io.open("test.py", encoding="utf-8")

其余代码可以保持不变（并且启动时可能会运行得更快）。

作为替代方案，您可以显式绕过StreamReaderWriter得到StreamReader's read方法并直接传递限制参数，例如改变：

c = f.read(1)

to:

# Pass second, character limiting argument after size hint
c = f.reader.read(6, 1)  # 6 is sort of arbitrary; should ensure a full char read in one go

我猜测Python 错误 #8260，其中涵盖了混合readline and read on codecs.open创建的文件对象，适用于此处，正式地，它是“已修复”，但如果您阅读注释，则修复尚未完成（鉴于已记录的 API，可能无法完成）；任意奇怪的组合read and readline就能打破它。

再次，只需使用io.open;只要您使用的是 Python 2.6 或更高版本，它就可用，而且效果明显更好。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

codecs.open(utf-8) 无法读取纯 ASCII 文件的相关文章

PyList_SetItem 与 PyList_SETITEM

据我所知 PyList SetItem 和 PyList SETITEM 之间的区别在于 PyList SetItem 会降低它覆盖的列表项的引用计数而 PyList SETITEM 不会我有什么理由不应该一直使用 PyList Set
python导入模块时如何避免一直写模块名？

我用math最近模块很多我不想写math sqrt x and math sin x 每时每刻我想缩短它并写sqrt x and sin x How 对于较长的模块名称通常会缩短它们例如 import numpy as np 然后您
为什么 tkinter / window.update 在我的程序中随着时间的推移变得更慢？

我发现当我调用 window update 时当向窗口写入的内容较少时它的运行速度会更快但后来当我向窗口写入更多元素时 window update 需要更长的时间请参阅下面的我的代码您可以看到它在更新窗口之前一次向屏幕 100
Python + PostgreSQL + 奇怪的ascii = UTF8编码错误

我有包含字符的 ascii 字符串 x80 代表欧元符号 gt gt gt print x80 当将包含该字符的字符串数据插入数据库时我得到 psycopg2 DataError invalid byte sequence for enc
Scikit-learn 的内核 PCA：如何在 KPCA 中实现各向异性高斯内核或任何其他自定义内核？

我目前正在使用Scikit learn 的 KPCA https scikit learn org stable modules generated sklearn decomposition KernelPCA html对我的数据集执行降
如何从谷歌云存储桶读取音频文件并在datalab笔记本中使用ipd播放

我想在数据实验室笔记本中播放我从谷歌云存储桶中读取的声音文件这个怎么做 import numpy as np import IPython display as ipd import librosa import soundfile as
html 解析器 python

我正在尝试解析一个网站我正在使用 HTMLParser 模块问题是我想解析第一个 a href 评论后但我真的不知道该怎么做所以我在文档中发现有一个函数叫做handle comment 但我还没有找到如何正确使用它我有以下内容 i
在Python中创建一个新表

我正在尝试从数控机床中提取数据事件每毫秒发生一次我需要过滤掉一些用管道分隔的变量分隔符 PuTTy exe 程序生成的日志文件我尝试阅读熊猫但列不在同一位置 df pd read table data log sep 日志文件的一
杂乱的扭曲连接在不干净的时尚中消失了。没有代理。已经尝试过标题

我正在尝试抓取这个网站 https www5 apply2jobs com jupitermed ProfExt index cfm fuseaction mExternal searchJobs https www5 apply2jobs
如何对这个 Flask 应用程序进行单元测试？

我有一个 Flask 应用程序它使用 Flask Restless 来提供 API 我刚刚写了一些身份验证来检查如果消费者主机被识别该请求包含一个哈希值通过加密 POST 的请求内容和 GET 的 URL 以及秘密 API 密钥来计
求解不等式系统时“多项式错误：仅允许使用单变量多项式”

我想找到以下两个常数的区间cons1 and cons2我写了下面的代码 from sympy import Poly from sympy import Abs from sympy solvers inequalities import
如何强制 Y 轴仅使用整数

我正在使用 matplotlib pyplot 模块绘制直方图我想知道如何强制 y 轴标签仅显示整数例如 0 1 2 3 等而不显示小数例如 0 0 5 1 1 5 2 等我正在查看指导说明并怀疑答案就在附近matplotlib
Django 接受 AM/PM 作为表单输入

我试图弄清楚如何使用 DateTime 字段在 Django 中接受 am pm 作为时间格式但我遇到了一些麻烦我尝试在 forms py 文件中这样设置 pickup date time from DateTimeField inpu
大型数据集上的 Sklearn-GMM

我有一个很大的数据集我无法将整个数据放入内存中我想在这个数据集上拟合 GMM 我可以用吗GMM fit sklearn mixture GMM 重复小批量数据没有理由重复贴合只需随机采样您认为机器可以在合理时间内计算的尽可能多的数据
Jupyter Notebook：没有名为 pandas 的模块

我搜索了其他问题但没有找到任何有帮助的内容大多数只是建议您使用 conda 或 pip 安装 pandas 在我的 jupyter 笔记本中我试图导入 pandas import pandas as pd 但我收到以下错误 Modul
如何正确消除字典中的元素直到只剩下一个字符串

我真的需要这方面的帮助 def get winner dict winner new dict for winner in dict winner first letter winner 0 value dict winner winner
如何使用Featuretools按列值从单个数据框中的多个列创建特征？

我正在尝试根据之前的结果来预测足球比赛的结果我在 Windows 上运行 Python 3 6 并使用 Featuretools 0 4 1 假设我有以下代表结果历史记录的数据框原始数据框 https i stack imgur com
在游戏中实现功能

我在完成这部分作业时遇到了麻烦我必须宣布游戏的获胜者然后输入到函数中输入所有 if 语句后我必须创建一个函数def playGame 这必须包括 showRules user getUserChoice computer getCo
为什么用字符串和时间增量转置 DataFrame 会转换数据类型？

这种行为对我来说似乎很奇怪 id列字符串在转置后转换为时间戳df如果另一列是时间增量 import pandas as pd df pd DataFrame id 00115 01222 32333 val 12 14 170 df v
从 pandas 数据框中绘制堆积条形图

我有数据框 payout df head 10 复制以下 Excel 绘图的最简单最智能和最快的方法是什么我尝试过不同的方法但无法让一切都到位 Thanks 如果您只想要一个堆积条形图那么一种方法是使用循环来绘制数据框中的每一列并

随机推荐

Java - 如何在鼠标按钮释放后接收点坐标（JFreeChart）

我使用 JFreeChart 编写了一个简单的抛物线图当按下鼠标按钮时我得到图形点坐标当释放鼠标按钮时我也想得到图形点坐标但图表鼠标移动按下鼠标按钮时不起作用如何解决我的问题并在释放鼠标按钮后获取图形坐标这是我的代码 pack
将脚本输出重定向到 docker 日志

我有一个在节点 docker 容器中运行的 node js 脚本该脚本当前将其输出转储到容器和 STDOUT 内的日志文件中许多官方的 docker 镜像都允许你运行docker logs container查看该容器中正在运行的任何内
从查找 URI 获取电话号码

我一直在尝试使用联系人的查找 URI 获取联系人的电话号码但没有成功 Cursor myC getContentResolver query lookupURI null null null null String phoneNumber
循环遍历表单的所有控件，甚至是 GroupBox 中的控件

我想向我的所有文本框添加一个事件Form foreach Control C in this Controls if C GetType typeof System Windows Forms TextBox C TextChanged n
二次贝塞尔曲线：计算点

我想计算二次曲线上的点与 HTML5 的 canvas 元素一起使用当我使用quadraticCurveTo JavaScript 中的函数我有一个源点一个目标点和一个控制点假设我如何计算创建的二次曲线上的点t 0 5 只知道这
将 Android Studio 升级到 2.0 后，Android 模拟器无法在 Ubuntu 上运行 - 未找到 Qt 库

今天我将 Android Studio 安装升级到了 2 0 版本我手动更新了它下载 zip 因为更新机制只是告诉我有新版本但不提供在 Android Studio 中直接更新的可能性当我现在尝试启动模拟器时我收到以下错误消息
重命名 Typescript 文件

可能是我遗漏了一些东西或者可能是我太累了 P 在 Visual Studio 2012 的 Typescript 项目中当我重命名 ts 文件时它不会重命名与该 ts 文件链接的 js 文件而是创建一个新文件 Ex 旧情况 file
如何在android中用命令执行dex文件？

有谁可以分享一下在android中用命令执行dex文件的方法吗这只是为了理解假设文件 HelloWorld java 中有以下代码 public class HelloWorld public static void main Stri
Java反射，使用GetDeclaredField时忽略大小写

假设我有一个带有名为 myfield 的字符串字段的类并使用反射来获取该字段我发现Object getClass getDeclaredField myfield 区分大小写它会抛出一个NoSuchFieldException例如如
如何通过 Xcode 以编程方式在 iOS 中使用自定义字体（例如：Helvetica CY.ttf）

我正在尝试使用Helvetica CY我的应用程序中的字体我已经按照苹果文档的建议进行了配置自定义字体显示在故事板的下拉列表中但是无法以编程方式使用相同的字体在我的班级文件中我已记录了该应用程序可用的所有字体系列但是 Helvet
在 Objective-C 中将 & 转换为 & [重复]

这个问题在这里已经有答案了我有一个以下格式的 URL 字符串 http myserver com layouts feed aspx xsl 4 amp web 2F amp page dda3fd10 c776 4d69 8c55 2f
在 Vista Ultimate 64 位上获取 HDD（而非卷）序列号

我曾经想在不使用 WMI 的情况下获取 HDD 序列号我找到了我找到并发布在 StackOverFlow com 上的代码在 32 位 Windows XP 和 Vista 上运行良好当我尝试在 64 位操作系统特别是 Vista
谷歌地图按方向缩放

我正在使用谷歌地图来给出从一个点到另一个点的一些方向虽然我已将地图的缩放设置为 15 但在响应方向请求后缩放会发生变化以便可能使方向适合地图有谁知道如何将变焦保持在 15 并聚焦在第一个点请参阅文档方向渲染器 preserveVie
在 GCC 中，函数模板的节属性被默默忽略

我试图将一组特定的函数放入一个单独的部分但在使用 GCC 时遇到了麻烦 namespace anonymous gnu section mysection void regular func template
命令提示符：当我将文件夹（包含内容）从桌面移动到新目录时，为什么会出现“找不到指定的路径”？

move C USERNAME Desktop TZClock C USERNAME Start Menu Programs TZClock 我一直收到系统找不到指定的路径但我可以导航到它做MOVE只处理文件在 Windows XP
计算数组元素中不同绝对值的数量

我被问到一个面试问题要找出数组元素中不同绝对值的数量我提出了以下解决方案用 C 编写但面试官对代码的运行时效率并不满意我将不胜感激有关如何提高此代码的运行时效率的指示另外我如何计算下面代码的效率这for循环执行A size 次
使用 SwiftMailer 将邮件添加到发送文件夹

我正在使用 SwiftMailer for PHPswiftmailer org 一切正常但我想知道是否有一种方法可以将已发送的消息从 SwiftMailer 发送的邮件帐户添加到已发送的文件夹中就这样祝你有美好的一天据开发人员称
会话：尝试为具有待处理请求的会话请求新权限

我想通过 Android 应用程序发布故事我使用下面的代码 private static final List
为什么inet_ntoa被设计成不可重入函数？

浏览GNU C Library的源代码我发现inet ntoa是用 static thread char buffer 18 我的问题是既然需要使用可重入的inet ntoa 为什么GNU C Library的作者不使用malloc来实
codecs.open(utf-8) 无法读取纯 ASCII 文件

我有一个纯 ASCII 文件当我尝试用以下命令打开它时codecs open utf 8 我无法读取单个字符 ASCII 是 UTF 8 的子集为什么不能codecs以UTF 8模式打开这样的文件 test py import code

codecs.open(utf-8) 无法读取纯 ASCII 文件

codecs.open(utf-8) 无法读取纯 ASCII 文件 的相关文章

随机推荐

热门标签

codecs.open(utf-8) 无法读取纯 ASCII 文件的相关文章