从Python中的文本文件中删除二进制数据

2024-02-23

我有一个包含一些二进制数据的文本文件。当我使用 Python 3 在文本模式下读取文件时，我收到一个 UniCodeDecodeError （编解码器无法解码字节...），其中包含以下代码行：

fo = open('myfile.txt, 'r')
for line in inFile:

如何从我的文件中删除二进制数据。我有一个在每个二进制数据之前打印的标题（在本例中它显示为数据块）。例如，我的文件看起来像这样，我想删除 çºí?¼È×“ñdí”：

我的文件.txt：

ABCDEFGH
123456
Data Block 11
çºí?¼È×“ñdí
XYZ123

我想要的结果是 myfile.txt 如下所示：

ABCDEFGH
123456
Data Block 11
XYZ123

这很困难，因为“二进制”斑点may包含有效的字符或字符序列。如果您使用的文件包含使用多字节编码的“文本”，请忘记它。

If you know文件中的“文本”仅包含单字节字符，一种方法是以字节形式读取文件，然后使用类似

encode('ascii', error='ignore')

这有效地从输出中去除非 ASCII 字符，但如果您要在文件上执行此操作，您将得到：



ABCDEFGH
123456
Data Block
?d
XYZ123

请注意倒数第二行——在 blob 中找到了有效的 ascii 字符并被视为“文本”。

您可以从这样的解决方案开始，然后对其进行微调（如果可能）以满足您的需求。也许这些斑点本身就出现在线上，所以如果一条线有any非 ASCII 字符，完全丢弃整行。也许你可以看看这些斑点并尝试理解它的一些结构。也许您只是满足于其中有随机的部分字符行，并稍后以某种方式处理它们。那时它是特定于应用程序的。

这是我用来从示例输入生成输出的代码：

def strip_nonascii(b):
    return b.decode('ascii', errors='ignore')

with open('garbled.txt', 'rb') as f:
    for line in f:
        print(strip_nonascii(line), end='')

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

python3x

从Python中的文本文件中删除二进制数据的相关文章

如何在 Matplotlib 饼图周围绘制箭头以将每个标签指向圆圈中各自的部分？

我一直在用 Matplotlib 绘制一些图表我有一个饼图想要在图表周围绘制箭头使每个标签都指向图表我有一个例子这是我当前的代码 import matplotlib pyplot as plt plt rcParams font
VSCode Settings.json 丢失

我正在遵循教程并尝试将 vscode 指向我为 Scrapy 设置的虚拟工作区但是当我在 VSCode 中打开设置时工作区设置选项卡不在用户设置选项卡旁边我还尝试通过以下方式手动转到文件 APPDATA Code User s
Python 3d 绘图设置固定色阶

我正在尝试绘制两个 3d 数组第一个数组的 z 值在范围内 0 15 0 15 第二个来自 0 001 0 001 当我绘图时色标自动遵循数据范围如何设置自定义比例我不想看到 0 001 的浅色而应该看到 0 15 的浅色如何修
Pycharm 在 os.path 连接上出现“未解析的引用”

将pycharm升级到2018 1 并将python升级到3 6 5后 pycharm报告未解析的引用 join 最新版本的 pycharm 不会显示以下行的任何警告 from os path import join expanduser
如何将特定范围内的标量添加到 numpy 数组？

有没有一种更简单更节省内存的方法可以单独在 numpy 中执行以下操作 import numpy as np ar np array a l r ar c a a 0 l ar tolist a r 它可能看起来很原始但它涉及获取给定数
为什么一旦我离开内置的运行服务器，Django 就无法找到我的管理媒体文件？

当我使用内置的简单服务器时一切正常管理界面很漂亮 python manage py runserver 但是当我尝试使用 wsgi 服务器为我的应用程序提供服务时django core handlers wsgi WSGIHandle
Django 视图中的“请求”是什么

在 Django 第一个应用程序的 Django 教程中我们有 from django http import HttpResponse def index request return HttpResponse Hello world
如何将 ascii 值列表转换为 python 中的字符串？

我在 Python 程序中有一个列表其中包含一系列数字这些数字本身就是 ASCII 值如何将其转换为可以在屏幕上回显的常规字符串您可能正在寻找 chr gt gt gt L 104 101 108 108 111 44 32 1
pandas - 包含时间序列数据的堆积条形图

我正在尝试使用时间序列数据在 pandas 中创建堆积条形图 DATE TYPE VOL 0 2010 01 01 Heavy 932 612903 1 2010 01 01 Light 370 612903 2 2010 01 01 Me
Django REST Framework - CurrentUserDefault 使用

我正在尝试使用CurrentUserDefault一个序列化器的类 user serializers HiddenField default serializers CurrentUserDefault 文档说为了使用它请求必须作为
Python GTK+ 画布

我目前正在通过 PyGobject 学习 GTK 需要画布之类的东西我已经搜索了文档发现两个小部件似乎可以完成这项工作 GtkDrawingArea 和 GtkLayout 我需要一些基本函数如 fillrect 或 drawline
PySpark groupByKey 返回 pyspark.resultiterable.ResultIterable

我试图找出为什么我的 groupByKey 返回以下内容 0
带有 LSTM 的 GridSearchCV/RandomizedSearchCV

我一直在尝试通过 RandomizedSearchCV 调整 LSTM 的超参数我的代码如下 X train X train reshape X train shape 0 1 X train shape 1 X test X test
为什么 csv.DictReader 给我一个无属性错误？

我的 CSV 文件是 200 Service 我放入解释器的代码是 snav csv DictReader open screennavigation csv delimiter print snav fieldnames 200 for
Python：Goslate 翻译请求返回“503：服务不可用”[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我们不允许提出寻求书籍工具软件库等推荐的问题您可以编辑问题以便用事实和引文来回答这个问题似乎不是关于主要由程序员使用的特定编程问
每当使用 import cv2 时 OpenCV 都会出错

我在终端上使用 pip3 install opencv contrib python 安装了 cv2 并且它工作了但是每当我尝试导入 cv2 或运行导入了 cv2 的 vscode 文件时在 python IDLE 上它都会说 Trac
制作一份 Python 文档的 PDF 文件

Python 官方网站提供 PDF 文档下载但它们是按章节分隔的我下载了源代码并构建了 PDF 文档这些文档也是单独的 PDF 我怎么能够从源代码中的 Makefile 构建一个 PDF 文件我认为这样阅读起来会更方便如果连接单独
pandas.read_csv 将列名移动一倍

我正在使用位于的 ALL zip 文件here http www fec gov disclosurep PDownload do 我的目标是用它创建一个 pandas DataFrame 但是如果我跑 data pd read csv
JSON：TypeError：Decimal（'34.3'）不是JSON可序列化的[重复]

这个问题在这里已经有答案了我正在运行一个 SQL 查询它返回一个小数列表当我尝试将其转换为 JSON 时出现类型错误查询 res db execute SELECT CAST SUM r SalesVolume 1000 0 AS
NLTK：查找单词大小为 2k 的上下文

我有一个语料库我有一个词对于语料库中该单词的每次出现我想获取一个包含该单词之前的 k 个单词和该单词之后的 k 个单词的列表我在算法上做得很好见下文但我想知道 NLTK 是否提供了一些我错过的功能来满足我的需求 def size

随机推荐

打开信息活动而不关闭主活动

我正在制作一个简单的 Android 应用程序有两个活动一个 MainActivity 和一个 InfoActivity 我的 ActionBar 上有一个按钮单击后我想打开我的 InfoActivity 在我的 InfoActivi
Eclipse 热代码替换失败 - 重新发布 Web 应用程序

我在 Tomcat 上的 Web 应用程序中使用热插拔 Java 调试功能在进行一些类签名更改后我收到热代码替换失败 Eclipse 对话框我明白这一点在这种情况下我想要的是重新发布应用程序我可以做到并使用新部署的代码然而
后台核心数据更新

我基本上需要在后台线程中更新核心数据而不阻塞 UI 并保存它保存后应重新加载表视图以查看更改所以为了做到这一点我想使用 dispatch async dispatch get global queue DISPATCH QUEUE PR
android 模拟器 2.2 中的相机问题

我遇到一个问题在 android 2 2 模拟器中相机无法工作它会自动关闭相机但这个问题在android 1 5模拟器中不会发生为什么会发生这种情况任何机构都可以帮忙吗这是一个已知问题并且已被多次询问这里有一些可能的解决方
为什么 AMD GCN 使用非零 NULL？

这次提交 https reviews llvm org rL289252 says In amdgcn https en wikipedia org wiki Graphics Core Next目标全局常量和通用地址空间中的空指针取值
如何将打印输出分配给变量？

如何分配输出print函数或任何函数到变量举个例子 import eyeD3 tag eyeD3 Tag tag link some file mp3 print tag getArtist 我如何分配输出print tag getA
如何从文件中获取数字并将其放入数组中？ [复制]

这个问题在这里已经有答案了所以我的程序应该生成 30 个随机数将它们放入文件中然后将这些数字保存在数组中但是当我尝试打印文件中的数字时它们不是文件中的数字而是一些随机的大数字 include
跨页面存储信用卡信息的安全方法 ASP.NET MVC

我正在运行 ASP NET MVC 需要一种安全的方式来临时存储信用卡数据我有一个订单确认页面该页面会发布到实际处理订单的操作我尝试了 TempData 但它无法在帖子中幸存下来由于会话存储在服务器上我可以安全地使用它吗 Than
使用 PHP unlink() 方法后获取 0KB 文件

我正在尝试删除服务器上的文件下面是我使用的代码 function ServerDel file file realpath file echo file fh fopen file w or die can t open file fcl
android: 库模块中的 fcm

我在将 Firebase Cloud Messaging 集成到库模块中时面临一个奇怪的问题我正在开发一个图书馆项目在该项目中我需要处理来自图书馆本身的 FCM 服务器的通知我不知道这是否可能我遵循的步骤我在 Firebase 控
Angular 的多种布局

我正在构建一个 Angular 应用程序但在如何处理主页方面遇到了一些障碍主页有 90 的不同只有标题保持不变在那里我有显示用户登录状态的指令为了利用路由模板等我理想地希望将我的 ngview 显示在示例的白色区域中一切正常
使用 git 管理 virtualenv 状态：这会导致问题吗？

我目前已经以一种完全正确的方式设置了 git 和 virtualenv 满足我的需求到目前为止还没有造成任何问题不过我知道我的设置是非标准的我想知道是否有人更熟悉 virtualenv 内部结构可以指出是否以及哪里可能出错 My
从浏览器中删除历史点

我们可以删除在网络浏览器中创建的历史记录点吗或者当示例链接某些链接时是否可以不添加历史点被点击并且浏览器中的 url 发生变化您无法从浏览器历史记录中删除项目但可以将新文档加载到窗口中并bypassjavascript 的历史
HNS 失败并出现错误：参数不正确

我正在使用 Visual Studio 2017 制作一个 Docker 容器化应用程序当首先通过 Visual Studio 运行 docker 时出现错误 ERROR client version 1 22 is too old 通
由于组合框未突出显示，如何“获取”WPF 组合框 PART_EditableTextbox？

每次单击按钮时我的 WPF 组合框都会填充一组不同的字符串窗口上还有其他控件组合框是窗口中的第一个顶部但文本不会突出显示当用户通过控件切换时文本会突出显示但当它是窗口上的第一个时文本不会突出显示也许我需要在组合框本身
Python：使用自定义分隔符格式化字符串[重复]

这个问题在这里已经有答案了 EDITED 我必须使用字典中的值格式化字符串但该字符串已经包含大括号例如 raw string DATABASE name DB NAME 但是当然 raw string format my diction
在 Active Directory 中，什么是资源？

在 AAD node js 库的示例和测试中 00000002 0000 0000 c000 000000000000始终作为资源传递什么是00000002 0000 0000 c000 000000000000 The 文档 https
函数中的空参数不为 Null

鉴于这个基本功能 Function TestFunction Param int Par1 string Par2 string Par3 If Par1 ne Null Write Output Par1 Par1 If Par2 ne
Scala 检查元素是否存在于列表中

我需要检查列表中是否存在字符串并调用相应接受布尔值的函数是否可以通过一个衬垫来实现这一目标下面的代码是我能得到的最好的 val strings List a b c val myString a strings find x gt x
从Python中的文本文件中删除二进制数据

我有一个包含一些二进制数据的文本文件当我使用 Python 3 在文本模式下读取文件时我收到一个 UniCodeDecodeError 编解码器无法解码字节其中包含以下代码行 fo open myfile txt r for line

从Python中的文本文件中删除二进制数据

从Python中的文本文件中删除二进制数据 的相关文章

随机推荐

热门标签

从Python中的文本文件中删除二进制数据的相关文章