Python，文件（1） - 为什么使用数字 [7,8,9,10,12,13,27] 和范围（0x20，0x100）来确定文本与二进制文件

2024-02-26

关于一个python中判断文件是二进制还是文本的解决方案 https://stackoverflow.com/a/7392391，回答者使用：

textchars = bytearray([7,8,9,10,12,13,27]) + bytearray(range(0x20, 0x100))

然后使用.translate(None, textchars)删除（或替换为任何内容）以二进制形式读取的文件中的所有此类字符。

回答者还认为，这种数字选择是“基于 file(1) 行为”（什么是文本，什么不是）。这些数字的重要意义在于从二进制文件中确定文本文件？

它们代表可打印文本的最常见代码点，以及换行符、空格和回车符等。 ASCII 被覆盖到 0x7F，Latin-1 或 Windows Codepage 1251 等标准使用剩余的 128 个字节作为重音字符等。

您期望文本only使用这些代码点。二进制数据将使用all0x00-0xFF 范围内的代码点；例如文本文件可能不会使用 \x00 (NUL) 或 \x1F（ASCII 标准中的单位分隔符）。

不过，这充其量只是一种启发式的方法。某些文本文件可能仍会尝试使用C0 控制代码 https://en.wikipedia.org/wiki/C0_and_C1_control_codes在这 7 个明确命名的字符之外，我确信存在二进制数据，而这些数据恰好不包括未包含在textchars string.

该系列的作者可能基于text_chars table https://github.com/file/file/blob/master/src/encoding.c#L151-L228来自file命令。它将字节标记为非文本、ASCII、Latin-1 或非 ISO 扩展 ASCII，并包含有关选择这些代码点的原因的文档：

/*
 * This table reflects a particular philosophy about what constitutes
 * "text," and there is room for disagreement about it.
 *
 * [....]
 *
 * The table below considers a file to be ASCII if all of its characters
 * are either ASCII printing characters (again, according to the X3.4
 * standard, not isascii()) or any of the following controls: bell,
 * backspace, tab, line feed, form feed, carriage return, esc, nextline.
 *
 * I include bell because some programs (particularly shell scripts)
 * use it literally, even though it is rare in normal text.  I exclude
 * vertical tab because it never seems to be used in real text.  I also
 * include, with hesitation, the X3.64/ECMA-43 control nextline (0x85),
 * because that's what the dd EBCDIC->ASCII table maps the EBCDIC newline
 * character to.  It might be more appropriate to include it in the 8859
 * set instead of the ASCII set, but it's got to be included in *something*
 * we recognize or EBCDIC files aren't going to be considered textual.
 *
 * [.....]
 */

有趣的是，那张桌子excludes0x7F，您找到的代码没有。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Python，文件（1） - 为什么使用数字 [7,8,9,10,12,13,27] 和范围（0x20，0x100）来确定文本与二进制文件的相关文章

计算另一个字符串中多个字符串的出现次数

在 Python 2 7 中给定以下字符串 Spot是一只棕色的狗斑点有棕色的头发斑点的头发是棕色的查找字符串中 Spot brown 和 hair 总数的最佳方法是什么在示例中它将返回 8 我正在寻找类似的东西string c
如何在 Matplotlib 饼图周围绘制箭头以将每个标签指向圆圈中各自的部分？

我一直在用 Matplotlib 绘制一些图表我有一个饼图想要在图表周围绘制箭头使每个标签都指向图表我有一个例子这是我当前的代码 import matplotlib pyplot as plt plt rcParams font
为什么 dataclasses.astuple 返回类属性的深层副本？

在下面的代码中astuple函数正在执行数据类的类属性的深层复制为什么它不能产生与函数相同的结果my tuple import copy import dataclasses dataclasses dataclass class Dem
在 Celery 任务中调用 Google Cloud API 永远不会返回

我正在尝试拨打外部电话Google Cloud Natural Language API从一个内Celery任务使用google cloud python包裹问题是对 API 的调用永远不会返回挂起 celery task def g
python multiprocessing 设置生成进程等待

是否可以生成一些进程并将生成进程设置为等待生成的进程完成下面是我用过的一个例子 import multiprocessing import time import sys def daemon p multiprocessing curr
在 Django Admin 中调整字段大小

在管理上添加或编辑条目时 Django 倾向于填充水平空间但在某些情况下当编辑 8 个字符宽的日期字段或 6 或 8 个字符的 CharField 时这确实是一种空间浪费字符宽然后编辑框最多可容纳 15 或 20 个字符我如何告
Python 内置的 super() 是否违反了 DRY？

显然这是有原因的但我没有足够的经验来认识到这一点这是Python中给出的例子docs http docs python org 2 library functions html super class C B def method se
如何使用 Selenium 和 ChromeDriver 解决 TypeError: 'module' object is not callable 错误 [重复]

这个问题在这里已经有答案了代码试验 from selenium import webdriver from selenium webdriver chrome options import Options as Chromeoptions
Java 和 Python 可以在同一个应用程序中共存吗？

我需要一个 Java 实例直接从 Python 实例数据存储中获取数据我不知道这是否可能数据存储是否透明唯一或者每个实例如果它们确实可以共存都有其单独的数据存储总结一下 Java 应用程序如何从 Python 应用程序的数据存
无法导入 langchain.agents.load_tools

我正在尝试使用 LangChain Agents 但无法导入 load tools 版本 langchain 0 0 27 我尝试过这些 from langchain agents import initialize agent from
嵌套作用域和 Lambda

def funct x 4 action lambda n x n return action x funct print x 2 prints 16 我不太明白为什么2会自动分配给n n是返回的匿名函数的参数funct 完全等价的定义fu
将 Matlab 的 datenum 格式转换为 Python

我刚刚开始从 Matlab 迁移到 Python 2 7 在读取 mat 文件时遇到一些问题时间信息以 Matlab 的日期数字格式存储对于那些不熟悉它的人日期序列号将日历日期表示为自固定基准日期以来已经过去的天数在 MATLAB
标准化 UTF-8 到底是什么？

The 重症监护室项目 http userguide icu project org transforms normalization 现在也有一个PHP库 http us php net manual en class normalize
带有 LSTM 的 GridSearchCV/RandomizedSearchCV

我一直在尝试通过 RandomizedSearchCV 调整 LSTM 的超参数我的代码如下 X train X train reshape X train shape 0 1 X train shape 1 X test X test
如何将 Django 中的权限添加到模型并使用 shell 进行测试

我在模型中添加了 Meta 类并同步了数据库然后在 shell 中创建了一个对象它返回 false 所以我真的无法理解错误在哪里或者缺少什么是否在其他文件中可能存在某种配置 class Employer User Employer in
等待子进程使用 os.system

我用了很多os system在 for 循环内调用创建后台进程如何等待所有后台进程结束 os wait告诉我没有子进程 ps 我使用的是Solaris 这是我的代码 usr bin python import subprocess imp
根据 Pandas 中的列表选择数据框行的子集

我有一个数据框df1并列出x In 22 import pandas as pd In 23 df1 pd DataFrame C range 5 B range 10 20 2 A list abcde In 24 df1 Out 24
pandas.read_csv 将列名移动一倍

我正在使用位于的 ALL zip 文件here http www fec gov disclosurep PDownload do 我的目标是用它创建一个 pandas DataFrame 但是如果我跑 data pd read csv
如何在 Flask 中的视图函数/会话之间传递复杂对象

我正在编写一个 Web 应用程序当且仅当用户登录时该应用程序从第三方服务器接收大量数据这些数据被解析为自定义对象并存储在list 现在用户在应用程序中使用这些数据调用不同的视图例如发送不同的请求我不确定什么是最好的模式在视
将索引与值交换的最快方法

考虑pd Series s s pd Series list abcdefghij list ABCDEFGHIJ s A a B b C c D d E e F f G g H h I i J j dtype object 交换索引和值并

随机推荐

如何检索 Pandas 数据框中的列数？

如何以编程方式检索 pandas 数据框中的列数我希望有这样的事情 df num columns Like so import pandas as pd df pd DataFrame pear 1 2 3 apple 2 3 4 ora
Docker：运行 html 文件的基本示例 dockerfile

docker 和 dockerfile 是否有任何非常基本且仍然可行的示例来运行单个 html 文件并在 docker 的帮助下将其显示给其他人要在 http 上提供 html 文件您需要一个 Web 服务器因此要做到这一点您需要做
scipy.interpolate.Rbf 的意外结果

我在使用 RBF 进行插值时遇到一些错误这是一维的示例我认为这与我的 y 值彼此之间的接近程度有关有什么解决办法吗 import numpy as np from scipy interpolate import Rbf interp
从雅虎财经获取 1 分钟柱线

我正在尝试从雅虎财经下载 1 分钟的历史股票价格包括当天和前一天的价格 Yahoo 就像 Google 支持最多 15 天的数据使用以下 API 查询 http chartapi finance yahoo com instrument
如何使用 Twitter API 批准关注者对受保护帐户的请求？

The 友谊创造 https dev twitter com docs api 1 post friendships create似乎是最接近的选项但他们的文档没有明确提及这种情况有人能够做到这一点吗我收到了 Twitter 员工的
为什么使用 for 循环而不是 while 循环？ [复制]

这个问题在这里已经有答案了可能的重复使用 for 循环还是 while 循环进行迭代 https stackoverflow com questions 99164 iterate with for loop or while loop
如何在innerText 或nodeValue 之间进行选择？

当我需要更改 span 元素中的文本时我应该使用哪一个以及有什么区别 var spnDetailDisplay document getElementById spnDetailDisplay spnDetailDisplay inner
没有外键关系的内联管理

是否可以手动指定要在内联中显示的相关对象集其中不存在外键关系 Parent class Diary models Model day models DateField activities models TextField Child c
FFMPEG读取关键帧

我正在尝试编写一个 C 程序该程序将使用 ffmpeg 从视频文件中读取关键帧到目前为止我设法使用所有框架av read frame你按顺序阅读的地方一帧一帧但我在使用时遇到一些问题av seek frame这如果我是正确的应
如何在不使用 eval 的情况下动态包含 Perl 模块？

我需要动态包含 Perl 模块但如果可能的话由于工作编码标准我希望远离 eval 这有效 module My module eval use module 但我需要一种方法来做到这一点而不需要eval如果可能的话所有谷歌搜索都会导
客户端发送 SOAP 请求并接收响应

尝试创建一个 C 客户端将开发为 Windows 服务将 SOAP 请求发送到 Web 服务并获取结果由此question https stackoverflow com questions 1862965 sending and
C++ 中使用运算符 [] 重载区分读和写

我有一个包含预测数组的安全类预测是一个类它只包含一个双精度数我想允许更改双精度值但只允许正值当尝试读取双精度值时如果该值未初始化在我的代码中等于 1 则会抛出异常我也有双运算符像这样的东西 class Prediction
SWITCH javascript 总是执行默认情况的问题

嗯我有这个麻烦我一直在处理但我就是无法让它工作我有这个功能 function getDirections dir var img switch dir case 0 img N png break case 1 img NE png
正则表达式匹配完整字符串

我正在尝试为 301 创建一个正则表达式来帮助我识别 url site com abc 并重定向到site com xyz 我尝试过正则表达式 abc 它工作正常但问题甚至是像这样的网址site com 123 sdas abc 213被
Vue 组件中的 Laravel CSRF 字段

我想问一下如何在我的 vue 组件中添加 csrf field 错误是属性或方法 csrfToken 未在实例上定义但在渲染期间引用确保在数据选项中声明反应数据属性这是代码
获取数字的类似于 Excel 的列名称的算法

我正在编写一个生成一些 Excel 文档的脚本我需要将数字转换为其等效的列名称例如 1 gt A 2 gt B 27 gt AA 28 gt AB 14558 gt UMX 我已经编写了一个算法来执行此操作但我想知道是否有更简单或更快
防止 this.state 与 setState 一起使用

参考资料 https reactjs org docs react component html setstate states setState 并不总是立即更新组件它可能会批量更新或推迟更新这使得在调用 setState 后立即读取
Stackable Traits Pattern：方法的实现“需要‘抽象覆盖’修饰符”

最近我发现了可堆叠特征模式并遵循了所描述的示例here http www artima com scalazine articles stackable trait pattern html 一切正常但有一种情况我无法理解 trait
如何使用 Rails 5.1.0 和 jQuery

我开始使用 Rails v5 1 0 据我所知它默认没有 jQuery 但是想要安装 jQuery 来与 Zurb Foundation 6 一起使用由于基础当前未加载模态设置此功能的最佳方法是什么 Summary 安装纱线 yarn
Python，文件（1） - 为什么使用数字 [7,8,9,10,12,13,27] 和范围（0x20，0x100）来确定文本与二进制文件

关于一个python中判断文件是二进制还是文本的解决方案 https stackoverflow com a 7392391 回答者使用 textchars bytearray 7 8 9 10 12 13 27 bytearray ran

Python，文件（1） - 为什么使用数字 [7,8,9,10,12,13,27] 和范围（0x20，0x100）来确定文本与二进制文件

Python，文件（1） - 为什么使用数字 [7,8,9,10,12,13,27] 和范围（0x20，0x100）来确定文本与二进制文件 的相关文章

随机推荐

热门标签

Python，文件（1） - 为什么使用数字 [7,8,9,10,12,13,27] 和范围（0x20，0x100）来确定文本与二进制文件的相关文章