Python流提取

2024-01-11

许多编程语言的标准库都包含“扫描器 API”，用于从文本输入流中提取字符串、数字或其他对象。（例如，Java 包括Scanner类，C++ 包括istream，C 包括scanf).

Python 中与此等效的是什么？

Python 有一个流接口，即继承自io.IOBase。然而，PythonTextIOBase流接口仅提供面向行输入的设施。后阅读文档 http://docs.python.org/3.3/library/io.html and 在谷歌上搜索 http://www.google.com/#hl=en&tbo=d&sclient=psy-ab&q=python+scanner&oq=python+scanner&gs_l=serp.3..0l3j0i30.2971.4161.0.4365.10.6.0.0.0.2.186.595.5j1.6.0.les;，我在标准 Python 模块中找不到可以让我从文本流中提取整数或将下一个以空格分隔的单词提取为字符串的内容。有没有标准设施可以做到这一点？

没有等效的fscanf或Java的Scanner。最简单的解决方案是要求用户使用换行符分隔输入而不是空格分隔输入，然后您可以逐行读取并将行转换为正确的类型。

如果您希望用户提供更结构化的输入，那么您可能应该为用户输入创建一个解析器。例如，有一些不错的 python 解析库py解析 http://pypi.python.org/pypi/pyparsing。还有一个scanf https://hkn.eecs.berkeley.edu/~dyoo/python/scanf/模块，尽管最后一次更新是 2008 年。

如果您不想有外部依赖项，那么您可以使用正则表达式来匹配输入序列。当然，正则表达式需要处理字符串，但您可以轻松克服分块读取的这一限制。例如，像这样的东西在大多数情况下应该运行良好：

import re


FORMATS_TYPES = {
    'd': int,
    'f': float,
    's': str,
}


FORMATS_REGEXES = {    
    'd': re.compile(r'(?:\s|\b)*([+-]?\d+)(?:\s|\b)*'),
    'f': re.compile(r'(?:\s|\b)*([+-]?\d+\.?\d*)(?:\s|\b)*'),
    's': re.compile(r'\b(\w+)\b'),
}


FORMAT_FIELD_REGEX = re.compile(r'%(s|d|f)')


def scan_input(format_string, stream, max_size=float('+inf'), chunk_size=1024):
    """Scan an input stream and retrieve formatted input."""

    chunk = ''
    format_fields = format_string.split()[::-1]
    while format_fields:
        fields = FORMAT_FIELD_REGEX.findall(format_fields.pop())
        if not chunk:
            chunk = _get_chunk(stream, chunk_size)

        for field in fields:
            field_regex = FORMATS_REGEXES[field]
            match = field_regex.search(chunk)
            length_before = len(chunk)
            while match is None or match.end() >= len(chunk):
                chunk += _get_chunk(stream, chunk_size)
                if not chunk or length_before == len(chunk):
                    if match is None:
                        raise ValueError('Missing fields.')
                    break
            text = match.group(1)
            yield FORMATS_TYPES[field](text)
            chunk = chunk[match.end():]



def _get_chunk(stream, chunk_size):
    try:
        return stream.read(chunk_size)
    except EOFError:
        return ''

用法示例：

>>> s = StringIO('1234 Hello World -13.48 -678 12.45')
>>> for data in scan_input('%d %s %s %f %d %f', s): print repr(data)
...                                                                                            
1234                                                                                           
'Hello'
'World'
-13.48
-678
12.45

您可能需要扩展它，并正确测试它，但它应该会给您一些想法。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Python流提取的相关文章

使 django 服务器可以在 LAN 中访问

我已经安装了Django服务器可以如下访问 http localhost 8000 get sms http 127 0 0 1 8000 get sms 假设我的IP是x x x x 当我这样做时从同一网络下的另一台电脑 my ip
如何在flask中使用g.user全局

据我了解 Flask 中的 g 变量它应该为我提供一个全局位置来存储数据例如登录后保存当前用户它是否正确我希望我的导航在登录后在整个网站上显示我的用户名我的观点包含 from Flask import g among other
Python（Selenium）：如何通过登录重定向/组织登录登录网站

我不是专业程序员所以请原谅任何愚蠢的错误我正在做一些研究我正在尝试使用 Selenium 登录数据库来搜索大约 1000 个术语我有两个问题 1 重定向到组织登录页面后如何使用 Selenium 登录 2 如何检索数据库在我解决
Flask 会话变量

我正在用 Flask 编写一个小型网络应用程序当两个用户在同一网络下尝试使用应用程序时我遇到会话变量问题这是代码 import os from flask import Flask request render template
使用 on_bad_lines 将 pandas.read_csv 中的无效行写入文件

我有一个 CSV 文件我正在使用 Python 来解析该文件我发现文件中的某些行具有不同的列数 001 Snow Jon 19801201 002 Crom Jake 19920103 003 Wise Frank 19880303 l
是否可以忽略一行的pyright检查？

我需要忽略一行的pyright 检查有什么特别的评论吗 def create slog group SLogGroup data Optional dict None SLog insert one SLog group group da
AWS EMR Spark Python 日志记录

我正在 AWS EMR 上运行一个非常简单的 Spark 作业但似乎无法从我的脚本中获取任何日志输出我尝试过打印到 stderr from pyspark import SparkContext import sys if name m
如何在ipywidget按钮中显示全文？

我正在创建一个ipywidget带有一些文本的按钮但按钮中未显示全文我使用的代码如下 import ipywidgets as widgets from IPython display import display button wid
Flask如何获取请求的HTTP_ORIGIN

我想用我自己设置的 Access Control Allow Origin 标头做出响应而弄清楚请求中的 HTTP ORIGIN 参数在哪里似乎很混乱我在用着烧瓶 0 10 1 以及HTTP ORIGIN似乎是这个的特点之一object
使用 \r 并打印一些文本后如何清除控制台中的一行？

对于我当前的项目有一些代码很慢并且我无法使其更快为了获得一些关于已完成必须完成多少的反馈我创建了一个进度片段您可以在下面看到当你看到最后一行时 sys stdout write r100 80 n I use 80覆盖最终剩余的
如何在Python中对类别进行加权随机抽样

给定一个元组列表其中每个元组都包含一个概率和一个项目我想根据其概率对项目进行采样例如给出列表 3 a 4 b 3 c 我想在 40 的时间内对 b 进行采样在 python 中执行此操作的规范方法是什么我查看了 random 模
将图像分割成多个网格

我使用下面的代码将图像分割成网格的 20 个相等的部分 import cv2 im cv2 imread apple jpg im cv2 resize im 1000 500 imgwidth im shape 0 imgheight i
向 Altair 图表添加背景实心填充

I like Altair a lot for making graphs in Python As a tribute I wanted to regenerate the Economist graph s in Mistakes we
如何在seaborn displot中使用hist_kws

我想在同一图中用不同的颜色绘制直方图和 kde 线我想为直方图设置绿色为 kde 线设置蓝色我设法弄清楚使用 line kws 来更改 kde 线条颜色但 hist kws 不适用于显示我尝试过使用 histplot 但我无法为
每个 X 具有多个 Y 值的 Python 散点图

我正在尝试使用 Python 创建一个散点图其中包含两个 X 类别 cat1 cat2 每个类别都有多个 Y 值如果每个 X 值的 Y 值的数量相同我可以使用以下代码使其工作 import numpy as np import mat
为字典中的一个键附加多个值[重复]

这个问题在这里已经有答案了我是 python 新手我有每年的年份和值列表我想要做的是检查字典中是否已存在该年份如果存在则将该值附加到特定键的值列表中例如我有一个年份列表并且每年都有一个值 2010 2 2009 4 1989
类型错误：预期单个张量时的张量列表 - 将 const 与 tf.random_normal 一起使用时

我有以下 TensorFlow 代码 tf constant tf random normal time step batch size 1 1 我正进入状态TypeError List of Tensors when single Te
有人用过 Dabo 做过中型项目吗？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我们正处于一个新的 ERP 风格的客户端服务器应用程序的开始阶段该应用程序是作为 Python 富客户端开发的我们目前正在评估 Dabo
发送用户注册密码，django-allauth

我在 django 应用程序上使用 django alluth 进行身份验证注册我需要创建一个自定义注册表单其中只有一个字段电子邮件密码将在服务器上生成这是我创建的表格 from django import forms from
Python Selenium：如何在文本文件中打印网站上的值？

我正在尝试编写一个脚本该脚本将从 tulsaspca org 网站获取以下 6 个值并将其打印在 txt 文件中最终输出应该是 905 4896 7105 23194 1004 42000 放置的动物的 HTML span class

随机推荐

在 Swift 中使用 SecRandomCopyBytes

我想使用生成随机字节SecRandomCopyBytes在斯威夫特 3 0 中这是我在 Swift 2 2 中的做法 private static func generateRandomBytes gt String let data N
当 magic_quotes_gpc 开启时，是否有必要使用 mysql_real_escape_string() ？

为了防止SQL注入是否需要使用mysql real escape string when magic quotes gpc is on 对于一些罕见的编码比如GBk http shiflett org blog 2006 jan add
PHP 是否以不同的方式（内部）处理数字索引数组？

比关联数组关联数组会占用更多内存吗 arr array 1 1 1 arr 10 1 arr 1 lt index is 11 does the array become associative here 简而言之 PHP 没有非关联数组
Tortoise HG 中缺少清单按钮

在我拥有的一个 Tortoise HG 实例中找不到清单按钮而且我找不到如何恢复它有任何想法吗它在此版本 2 11 中被删除还是以某种方式隐藏这是下面接受的答案中提到的按钮它现在位于提交详细信息小部件中在文件过滤器编辑框旁
SSIS 处理 NULL 和空格

你好我是SSIS新手 iam接收由SSIS iam创建的文本文件使用向导将其加载到oracle表但在文本文件中有些列包含字符串NULL 其他列包含空白字符串而不是零长度列是否有自动方式为了使这些值成为表中的实际空值还是我必须为每
在 pytest 测试类中使用 @mark.incremental 和 metafunc.parametrize

mark incremental 的目的是如果一个测试失败则后面的测试将被标记为预期失败然而当我将其与参数化结合使用时我会得到不期望的行为例如在这个假代码的情况下 conftest py def pytest generate
为什么 PDO debugDumpParams 截断查询

我发现同样的问题here https stackoverflow com questions 20848115 pdo truncates my sql string in prepared statement tries to bind
如何打印 Voronoi 图的面？

下面的代码假设输入是点而不是线段这是错误的按照此2D Voronoi 图适配器 http doc cgal org latest Voronoi diagram 2 index html secvda2examples例如我正在尝试
EF Core Collection 加载 .. 集合

使用 EF Core 1 1 0 我有一个模型它有自己的集合 public class A public string Ay get set public List b Bees get set public class B public
连续非空值的计数

以下查询中的计数应为 3 和 1 计数应该是连续获得的积分因此一旦用户未能获得任何积分计数就会重新开始 mysql gt select name count from sortest group by name points 0 OR
我的异步不会因等待而停止 - 那么 AWAIT 会等待什么？ [复制]

这个问题在这里已经有答案了我正在进入 Node 并被扔进了异步编程的世界我在 Mozilla 网站上仔细阅读了这篇文章以及许多其他有关 async 和 wait 关键字的链接 https developer mozilla org e
动态定义具有不同签名的函数

我想要实现的目标 dct foo 0 bar 1 baz 2 def func dct pass function signature is now func foo 0 bar 1 baz 2 然而语法显然在扩展字典我想做的事情和声
理解java程序[重复]

这个问题在这里已经有答案了可能的重复奇怪的 java 行为与原始类型的转换 https stackoverflow com questions 7924961 weird java behavior with casts to prim
Azure 媒体服务 (v3) - 特定输出资产容器名称

我有一个类似的程序AMSV3快速入门 https github com Azure Samples media services v3 dotnet quickstarts blob master AMSV3Quickstarts Enco
Phalcon教程错误PhalconException: TestController处理程序类无法加载

我遇到一些麻烦Phalcon教程 1 开始工作最后我克隆了它的版本Github确保我没有遗漏什么仍然从中得到相同的行为将浏览器指向 localhost test 如教程中所示会给出 PhalconException TestCont
java.lang.NoClassDefFoundError：在 Java 中通过 Selenium 使用 GeckoDriver Firefox 时出现 com/google/common/collect/ImmutableMap 错误

我正在使用这段代码它给了我这个错误 Exception in thread main java lang NoClassDefFoundError com google common collect ImmutableMap at org
将一种方法迁移到 System.Text.Json

我在 net core 3 1 中添加了 NewtonsoftJson 作为中间件我很乐意转向新的 System Text Json 序列化器我不能直接跳过但有没有办法以一种方法使用 System Text Json 中的一个或多或
角度 ng-repeat 元素计数

li div div a href lt Previous a div div a href index a div div li 我想获取项目的元素计数并希望显示最后一个项目的下一步 gt 像这样的东西 li li
将 data.frame 中的列转换为日期

我的数据框 a1 lt c a a b b c d e e b2 lt c 01 01 2015 02 02 2015 14 02 2012 16 08 2008 17 06 2003 31 01 2015 07 01 2022 09 05
Python流提取

许多编程语言的标准库都包含扫描器 API 用于从文本输入流中提取字符串数字或其他对象例如 Java 包括Scanner类 C 包括istream C 包括scanf Python 中与此等效的是什么 Python 有一个流接口即继承

Python流提取

Python流提取 的相关文章

随机推荐

热门标签

Python流提取的相关文章