使用 Pyparsing 访问解析的元素

2023-12-25

我有一堆句子需要解析并转换为相应的正则表达式搜索代码。我的句子的例子 -

LINE_CONTAINS phrase one BEFORE {phrase2 AND phrase3} AND LINE_STARTSWITH Therefore we

-这意味着在该行中，phrase one之前来到某个地方phrase2 and phrase3。此外，该行必须以Therefore we

LINE_CONTAINS abc {upto 4 words} xyz {upto 3 words} pqr

-这意味着我需要在前 2 个短语之间最多允许 4 个单词最后 2 个短语之间最多 3 个单词

使用保罗·麦奎尔的帮助（here https://stackoverflow.com/q/42415837/4169943），编写了以下语法 -

from pyparsing import (CaselessKeyword, Word, alphanums, nums, MatchFirst, quotedString, 
    infixNotation, Combine, opAssoc, Suppress, pyparsing_common, Group, OneOrMore, ZeroOrMore)

LINE_CONTAINS, LINE_STARTSWITH = map(CaselessKeyword,
    """LINE_CONTAINS LINE_STARTSWITH """.split()) 

NOT, AND, OR = map(CaselessKeyword, "NOT AND OR".split())
BEFORE, AFTER, JOIN = map(CaselessKeyword, "BEFORE AFTER JOIN".split())

lpar=Suppress('{') 
rpar=Suppress('}')

keyword = MatchFirst([LINE_CONTAINS, LINE_STARTSWITH, LINE_ENDSWITH, NOT, AND, OR, 
                      BEFORE, AFTER, JOIN]) # declaring all keywords and assigning order for all further use

phrase_word = ~keyword + (Word(alphanums + '_'))

upto_N_words = Group(lpar + 'upto' + pyparsing_common.integer('numberofwords') + 'words' + rpar)

phrase_term = Group(OneOrMore(phrase_word) + ZeroOrMore((upto_N_words) + OneOrMore(phrase_word))  



phrase_expr = infixNotation(phrase_term,
                            [
                             ((BEFORE | AFTER | JOIN), 2, opAssoc.LEFT,), # (opExpr, numTerms, rightLeftAssoc, parseAction)
                             (NOT, 1, opAssoc.RIGHT,),
                             (AND, 2, opAssoc.LEFT,),
                             (OR, 2, opAssoc.LEFT),
                            ],
                            lpar=Suppress('{'), rpar=Suppress('}')
                            ) # structure of a single phrase with its operators

line_term = Group((LINE_CONTAINS | LINE_STARTSWITH | LINE_ENDSWITH)("line_directive") + 
                  Group(phrase_expr)("phrase")) # basically giving structure to a single sub-rule having line-term and phrase
line_contents_expr = infixNotation(line_term,
                                   [(NOT, 1, opAssoc.RIGHT,),
                                    (AND, 2, opAssoc.LEFT,),
                                    (OR, 2, opAssoc.LEFT),
                                    ]
                                   ) # grammar for the entire rule/sentence

sample1 = """
LINE_CONTAINS phrase one BEFORE {phrase2 AND phrase3} AND LINE_STARTSWITH Therefore we
"""
sample2 = """
LINE_CONTAINS abcd {upto 4 words} xyzw {upto 3 words} pqrs BEFORE something else
"""

我现在的问题是 - 如何访问解析的元素以便将句子转换为我的正则表达式代码。为此，我尝试了以下方法 -

parsed = line_contents_expr.parseString(sample1)/(sample2)
print (parsed[0].asDict())
print (parsed)
pprint.pprint(parsed)

上述代码的结果为sample1 was -

{}

[[['行包含', [[['句子', '一个'], '之前', [['句子 2'], 'AND', ['句子 3']]]]], 'AND' , ['行开头', [['因此', '我们']]]]]

([([(['行包含', ([([(['句子', '一个'], {}), '之前', ([(['句子 2'], {}), 'AND ', (['句子3'], {})], {})], {})], {})], {'phrase': [(([([(['句子', '一个'], {}), '之前', ([(['句子 2'], {}), 'AND', (['句子 3 '], {})], {})], {})], {}), 1)], '行指令': [('LINE_CONTAINS', 0)]}), '和', (['LINE_STARTSWITH', ([(['因此', '我们'], {})], {})], {'phrase': [(([(['因此', '我们'], {})], {}), 1)], '行指令': [('LINE_STARTSWITH', 0)]})], {})], {})

上述代码的结果为sample2 was -

{'phrase'： [[['A B C D'， {'字数': 4}, 'xyzw', {'字数': 3}, 'pqrs'], '之前', ['某事', '其他']]], '行指令': 'LINE_CONTAINS'}

[['LINE_CONTAINS', [[['abcd', ['upto', 4, '单词'], 'xyzw', ['upto', 3、'单词']、'pqrs']、'之前'、['某事'、'其他']]]]]

([(['LINE_CONTAINS', ([([(['abcd', (['upto', 4, '单词'], {'字数': [(4, 1)]}), 'xyzw', (['upto', 3, '单词'], {'字数': [(3, 1)]}), 'pqrs'], {}), '之前', (['某事', 'else'], {})], {})], {})], {'短语': [(([([(['abcd', (['upto', 4, '字']， {'字数': [(4, 1)]}), 'xyzw', (['upto', 3, '单词'], {'numberofwords': [(3, 1)]}), 'pqrs'], {}), '之前', (['某事', '其他'], {})], {})], {}), 1)], '行指令': [('LINE_CONTAINS', 0)]})], {})

根据上述输出我的问题是 -

为什么pprint（漂亮打印）比普通打印有更详细的解析？
为什么asDict()方法没有给出输出sample1但确实是为了sample2?
每当我尝试使用访问已解析的元素时print (parsed.numberofwords) or parsed.line_directive or parsed.line_term，它没有给我任何东西。我如何访问这些元素以便使用它们来构建我的正则表达式代码？

解答您的打印问题。 1）pprint是否可以漂亮地打印嵌套的标记列表，而不显示任何结果名称 - 它本质上是调用的包装pprint.pprint(results.asList()). 2) asDict()是否可以将解析结果转换为实际的 Python 字典，所以它only显示结果名称（如果名称中有名称，则进行嵌套）。

要查看解析输出的内容，最好使用print(result.dump()). dump()显示结果的嵌套and一路上的任何命名结果。

result = line_contents_expr.parseString(sample2)
print(result.dump())

我也推荐使用expr.runTests为你带来dump()输出以及任何异常和异常定位器。通过您的代码，您可以最轻松地使用以下命令来完成此操作：

line_contents_expr.runTests([sample1, sample2])

但我也建议你退后一步，想一想这到底是什么{upto n words}商业就是一切。查看示例并围绕行术语绘制矩形，然后在行术语内围绕短语术语绘制圆圈。（这将是一个很好的练习，可以帮助您自己编写该语法的 BNF 描述，我总是建议您将其作为解决问题的步骤。）如果您将upto表达式作为另一个运算符？要看到这一点，请更改phrase_term回到你原来的样子：

phrase_term = Group(OneOrMore(phrase_word))

然后将定义短语表达式时的第一个优先条目更改为：

    ((BEFORE | AFTER | JOIN | upto_N_words), 2, opAssoc.LEFT,),

或者考虑一下也许有upto运算符的优先级高于或低于 BEFORE、AFTER 和 JOIN，并相应地调整优先级列表。

通过此更改，我通过对示例调用 runTests 获得以下输出：

LINE_CONTAINS phrase one BEFORE {phrase2 AND phrase3} AND LINE_STARTSWITH Therefore we

[[['LINE_CONTAINS', [[['phrase', 'one'], 'BEFORE', [['phrase2'], 'AND', ['phrase3']]]]], 'AND', ['LINE_STARTSWITH', [['Therefore', 'we']]]]]
[0]:
  [['LINE_CONTAINS', [[['phrase', 'one'], 'BEFORE', [['phrase2'], 'AND', ['phrase3']]]]], 'AND', ['LINE_STARTSWITH', [['Therefore', 'we']]]]
  [0]:
    ['LINE_CONTAINS', [[['phrase', 'one'], 'BEFORE', [['phrase2'], 'AND', ['phrase3']]]]]
    - line_directive: 'LINE_CONTAINS'
    - phrase: [[['phrase', 'one'], 'BEFORE', [['phrase2'], 'AND', ['phrase3']]]]
      [0]:
        [['phrase', 'one'], 'BEFORE', [['phrase2'], 'AND', ['phrase3']]]
        [0]:
          ['phrase', 'one']
        [1]:
          BEFORE
        [2]:
          [['phrase2'], 'AND', ['phrase3']]
          [0]:
            ['phrase2']
          [1]:
            AND
          [2]:
            ['phrase3']
  [1]:
    AND
  [2]:
    ['LINE_STARTSWITH', [['Therefore', 'we']]]
    - line_directive: 'LINE_STARTSWITH'
    - phrase: [['Therefore', 'we']]
      [0]:
        ['Therefore', 'we']



LINE_CONTAINS abcd {upto 4 words} xyzw {upto 3 words} pqrs BEFORE something else

[['LINE_CONTAINS', [[['abcd'], ['upto', 4, 'words'], ['xyzw'], ['upto', 3, 'words'], ['pqrs'], 'BEFORE', ['something', 'else']]]]]
[0]:
  ['LINE_CONTAINS', [[['abcd'], ['upto', 4, 'words'], ['xyzw'], ['upto', 3, 'words'], ['pqrs'], 'BEFORE', ['something', 'else']]]]
  - line_directive: 'LINE_CONTAINS'
  - phrase: [[['abcd'], ['upto', 4, 'words'], ['xyzw'], ['upto', 3, 'words'], ['pqrs'], 'BEFORE', ['something', 'else']]]
    [0]:
      [['abcd'], ['upto', 4, 'words'], ['xyzw'], ['upto', 3, 'words'], ['pqrs'], 'BEFORE', ['something', 'else']]
      [0]:
        ['abcd']
      [1]:
        ['upto', 4, 'words']
        - numberofwords: 4
      [2]:
        ['xyzw']
      [3]:
        ['upto', 3, 'words']
        - numberofwords: 3
      [4]:
        ['pqrs']
      [5]:
        BEFORE
      [6]:
        ['something', 'else']

您可以迭代这些结果并将它们分开，但是您很快就到达了应该考虑从不同优先级构建可执行节点的地步 - 请参阅 pyparsing wiki 上的 SimpleBool.py 示例了解如何执行此操作。

编辑：请查看这个解析器的简化版本phrase_expr，以及它如何创建Node本身生成输出的实例。怎么看numberofwords是在操作符上访问的UpToNode班级。了解如何使用隐式 AND 运算符将“xyz abc”解释为“xyz AND abc”。

from pyparsing import *
import re

UPTO, WORDS, AND, OR = map(CaselessKeyword, "upto words and or".split())
keyword = UPTO | WORDS | AND | OR
LBRACE,RBRACE = map(Suppress, "{}")
integer = pyparsing_common.integer()

word = ~keyword + Word(alphas)
upto_expr = Group(LBRACE + UPTO + integer("numberofwords") + WORDS + RBRACE)

class Node(object):
    def __init__(self, tokens):
        self.tokens = tokens

    def generate(self):
        pass

class LiteralNode(Node):
    def generate(self):
        return "(%s)" % re.escape(self.tokens[0])
    def __repr__(self):
        return repr(self.tokens[0])

class AndNode(Node):
    def generate(self):
        tokens = self.tokens[0]
        return '.*'.join(t.generate() for t in tokens[::2])

    def __repr__(self):
        return ' AND '.join(repr(t) for t in self.tokens[0].asList()[::2])

class OrNode(Node):
    def generate(self):
        tokens = self.tokens[0]
        return '|'.join(t.generate() for t in tokens[::2])

    def __repr__(self):
        return ' OR '.join(repr(t) for t in self.tokens[0].asList()[::2])

class UpToNode(Node):
    def generate(self):
        tokens = self.tokens[0]
        ret = tokens[0].generate()
        word_re = r"\s+\S+"
        space_re = r"\s+"
        for op, operand in zip(tokens[1::2], tokens[2::2]):
            # op contains the parsed "upto" expression
            ret += "((%s){0,%d}%s)" % (word_re, op.numberofwords, space_re) + operand.generate()
        return ret

    def __repr__(self):
        tokens = self.tokens[0]
        ret = repr(tokens[0])
        for op, operand in zip(tokens[1::2], tokens[2::2]):
            # op contains the parsed "upto" expression
            ret += " {0-%d WORDS} " % (op.numberofwords) + repr(operand)
        return ret

IMPLICIT_AND = Empty().setParseAction(replaceWith("AND"))

phrase_expr = infixNotation(word.setParseAction(LiteralNode),
        [
        (upto_expr, 2, opAssoc.LEFT, UpToNode),
        (AND | IMPLICIT_AND, 2, opAssoc.LEFT, AndNode),
        (OR, 2, opAssoc.LEFT, OrNode),
        ])

tests = """\
        xyz
        xyz abc
        xyz {upto 4 words} def""".splitlines()

for t in tests:
    t = t.strip()
    if not t:
        continue
    print(t)
    try:
        parsed = phrase_expr.parseString(t)
    except ParseException as pe:
        print(' '*pe.loc + '^')
        print(pe)
        continue
    print(parsed)
    print(parsed[0].generate())
    print()

prints:

xyz
['xyz']
(xyz)

xyz abc
['xyz' AND 'abc']
(xyz).*(abc)

xyz {upto 4 words} def
['xyz' {0-4 WORDS} 'def']
(xyz)((\s+\S+){0,4}\s+)(def)

在此基础上扩展以支持您的LINE_xxx表达式。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 Pyparsing 访问解析的元素的相关文章

使用“iloc”时出现“尝试在 DataFrame 切片的副本上设置值”错误

Jupyter 笔记本返回此警告 C anaconda lib site packages pandas core indexing py 337 SettingWithCopyWarning A value is trying to be
如何将字典转换为字符串

我正在尝试使用提供的解决方案here https stackoverflow com questions 5192753 how to get the number of occurrences of each character usin
Tensorflow 导入错误：没有名为“tensorflow”的模块

我在 Windows Python 3 5 Anaconda 环境中安装了 TensorFlow 验证成功有警告 tensorflow C gt python Python 3 5 3 英特尔公司默认 2017 年 4 月 27 日 1
为什么 statsmodels 和 R 的逻辑回归结果不同？

我正在尝试比较 python 的 statsmodels 和 R 中的逻辑回归实现 Python版本 import statsmodels api as sm import pandas as pd import pylab as pl i
如何向未知用户目录读取/写入文件？

我正在尝试从用户目录 C Users USERNAME Test Source 读取和写入文件但我未能成功找到任何有关如何自动检测用户名的资源其中的 USERNAME上面的例子或者无论如何我可以让它读取和写入目录而不需要知道用户名
帮我用 PHP 解析这个文件

Fri Nov 27 10 00 01 EST 2009 974 12506 Fri Nov 27 11 00 01 EST 2009 988 12655 Fri Nov 27 12 00 01 EST 2009 1005 12886 Fr
使用Python选择屏幕区域

我正在用 Python 开发一个屏幕截图实用程序目前它是专门针对 Linux 的到目前为止我已经能够拍摄完整桌面的屏幕截图并将其上传到 Imgur 然后将链接复制到剪贴板现在我想扩展到诸如活动窗口或特定选择的屏幕截图之类的功能如
Python 中字典的合并层次结构

我有两本词典而我想做的事情有点奇怪基本上我想合并它们这很简单但它们是字典的层次结构我想以这样的方式合并它们如果字典中的项目本身就是字典并且存在于两者中我也想合并这些字典如果它不是字典我希望第二个字典中的值覆盖第一个字典中
如何获取一个类的所有实例

我是一名初学者正在学习 Python 我想创建一个课程Person 在构造函数中我想将我创建的每个实例放入一个名为实例的集合中然后我希望实例方法返回所有实例我怎样才能做到这一点 class Person Type annota
计算两个节点之间的最长路径 NetworkX

我正在尝试使用 Networkx 制作甘特图网络中的所有节点都是完成项目所需执行的任务使用 Networkx 可以轻松计算项目的总时间但是制作甘特图我需要每个节点的最新启动 NetworkX 包含一个函数 dag longest p
fleiss kappa 是衡量注释者间一致性的可靠指标吗？下面的结果让我很困惑，使用它时是否涉及任何假设？

我有带有以下描述的注释矩阵 3 名注释者 3个类别 206 个科目数据存储在 numpy ndarray 变量 z 中 array 0 2 1 0 2 1 0 2 1 0 2 1 1 1 1 0 2 1 0 3 0 0 3 0 0 3 0
jQuery 解析 JSON

当我尝试解析 JSON 验证的字符串时收到此错误 JSON parse 意外字符当我删除需要转义的字符 style width 400px 时它完美地工作我缺少什么在使用 parseJSON 之前是否有一种独特的方法来转义字符 va
.NET 是否有相当于 Python 中的 **kwargs 的功能？

我一直无法通过典型渠道找到这个问题的答案在Python中我可以有以下函数定义 def do the needful kwargs Kwargs is now a dictionary i e do the needful spam 42
从 SQL 数据库导入表并按日期过滤行时，将 Pandas 列解析为日期时间

我有一个DataFrame列名为date 我们如何将日期列转换解析为DateTime object 我使用 Postgresql 数据库加载日期列sql read frame 的一个例子date列是2013 04 04 我想做的是选择
Python - 根据条件调用函数

我想知道是否有一种简洁的方法来根据条件调用函数我有这个 if list 1 some dataframe df myfunction 我想知道这是否有可能三元运算符 http book pythontips com en latest t
如何在 Windows 10 上将 ipynb 文件与 Jupyter Lab（来自 Anaconda）关联

我使用 Windows 10 Jupiter Lab 是从 Anaconda 安装的我想交往ipynb使用 Jupyter Lab 保存文件这样当我双击ipynb文件应使用 Jupyter Lab 打开我该怎么做 Install n
在 pandas DataFrame 中使用比较列表的问题

我在 pandas 中有一个 DataFrame 其列类型之一是 int 上的列表如下所示 df pandas DataFrame 1 2 3 4 5 6 7 8 9 10 columns a b c d gt gt gt df a b
Pandas 数据透视表同时包含多列

我怀疑是否pandas pivot table可以一次接受两列并单独处理它们而不是分层处理假设我有以下数据框 id date day val 101 11 1 1 1 2 1 101 11 1 2 2 2 2 101 11 1 3 3
捕获 subprocess.run() 的输入

我在 Windows 上有一个交互式命令行 exe 文件是由其他人编写的当程序出现异常时它会终止并且我对程序的所有输入都会丢失所以我正在编写一个 python 程序它调用一个阻塞子进程subprocess run 并捕获所有输入
Python DNS服务器IP地址查询

我正在尝试使用 python 获取 DNS 服务器 IP 地址要在 Windows 命令提示符下执行此操作我将使用 ipconfig 全部如下所示我想使用 python 脚本做同样的事情有什么方法可以提取这些值吗我成功提取了设备

随机推荐

如何调整 flutter http、dio 或 flutter_downloader 上的下载缓冲区大小？

我想下载一个大文件大小约为300MB 它比我想象的要慢很多当我查看日志时我发现它正在获取大小约为8KB 即使我寻找其他颤振库我也没有找到调整下载缓冲区大小的方法我该如何调整呢您可以使用分块流读取器 https api flutt
jQuery fullcalendar 中事件数组的 json 数组

我正在使用 jQuery fullcalendar 并且必须使用 JSON 数组从查询动态设置事件现在我正在尝试使用静态数组这是我的代码
如果在路由组中定义了路由，则 Laravel 路由模型绑定不起作用

我有这条路线 Route get posts show post PostsController show corresponding controller method public function show Post post met
std::list 中最小元素的索引

如果我有一个std vector
WellPointed 适合双至 PreArrow 级别

In Control Arrow Constrained http hackage haskell org package constrained categories 0 2 0 0 docs Control Arrow Constrai
是否有标准方法可以将多个 API 调用组合成一个 HTTP 请求？

在设计 REST API 时我有时会遇到处理批量操作例如一次删除或更新许多实体以减少许多 tcp 客户端连接的开销的挑战在特定情况下问题通常通过添加特定操作的自定义 api 方法来解决例如POST files batchDele
使用 aiohttp 维护客户端 http 缓存

我有一个同步应用程序使用缓存控制 https pypi org project CacheControl requests https requests readthedocs io en master 它与本地文件系统缓存配合得很好我希
我可以使用 MYSQLI 和 PHP 将多个值绑定为单个参数吗？

假设我有以下 SQL 查询 SELECT id name FROM user WHERE id IN id1 id2 id3 现在假设我需要 PHP 提供的 ids 数组所以我有这样的事情 idList array id1 id2 id3
SQL-Server 2005 的 Oracle 等效 ROWNUM？

在 Oracle PL SQL 中我习惯这样写 SELECT FROM MY TABLE WHERE ROWNUM lt 100 为了仅获取名为 MY TABLE 的表的前 100 条记录 SQL SERVER 中等效的 SELECT 语句
jQuery - 检查 DOM 元素是否已经存在

我正在尝试通过 Ajax 和 jQuery 动态添加一些表单元素我想确保不会两次创建相同的元素因此我只想在尚未将其添加到 DOM 时添加它我的所有元素都有一个唯一的 CSS id 例如 data 1 我正在使用以下命令来检查该元素是否
按行上的字数对大量文件的行进行排序（最好是并行）

我正在研究一种社区检测算法用于分析 Facebook 的社交网络数据第一个任务是检测图中的所有派系可以有效地并行完成并留下如下输出 17118 17136 17392 17064 17093 17376 17118 17136 17
Next.JS + AMP CSS

我在 Next js 中使用 AMP 和 CSS 时遇到问题在我的头部组件中我有在 HTML 源代码中它显示为在控制台中我收到此错误 The mandatory attribute amp custom is missing in
为什么 SCNNode .flattenedClone() 会崩溃或使性能变差？

我正在尝试添加大约 4 5kSCNNode对象到场景它们的几何形状是以下两种之一SCNPlanes 其材质由CALayers 但我认为这并不重要 CALayerDelegate每个仅调用一次因此这似乎不是问题性能很糟糕 With sh
在 Windows 上找不到 PHP 8.1.9 的 php_pdo_informix.dll

我必须在安装了 Apache 2 4 54 PHP 8 1 9 VS16 x64 线程安全的 Windows 10 版本 20H2 上测试 php 应用程序已安装 informix client sdk 4 50 FC8 并且 INFO
如何使按钮文本从文本更改为空名称并延迟？

我正在使用 tkinter 库作为 GUI 基本上我使用 for 循环创建 4 个按钮每个按钮都有一个随机数作为文本现在当我尝试实现一种方法时遇到了困难该方法允许按钮文本显示为数字然后在一秒钟左右更改为任何内容完成此操作后下一
序列化ctype联合

有没有办法序列化 ctype 联合以便通过套接字发送它们我试图通过套接字将联合发送到网络服务器但我无法序列化数据而是作为联合对象的实例发送是否可以使用 Python Struct 库来执行此操作我不相信它支持联合任何帮助深表感谢
Swift 包管理器条件编译不尊重标志

我有一个具有以下结构的 Package swift 文件 var package Package name MyProject targets Target name MyProject dependencies exclude Exclu
过滤掉Python子进程模块中需要终端的命令

我正在开发一个机器人它接受来自网络 XMPP 的命令并使用Python中的子进程模块来执行它们并发回命令的输出本质上它是一个类似 SSH 的基于 XMPP 的非交互式 shell 机器人仅执行来自经过身份验证的可信源的命令因此允许任
查找本地网络中的所有IP地址

我想使用 Java 代码查找当前连接到的本地网络中设备的所有 IP 地址有用的实用程序Advanced IP Scanner http www advanced ip scanner com 能够在我的中找到各种IP地址subnet ht
使用 Pyparsing 访问解析的元素

我有一堆句子需要解析并转换为相应的正则表达式搜索代码我的句子的例子 LINE CONTAINS phrase one BEFORE phrase2 AND phrase3 AND LINE STARTSWITH Therefore we

使用 Pyparsing 访问解析的元素

使用 Pyparsing 访问解析的元素 的相关文章

随机推荐

热门标签

使用 Pyparsing 访问解析的元素的相关文章