如何制作一个flex(词法扫描器)来读取UTF-8字符输入?

2023-12-02

看起来flex不支持UTF-8输入。每当扫描器遇到非 ASCII 字符时,它就会停止扫描,就像它是 EOF 一样。

有没有办法强制 Flex 吃掉我的 UTF-8 字符?我不希望它实际匹配 UTF-8 字符,只需在使用“.”时吃掉它们即可图案。

有什么建议吗?

EDIT

最简单的解决方案是:

任意 [\x00-\xff]

并使用“ANY”而不是“.”在我的规则中。


我自己一直在研究这个问题,并阅读 Flex 邮件列表,看看是否有人考虑过这个问题。让 Flex 读取 unicode 是一件复杂的事情......

UTF-8 编码是可以完成的,大多数其他编码(16s)将导致驱动自动机的大量表。

目前常见的方法是:

我所做的只是编写与单个 UTF-8 匹配的模式 人物。它们看起来像 以下内容,但您可能想要 重新阅读UTF-8规范 因为这是我很久以前写的。
你当然需要结合 这些因为你想要 unicode 字符串, 不仅仅是单个字符。

UB [\200-\277] %% 
[\300-\337]{UB}                   { do something } 
[\340-\357]{UB}{2}                { do something } 
[\360-\367]{UB}{3}                { do something } 
[\370-\373]{UB}{4}                { do something } 
[\374-\375]{UB}{5}                { do something }

摘自邮件列表。

在进一步研究之后,我可能会考虑创建一个适当的补丁来支持 UTF-8。对于大型 .l 文件,上述解决方案似乎无法维护。而且真的很丑!您可以使用类似于创建“.”的范围。替换规则来匹配所有 ASCII 和 UTF-8 字符,但仍然相当难看。

希望这可以帮助!

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何制作一个flex(词法扫描器)来读取UTF-8字符输入? 的相关文章

  • 在 HTTP 标头中发送 UTF-8 值会导致 Mojibake

    我想使用 servlet 发送阿拉伯语数据HTTPServletResponse给客户 我正在尝试这个 response setCharacterEncoding UTF 8 response setHeader Info arabicWo
  • StrRev() 不支持 UTF-8 [重复]

    这个问题在这里已经有答案了 我正在尝试编写一个代码来替换非阿拉伯支持的程序中支持的阿拉伯文本因为我需要在替换后反转文本 但它显示一些垃圾内容而不是想要的结果 这是代码 结果 After Reverse 我需要它是原来的样子 但相反 不是垃圾
  • 如何解析从java文件中读取的unicode [重复]

    这个问题在这里已经有答案了 我编写了一个包含以下内容的文本文件 u0032 u0142o u017Cy u0142 然后我使用 FileReader 和 BufferedReader 来读取文件 public static void mai
  • 使用:text/plain; 有什么缺点吗?字符集=“UTF-8”

    我的网络服务器提供的内容在 95 的情况下只是简单的 ascii 但在极少数情况下 内容包含一些德语非 ASCII 字符 现在我可以设置content type通过检测内容是否包含任何非 ASCII 字符来响应标头 或者我可以始终设置响应标
  • 为什么 MySQL 将 é 与 e 视为相同?

    我使用 Django Web 应用程序将 Unicode 字符串存储在 MySQL 数据库中 我可以很好地存储 Unicode 数据 但是在查询时 我发现 and e被视为好像它们是同一个角色 In 1 User objects filte
  • 如何在 Flutter 中解码 Gzip Http 响应?

    我是颤振新手 我正在发出网络请求 并且得到了正确的响应 但数据已被压缩 我已经在 Swift 中解压了相同的内容 但是对于 Flutter 我无法做到这一点 有人可以帮忙吗 这是我尝试过的 import dart convert impor
  • pyodbc 无法正确处理 unicode 数据

    我确实使用 pyodbc 成功连接了 MySQL 数据库 并且它可以很好地处理 ascii 编码的数据 但是当我打印使用 unicode utf8 编码的数据时 它引发了错误 UnicodeEncodeError ascii codec c
  • 从命令行执行查询时出现 PostgreSQL 编码问题

    我正在尝试执行存储在文件中的 SQL 查询 我正在使用以下命令来执行 psql d DB NAME a f QUERY NAME sql 我在 SQL 文件中有一些非英语文本 例如 执行查询时 数据库中的文本如下所示 我如何执行查询命令行以
  • 在Python中高效匹配多个正则表达式

    当你有正则表达式时 词法分析器就很容易编写 今天我想用Python写一个简单的通用分析器 并想出了 import re import sys class Token object A simple Token structure Conta
  • 国际化和非 US-ASCII、Latin1 或 Win1252 的密码

    当用户输入最能以 Unicode 或其他非拉丁字符编码表示的内容时 您如何处理服务密码 具体来说 可以使用西里尔字母密码作为Oracle的密码吗 如果密码以 UTF 8 形式提供 您如何根据 Windows 身份验证机制验证用户的密码 我对
  • 如何在Vim中正确显示UTF-8字符

    我想要 需要编辑包含 UTF 8 字符的文件 并且我想使用 Vim 在我被指责问以前问过的问题之前 我已经阅读了有关编码 文件编码 s 术语编码等的 Vim 文档 用 google 搜索了该主题 并阅读这个问题 https stackove
  • XElement 和 UTF-8 问题

    我有一个 NET Web 服务 asmx 而不是 svc 它通过 HTTP POST 接受字符串 它接受的字符串是 xml 信息集 然后我通过 XElement Parse 进行解析 解析为 XElement 实例后 我将一个节点添加到该实
  • UTF-8、PHP 和 XML Mysql

    我在解决这个问题时遇到了很大的问题 我有一个编码 latin1 swedish ci 的 mysql 数据库和一个存储名称和地址的表 我正在尝试输出 UTF 8 XML 文件 但在使用以下字符串时遇到问题 Otiv gen它被输出为Otiv
  • 运行源代码中包含 Unicode 字符的 Python 2.7 代码

    我想运行一个在源代码中包含 unicode utf 8 字符的 Python 源文件 我知道这可以通过添加评论来完成 coding utf 8 在一开始的时候 但是 我希望不使用这种方法来做到这一点 我能想到的一种方法是以转义形式编写 un
  • 数据库字段中的空白不会被trim()删除

    我在 MySQL 的文本字段的段落开头有一些空格 Using trim var text field 在 PHP 中或TRIM text field MySQL 中的语句绝对不执行任何操作 这个空白可能是什么以及如何通过代码删除它 如果我进
  • 将以utf-8字符串为内容的unicode转换为str

    我正在使用 pyquery 来解析页面 dom PyQuery http zh wikipedia org w index php title CSS printable yes variant zh cn content dom mw c
  • C++ 字符串:UTF-8 还是 16 位编码?

    我仍在尝试决定我的 家庭 项目是否应该使用UTF 8 http en wikipedia org wiki UTF 8字符串 根据 std string 实现 必要时带有附加的 UTF 8 特定函数 或一些 16 位字符串 作为 std w
  • 如何转换 UTF-8 <-> UTF16 可移植

    有没有一种简单 可移植的方法 至少是 win32 linux 将 UTF 16 转换为 UTF 8 并返回 最好使用升压 谢谢你的帮助 托比亚斯 Both libiconv http www gnu org software libicon
  • 替换非 UTF8 字符

    在 php 中 我需要替换字符串中的所有非 UTF8 字符 然而 并不是通过某种等价物 比如iconv功能与 TRANSLIT 但是由一些选定的角色 例如 or 例如 通常 我希望用户能够看到找到无效字符的位置 我没有找到任何执行此操作的函
  • Oracle中如何检测4字节UTF8字符

    我们已经看到oracle中存储了4字节的UTF 8字符 我们需要检测特定列中有多少行包含此类字符 尝试了这里给出的建议 UTF 16 补充字符 https stackoverflow com questions 34720830 how t

随机推荐