对于给定的有限代表字符串列表，正则表达式的语法推理？

2024-01-09

我正在分析一个大型公共数据集，其中包含许多详细的人类可读字符串，这些字符串显然是由某些常规（在形式语言理论意义上）语法生成的。

逐一查看这些字符串组以了解其中的模式并不太难；不幸的是，大约有 24,000 个独特的字符串被分为 33 个类别和 1714 个子类别，因此手动执行此操作有点痛苦。

基本上，我正在寻找一种现有的算法（最好使用现有参考实现) 获取任意字符串列表并try推断一些可用于生成它们的最小（对于最小的合理定义）跨越正则表达式集（即从该语法生成的语言的有限字符串集中推断正则语法）。

我考虑过重复进行贪婪的最长公共子串消除，但这只是到目前为止，因为它不会崩溃除了精确匹配之外的任何内容，因此不会检测到，例如，在特定位置处变化数字字符串的常见模式语法。

暴力破解任何不属于公共子串消除范围的东西都是可能的，但在计算上可能不可行。（此外，我已经考虑过，子字符串消除可能存在“阶段排序”和/或“局部最小值”问题，因为您可能会进行贪婪的子字符串匹配，最终迫使最终语法压缩程度较低/最小，尽管它最初似乎是最好的减少）。

是的，事实证明这确实存在；所需要的是学术上所谓的DFA学习算法，其中的例子包括：

安格鲁因 L*
L*（向列中添加反例）
卡恩斯/瓦齐拉尼
里维斯特/夏皮尔
NL*
正负推理（RPNI）
DeLeTe2
Biermann & Feldman 算法
Biermann & Feldman 算法（使用 SAT 求解）

上述内容的来源是libalf http://libalf.informatik.rwth-aachen.de/，一个开源的C++自动机学习算法框架；至少其中一些算法的描述可以在这本教科书 https://rads.stackoverflow.com/amzn/click/com/0521763169等。还有语法推理算法（包括DFA学习）的实现吉工具箱 https://code.google.com/p/gitoolbox/对于 MATLAB。

Since 这个问题以前曾出现过 https://stackoverflow.com/questions/5958483/grammar-inference-library并且过去没有得到令人满意的答案，我正在评估这些算法，并将更新更多关于它们有多有用的信息，除非在该领域具有更多专业知识的人首先这样做（这是更好的选择）。

_{NOTE: I am accepting my own answer for now but will gladly accept a better one if someone can provide one.}

_{FURTHER NOTE: I've decided to go with the route of using custom code, since using a generic algorithm turns out to be a bit overkill for the data I'm working with. I'm leaving this answer here in case someone else needs it, and will update if I ever do evaluate these.}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

对于给定的有限代表字符串列表，正则表达式的语法推理？的相关文章

htaccess 中的重写规则以匹配某些文件扩展名

如何查找某些文件扩展名的实例例如 jpg png css js php 如果没有匹配项则将其发送到 index php route 1 我希望能够允许自定义用户名使用句点所以重写http example com my name ht
Javascript 搜索并替换包含方括号的字符序列

我正在尝试在字符串 Nationality EN ESP 中搜索 EN 我想从字符串中删除它所以我使用替换方法代码示例如下 var str Nationality EN ESP var find EN var regex new Reg
识别鼠标移动的算法

我想知道是否有任何研究算法可以指定鼠标在识别等字符时的偏差量使用鼠标绘制某种光学字符识别但可能是一个更简单的版本是否有某种算法可以让我说用户绘制的问号确实是一个问号而不是其他具有一定准确性的东西就像 Windows 平板电脑软
正则表达式匹配IP地址[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我是正则表达式的新手我想使用preg match函数用于查找字符串是否为 IP 地址例如 string 10 0 0 1 preg m
字符串的正则表达式，必须至少包含 14 个字符，其中至少 2 个数字，至少 6 个字母

我需要一个正则表达式来测试字符串的最少 14 个字符有效值为A Za z0 9 这 14 个字母中至少有 6 个字母这 14 个数字中至少有 2 个有没有一种方法可以将其包装在一个正则表达式中目前我有一个 javascript 和
Django 中不捕获可选 URL 元素

我正在使用 Django 并且想要匹配 URLdomain com w and domain com words 我有一个以下形式的配置行 url r w ords app name views view words view words仅
通过jquery在日期框中自动添加斜杠/符号[重复]

这个问题在这里已经有答案了我发现几个问题但没有答案所以我问问题如何添加自动斜杠符号
性能 - String.charAt(0) 与 /^.{1}/

从概念上讲哪个应该更快 String charAt 0 or 1 regex String charAt 0 必须处理和应用正则表达式速度测试资源 Paul S https stackoverflow com users 1615483
有没有办法缩短这个正则表达式？

以下正则表达式适合我的模式但是我想知道是否有办法缩短它我不能使用 w 因为我只想要不区分大小写的英文字母因为该模式重复所以我想知道是否可以将其分组如果可能的话 A Za z 5 A Za z 3 A Za z 3 A Za z
当平方和为N时，如何找到四个变量的所有可能值？

A 2 B 2 C 2 D 2 N给定一个整数N 打印出整数值的所有可能组合ABCD求解方程我猜我们可以比暴力做得更好天真的暴力会是这样的 n 3200724 lim sqrt n 1 for a 0 a lt lim a for b
设计 DFA 接受可被数字“n”整除的二进制字符串

我需要学习如何设计一个 DFA 使得给定任何数字 n 它接受二进制字符串 0 1 其十进制等效数可被 n 整除不同的 n 会有不同的 DFA 但是有人可以给出一个基本方法我应该遵循该方法来处理任何数字 0 下面我写了一个答案n等于 5
JavaScript 和正则表达式：文字语法与正则表达式正则表达式对象

我在这段小 JavaScript 代码中遇到了一些麻烦 var text Z Test Yeah Z With literal syntax it returns true good alert Z s S Z g test text Bu
PHP中用逗号分解复杂字符串

我需要分割一个包含逗号的字符串我已经找到了类似字符串的东西 str getcsv A B with a comma eh C 但我的字符串是这样的例如值没有包含字符 A B one two C 我需要分解它并获得 array 3 0 g
如何从 Python 列表中删除日期

我有一个标记化文本列表 list of words 看起来像这样 list of words 08 20 2014 10 04 27 pm complet vendor per mfg recommend 08 20 2014 10 04
如何使用斯坦福TokensRegex？

我正在尝试使用斯坦福大学TokensRegex 但是我在匹配器行中遇到错误请参阅注释它说请尽力帮助我下面是我的代码 String file A store has many branches A manager may manag
尝试在 Linux 上使用 Clang++ 编译 c++11 正则表达式教程时出错

我正在努力追随本教程 http solarianprogrammer com 2011 10 12 cpp 11 regex tutorial 关于 C 11 中的正则表达式当我尝试编译这个小代码示例时我收到这些错误 clang std
正则表达式删除块注释也删除 * 选择器

我正在尝试使用 bash 从 css 文件中删除所有块注释我有以下 sed 命令的正则表达式 sed r s w s w d 这可以很好地去除块注释例如 This is a comment this is another comment
使用解析将 ** 运算符更改为幂函数？

我的要求是将运算符更改为幂函数例如 1 Input B 2 Output power B 2 2 B 2 T 2 X Output power B 2 我写了下面的正则表达式来解决这个问题 rx r a zA Z0 9 a zA Z0
JavaScript 中的正则表达式用于验证十进制数字

我想要 JavaScript 中的正则表达式来验证十进制数字它最多只允许两位小数例如它应该允许10 89但不是10 899 它还应该只允许一个句点例如它应该允许10 89但不是10 8 9 尝试使用以下表达式 d d 0 2 如果
Javascript 正则表达式来匹配正则表达式

我正在研究一个特殊的正则表达式来匹配 javascript 正则表达式现在我有这个正则表达式工作 i g m 例如 foo match i g m gt foo foo undefined foo i match i g m gt foo

随机推荐

WCF 错误 - 找不到引用合同“UserService.UserService”的默认端点元素

任何想法如何解决这一问题 UserService UserServiceClient userServiceClient new UserServiceClient userServiceClient GetUsersCompleted n
pandas，按函数分组后的列名称

我有一个简单的 Pandas Dataframe 名为purchase cat df email cat 0 email protected cdn cgi l email protection Mobiles Tablets 1 emai
MongoDB 主机名/URI 配置

请注意这看起来很长但提供了上下文并在底部列出了我的主要问题我研究了所有部分并包括参考资料我用的是这在三个独立的虚拟机上创建了两个 Mongo 服务器主服务器和辅助服务器和仲裁器的副本集我没有更改任何虚拟机配置除了打开防火墙
无法在 iPhone/iPod touch 的 Safari iOS 7 中隐藏导航栏

我不相信有任何解决方案可以使用 javascript css html 以编程方式隐藏栏但让我尝试描述一个问题我们是移动游戏开发团队我们开发一款游戏已经一年了 iOS 7 发布后我们遇到了无法隐藏导航栏的问题一旦用户点击 Safa
Rails：更改操作邮件程序中的默认发件人

我正在使用 Rails 应用程序中的操作邮件程序发送电子邮件但它只允许一个默认发件人这是我的 UserMailer 类 class UserMailer lt ActionMailer Base default from gt emai
停止线程：标志与事件[重复]

这个问题在这里已经有答案了我看到了例子例如这里 https stackoverflow com a 325528 4653485使用一个Event https docs python org 3 library threading htm
QML：无法将[未定义]分配给

我正在尝试将 Qt Android 程序的界面从 QWidgets 重写为 QML 我之前从未使用过它因此错误可能非常明显且愚蠢新界面基于ListView 看起来像 ListView id listView x 16 y 146 wid
如何在 XCode 4.3 中为仅限 iPhone 的应用程序指定 iPad Retina 图标？

我的 iPhone 应用程序图标在 iPhone Retina 和 iPad 中显示良好但在 iPad 视网膜模拟器和设备上我得到一个图标显然包含应用程序的开始屏幕鉴于我的应用程序仅针对 iPhone 设计而非通用因此 X
当我的网站打开多个选项卡时，为什么 setTimeout 会加速？

我有一个每秒倒计时的计时器它工作得很好直到用户打开我的网站的 3 或 4 个选项卡此时最新选项卡的计时器速度变为两倍或三倍我目前只能在 IE8 中重现该错误我之前使用的是 setInterval 并且也可以在 Firefox 中重
使用itextsharp将字体嵌入到pdf中

我尝试使用 itextsharp 5 2 1 0 嵌入字体但出现错误字体是 KozGoPro Light otf 经过一番研究后发现它是日语字体我已经尝试过以下 Dim tblx1 As PdfPTable New PdfPTable
HTTP 标头中的“Content-Length”字段是什么？

这是什么意思使用标头中指定的编码的编码内容字符串的字节数内容字符串的字符数特别是在以下情况Content Type application x www form urlencoded 它是请求或响应正文中数据的字节数正文是标题下方空
如何将文件句柄传递给函数？

当我运行下面的代码时我得到 Can t use string F as a symbol ref while strict refs in use at T pl line 21 其中第 21 行是 flock fh LOCK EX 我究竟
glDrawElements 使用了错误的 VBO？

我正在尝试在屏幕上渲染两个不同的对象据我所知问题是OpenGL使用了错误的顶点缓冲区但使用了正确的索引缓冲区但我不太确定我目前正在做的任何事情因为我几乎已经开始再次学习OpenGL 这是当前显示的内容 http puu sh ek
Python itertools 产品，但有条件吗？

我有一个函数 fun 需要几个参数 p0 p1 对于每个参数我给出一个可能值的列表 p0 list a b c p1 list 5 100 我现在可以为 p0 p1 的每个组合调用我的函数 for i in itertools produ
en_US 或 en-US，您应该使用哪一个？ [复制]

这个问题在这里已经有答案了假设您想在数据库中存储用户首选项的区域设置您将使用哪个值 en US 或 en US 它们是两个标准但是您更喜欢使用哪一个作为您自己的应用程序的一部分 Updated 似乎许多网站都使用破折号而不是下划线例
以纱线集群模式在 YARN 上运行 Spark：控制台输出去了哪里？

我按照此页面在 YARN 上以纱线集群模式运行 SparkPi 示例应用程序 http spark apache org docs latest running on yarn html http spark apache org docs
http-equiv="refresh" 是否保留引用信息和元数据？

如果我设置一个这样的页面执行重定向时浏览器是否会发送引用者信息和其他元数据此处测试时 Firefox 和 IEdo not但铬does发送引荐来源网址尽管这也不一致无论它是否发送到同一域因为我找不到任何说明什么的规范should是
MVC 的缓存层 - 模型还是控制器？

我正在重新考虑在哪里实现缓存部分您认为最合适的实施地点在哪里在每个模型中还是在控制器中方法 1 伪代码 mycontroller php MyController extends Controller class function
从 ActivityGroup 开始ActivityForResult？

尝试从活动组启动活动时我似乎无法得到任何结果我已将 onactivityresult 放入活动和活动组中具体来说我试图让用户从 Intent ACTION GET CONTENT 中选择照片视频但我从来没有得到任何回报我究竟做
对于给定的有限代表字符串列表，正则表达式的语法推理？

我正在分析一个大型公共数据集其中包含许多详细的人类可读字符串这些字符串显然是由某些常规在形式语言理论意义上语法生成的逐一查看这些字符串组以了解其中的模式并不太难不幸的是大约有 24 000 个独特的字符串被分为 33 个类别和

对于给定的有限代表字符串列表，正则表达式的语法推理？

对于给定的有限代表字符串列表，正则表达式的语法推理？ 的相关文章

随机推荐

热门标签

对于给定的有限代表字符串列表，正则表达式的语法推理？的相关文章