将 TAG 格式转换为语料库的正则表达式

2024-01-11

我正在使用一个名为 AntConc 的语料库语言学工具，其中有一个文档，其中每个单词都被标记为词性（名词、形容词等），并且您可以使用特定的命令来提取匹配项。例如，如果我正在寻找一个名词（标记为 NN），我会使用*_NN它会找到文档中的每个名词。

我需要翻译我的*_TAG语法到 python 正则表达式中，我不知道该怎么做。比如我有一句话：*_PP$ *_NN *_DT *_JJ *_NN（这会转换为所有格代词、名词、限定词、形容词、名词；它会发现诸如“她的声音完全重复”之类的内容）采用 TAG 格式。

如何将此类内容更改为正则表达式？现在，我只讲一些基本的东西。稍后我会担心弄清楚如何做“或”和“如果这个那么这个”等等。

如果您需要有关标签的更多信息，请尝试搜索 POS 标签 CLAWS，它应该会为您提供一个列表。

非常感谢你的帮助！

所以我做了一些研究并发现这个PDF文件 http://www.laurenceanthony.net/software/antconc/releases/AntConc343/help.pdf描述嵌入标签和非嵌入标签的概念。您正在寻找嵌入的标签。那么如果我是正确的，输入会是这样的，对吧？

她_PP$ 声音_NN 和_DT 精确_JJ 重复_NN

只有这样，在更大的文本正文中，你不知道实际的单词，你只知道_XX tags.

在正则表达式中，你必须更具体*。你想要什么来代替*是单词中的 1 个或多个字符（字母，但也可能包含连字符？）。这使得这个名词：

[\w-]+_NN

这意味着一个字符类[...] http://www.regular-expressions.info/charclass.html of 单词字符\w http://www.regular-expressions.info/refcharclass.html和连字符-, 重复一次或多次+ http://www.regular-expressions.info/repeat.html，其次是_NN.

对于所有格代词来说，它有一个$那里在正则表达式中有特殊含义，如果你想要特点 $而不是它的特殊含义，你需要用前面的转义\像这样：

[\w-]+_PP\$

最后，您要考虑单词之间允许使用哪些字符。可能只是空白，如空格、制表符和回车符，这将是\s+。也可能是“任何不是单词字符的字符”允许句点、逗号、引号、冒号等。那就是\W+（注意大写W与小写字母相反\w).

结合起来，这相当于：

[\w-]+_PP\$\W+[\w-]+_NN\W+[\w-]+_DT\W+[\w-]+_JJ\W+[\w-]+_NN

调试演示 https://www.debuggex.com/r/i6mnOsamsRlJavRN

To do “未确定数量的未知单词”你会这样做：

(?:[\w-]+\W+)*?

所以与单词匹配的部分[\w-]+以及介于两者之间的部分\W+被包装到非捕获组中(?:...)据说该组出现 0 次或多次*但尽可能少的次数?避免贪婪 http://www.regular-expressions.info/repeat.html#greedy。你可以看到here https://www.debuggex.com/r/ANNiX3Mh1wdyI4Vk并删除或添加 X 以查看它是否仍然匹配。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

regex

将 TAG 格式转换为语料库的正则表达式的相关文章

使用 openCV 对图像中的子图像进行通用检测

免责声明我是计算机视觉菜鸟我看过很多关于如何在较大图像中查找特定子图像的堆栈溢出帖子我的用例有点不同因为我不希望它是具体的而且我不确定如何做到这一点如果可能的话但我感觉应该如此我有大量图像数据集有时其中一些图像是数据集的
检查给定字符串是否等于给定字符串集中的至少一个字符串的有效方法

给定一组字符串比如说 String1 String2 StringN C 中确定最有效的方法是什么返回true or false 是否给定string s匹配上面集合中的任何字符串吗 Boost Regex 可以用于此任务吗 std u
Spark的distinct()函数是否仅对每个分区中的不同元组进行洗牌

据我了解 distinct 哈希分区 RDD 来识别唯一键但它是否针对仅移动每个分区的不同元组进行了优化想象一个具有以下分区的 RDD 1 2 2 1 4 2 2 1 3 3 5 4 5 5 5 在此 RDD 上的不同键上所有重复键
安装后 Anaconda 提示损坏

我刚刚安装张量流GPU创建单独的后环境按照以下指示here https github com antoniosehk keras tensorflow windows installation 但是安装后当我关闭提示窗口并打开新航站楼弹出
没有特殊字符的密码验证器

我是 RegEx 的新手已经进行了大量搜索但没有找到任何具体内容我正在编写一个验证密码字符串的正则表达式可接受的字符串必须至少具有 4 种字符类型中的 3 种数字小写字母大写字母特殊字符我对包含有一个想法也就是说如果这
JavaScript RegEx：不同的结果：使用字符串和使用正则表达式“文字”构建模式？

使用 RegExp 文字与字符串之间有什么区别吗 http jsfiddle net yMMrk http jsfiddle net yMMrk String prototype lastIndexOf function pattern p
Python 中的二进制缓冲区

在Python中你可以使用StringIO https docs python org library struct html用于字符数据的类似文件的缓冲区内存映射文件 https docs python org library mmap
Geopandas 设置几何图形：MultiPolygon“等于 len 键和值”的 ValueError

我有 2 个带有几何列的地理数据框我将一些几何图形从 1 个复制到另一个这对于多边形效果很好但对于任何有效多多边形都会返回 ValueError 请指教如何解决这个问题我不知道是否如何为什么应该更改 MultiPolygon
使用 OpenPyXL 迭代工作表和单元格，并使用包含的字符串更新单元格[重复]

这个问题在这里已经有答案了我想使用 OpenPyXL 来搜索工作簿但我遇到了一些问题希望有人可以帮助解决以下是一些障碍待办事项我的工作表和单元格数量未知我想搜索工作簿并将工作表名称放入数组中我想循环遍历每个数组项并搜索包含特
表达式中的 Python 'in' 关键字与 for 循环中的比较 [重复]

这个问题在这里已经有答案了我明白什么是in运算符在此代码中执行的操作 some list 1 2 3 4 5 print 2 in some list 我也明白i将采用此代码中列表的每个值 for i in 1 2 3 4 5 print
如何将 numpy.matrix 提高到非整数幂？

The 运算符为numpy matrix不支持非整数幂 gt gt gt m matrix 1 0 0 5 0 5 gt gt gt m 2 5 TypeError exponent must be an integer 我想要的是 oct
ExpectedFailure 被计为错误而不是通过

我在用着expectedFailure因为有一个我想记录的错误我现在无法修复但想将来再回来解决我的理解expectedFailure是它会将测试计为通过但在摘要中表示预期失败的数量为 x 类似于它如何处理跳过的 tets 但是当我
Python - 按月对日期进行分组

这是一个简单的问题起初我认为很简单而忽略了它一个小时过去了我不太确定所以我有一个Python列表datetime对象我想用图表来表示它们 x 值是年份和月份 y 值是此列表中本月发生的日期对象的数量也许一个例子可以更好地证明这
Numpy 优化

我有一个根据条件分配值的函数我的数据集大小通常在 30 50k 范围内我不确定这是否是使用 numpy 的正确方法但是当数字超过 5k 时它会变得非常慢有没有更好的方法让它更快 import numpy as np N 5000
如何在 Django 中使用并发进程记录到单个文件而不使用独占锁

给定一个在多个服务器上同时执行的 Django 应用程序该应用程序如何记录到单个共享日志文件在网络共享中而不保持该文件以独占模式永久打开当您想要利用日志流时这种情况适用于 Windows Azure 网站上托管的 Django 应
如何使用 XPath 正则表达式匹配 URL

需要 XPath 方面的帮助我有这样一个XML
在python中，如何仅搜索所选子字符串之前的一个单词

给定文本文件中的长行列表我只想返回紧邻其前面的子字符串例如单词狗描述狗的单词例如假设有这些行包含狗 hotdog big dog is dogged dog spy with my dog brown dogs 在这种情况下期望
如何仅删除单括号并保留配对的括号

你好我亲爱的老师 R 用户朋友们我最近开始认真学习正则表达式最近我遇到了一种情况我们只想保留配对括号并省略未配对的这是我的样本数据 structure list t1 c Book Pg 1 Website Online Jou
在 Python 类中动态定义实例字段

我是 Python 新手主要从事 Java 编程我目前正在思考Python中的类是如何实例化的我明白那个 init 就像Java中的构造函数然而有时 python 类没有 init 方法在这种情况下我假设有一个默认构造函数就像
您可以在 Python 类型注释中指定方差吗？

你能发现下面代码中的错误吗米皮不能 from typing import Dict Any def add items d Dict str Any gt None d foo 5 d Dict str str add items d f

随机推荐

由于某种原因使用 FileWriter 和 BufferedWriter 清除文件？

由于某种原因当我在程序中创建新的 BufferedWriter 和 FileWriter 时即使我还没有使用它来写入任何内容它会清除我选择的文件的所有文本 selectedFile 由 JFileChooser 确定 public s
将模型字段转换和修改为 DataColumn 对象

在 ASP NET MVC 3 中我想在数据库创建时访问模型字段就好像它们是 DataColumn 类的对象一样以便我可以修改自动增量设置 http msdn microsoft com en us library system da
如何从 AngularJS 访问 Heroku 上的环境变量

我在 Heroku 上有 3 个 AngularJS 应用程序他们每个人都使用不同的 API 例如 angularjs dev 使用 api dev angularjs qa 使用 api qa 我创建了如下所示的常量文件 SITE de
jQuery fadeIn fadeOut 点击

我试图在单击另一个 div 时使 div 淡入并在单击另一个 div 时再次淡出这将是关闭按钮但我的代码不起作用我是否忘记了什么这是 CSS body margin 0 padding 0 text align center ba
编写 Django 脚本

使用 Django 设置模型实用程序等编写 python 脚本不在 Django 服务器应用程序中运行的最佳方法是什么从而能够通过批处理过程对应用程序数据库进行操作 EDIT 我需要在另一台服务器中使用它来对数据库进行相当复杂的操
不希望 mysql 自动将 String 转换为 Integer

我发现 MYSQL 从 String 到 Integer 的自动类型转换在我看来很奇怪 mysql gt select from isps where id 3ca6fb49 9749 3099 b30d 19ce56349ad6 OR u
为单例类制作装饰器——typescript

我正在使用 VueJS 和 Typescript 构建一个项目我觉得使用服务而不是像 Vuex 这样的任何状态管理库很舒服但是在编写服务时我必须始终在每个服务类中复制粘贴一些代码以使其成为单一的 class MyService pr
如何在 Android 中获取 Facebook 上的所有照片

我正在开发一个应用程序其中我将 Facebook SDK 用于不同的目的目前我已经实现了通过Facebook登录现在我的下一个任务是获取登录用户的所有照片并将其显示在网格中我正在关注 Facebook 官方开发者网站作为此任务的参考
使用 img srcset 处理响应式图像

我将 Angular 与材质一起使用并使用 img srcset 来处理标题的响应图像这就是我到目前为止正在做的事情 img src assets mtn bg 1600 jpg alt Header image 我对如何使用 srcs
TASM：乘法后如何在屏幕上打印寄存器对 dx:ax？

include io h cr equ 0dh lf equ 0ah stacksg segment stack dw 100 dup stacksg ends datasg segment prp1 db 1st Number cr lf
浏览器后退按钮

我使用以下代码行来禁用注销后浏览器后退按钮问题 function LogoutOnClick window history go 1 但是这段代码有一个问题假设我有三页第一页是登录页面 login cshtml 和第二个成功登录页面
使用 C# 远程更改 Windows Server 2008 计算机的计算机名称？

也许有人能够向我指出一个决定性的资源以了解如何使用 C 在 Windows Server 2008 计算机上远程更改计算机名称我已经查看了很多网站寻求帮助现在在我的任务的第二天并没有真正接近除了决定 WMI 几乎是我唯一的选择完
模板化转换构造函数无法访问受保护的数据成员

我有一个带有转换构造函数的模板类矩形它允许在矩形到矩形之间进行转换反之亦然但是在编译代码时编译器会给出错误指出构造函数无法访问类的受保护成员这是代码 include
Internet Explorer Web 开发人员工具栏是否可以使用弹出窗口？

我无法让 Internet Explorer Web 开发人员工具栏与弹出窗口一起使用它不会在弹出窗口的底部呈现有什么建议么有一个very具体方法是 open the developer tools via F12 or whatev
忽略标点符号并突出显示给定字符串中的模式

我有一个模型字符串和匹配模式列表我想突出显示给定模型字符串中的所有匹配模式即使模式模型中的任何单词包含标点符号示例字符串 Lorem Ipsum is simply dummy text of the printing and ty
为什么 Perl 有一个单独的“perl”编译器和“perlcc”前端？

我试图用我的 Perl 代码制作一个可执行文件然后我意识到没有这样的选项可用perl编译器经过一番搜索我发现perlcc http search cpan org dist B C script perlcc PL 它是 Perl 编
在 Meteor.js 中，为什么 this.userId == 未定义？

我正在通过阅读一本书来学习 Meteor 现在我们想要insert the userId当前登录的用户的 Template categories events keyup add category function e t if e whi
为基于 Web 的应用程序实现自动提醒电子邮件功能

我想为我的 Web 应用程序创建一个功能一旦用户输入我的数据库每 4 周就会向他们发送一封电子邮件提醒他们提供一些反馈等我听说 cron 工作就是我正在寻找的但我很好奇还有什么是否有一个 php 脚本存在或者有一个简单的方法来做
在 AWS Step Functions Parallel 状态下，如果一个分支失败，是否有办法确保其他分支继续运行直至完成？

我有一个具有并行状态的步进函数该函数有四个分支 A B C D 每个分支都有 3 个 Glue StartJobRun 任务状态如果分支 A 在第一个任务期间失败我如何确保其他分支在成功后继续执行其任务正如您在 AWS Step F
将 TAG 格式转换为语料库的正则表达式

我正在使用一个名为 AntConc 的语料库语言学工具其中有一个文档其中每个单词都被标记为词性名词形容词等并且您可以使用特定的命令来提取匹配项例如如果我正在寻找一个名词标记为 NN 我会使用 NN它会找到文档中的每个名词我

将 TAG 格式转换为语料库的正则表达式

将 TAG 格式转换为语料库的正则表达式 的相关文章

随机推荐

热门标签

将 TAG 格式转换为语料库的正则表达式的相关文章