在 awk match 函数的字符串参数中使用特殊字符。当前区域设置

2024-03-28

我在使用时遇到问题match函数于awk在包含特殊字符的字符串上。考虑文件test.awk:

{
    match($0,"(^.*)kon",a);
    print a[1];
}

以及相应的测试文件“test.txt”，其内容为“Testing Håkon”（注意挪威语字符“å”）。该文件采用“iso-8859-1”编码，长度为14字节。文件的十六进制转储由下式给出xxd -p test.txt as

54657374696e672048e56b6f6e0a

从中我们可以看到，挪威语字符“å”已被编码为十六进制数“e5”。即该文件使用iso-8859-1编码进行编码。

Running

awk  -f test.awk test.txt

在终端上没有给出任何内容..而正确的输出应该是“Testing Hå”..

运行的输出locale命令是：

LANG=en_DK.UTF-8
LANGUAGE=en_US:
LC_CTYPE="en_DK.UTF-8"
LC_NUMERIC="en_DK.UTF-8"
LC_TIME="en_DK.UTF-8"
LC_COLLATE="en_DK.UTF-8"
LC_MONETARY="en_DK.UTF-8"
LC_MESSAGES="en_DK.UTF-8"
LC_PAPER="en_DK.UTF-8"
LC_NAME="en_DK.UTF-8"
LC_ADDRESS="en_DK.UTF-8"
LC_TELEPHONE="en_DK.UTF-8"
LC_MEASUREMENT="en_DK.UTF-8"
LC_IDENTIFICATION="en_DK.UTF-8"
LC_ALL=

这表明“LANG”变量设置为 utf-8 编码。

我已将您的代码修改为：

{
    match($0,"(^.*)kon",a);
    print ">>>" a[1] "<<<";
}

运行结果GNU Awk 3.1.6在 Windows 7 下：

>>>Hå<<<

Ubuntu下运行GNU Awk 3.1.8 I get:

>>><<<

为了获得所需的输出，我必须暂时更改区域设置并进行翻译：

LC_ALL=ISO_8859-1 awk -f test.awk test.txt | iconv -f ISO_8859-1 -t UTF-8

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

characterencoding

awk

在 awk match 函数的字符串参数中使用特殊字符。当前区域设置的相关文章

shell解析json并循环输出组合变量

杰斯克喜欢我之前的话题 https stackoverflow com questions 74063588 shell parsing json contains spaces in string 我知道如何解析带有空格的简单 json
如何使用 bash 中提供的工具生成一系列非周末日期？

我想生成一个文件列表其中名称包含 filename date 例如file 20111101 file 20120703 开始November 1 2011直到今天应该不包括周末 Thanks 2011年试试这个 for y in 20
Ruby `split'：UTF-8 中的无效字节序列（ArgumentError）

我正在尝试填充电影对象但是在解析时u item文件我收到此错误 split UTF 8 中的无效字节序列 ArgumentError File open Data u item r do infile while line infile
打印文件的每第 n 列

我有一个相当大的文件有 255 个逗号分隔的列我只需要打印出每第三列我正在尝试这样的事情 awk for i 0 i lt NF i 3 print i file 但这似乎不是解决方案因为它只打印到一长列有人可以帮忙吗谢谢这是
使用 Python 2.7 和 MySQLdb 将二进制数据插入 MySQL 中的 blob 列时如何避免编码警告

我在将二进制数据插入到longblob使用 Python 2 7 中的 MySQLdb 在 MySQL 中的列但我收到一个编码警告我不知道如何解决 test py 11 Warning Invalid utf8 character st
PHP中特殊字符的转换

我已经尝试了很多功能但我根本无法弄清楚这一点无论如何正确的方法在称为描述的表单字段中我可以期待各种字符在将它们提交到数据库之前需要将它们格式化为 HTML 实体现在我的代码 formdesc htmlentities PO
如何将unicode文本转换为可读的utf8文本？

我遇到了关于 Unicode 和 utf8 的严重问题我将一段阿拉伯语波斯语文本文件保存到记事本中并保存现在我看到我的信息如下我的问题是如何取回我的数据取回这些数据对我来说很重要提前致谢该段落通过另存为代码页 1256 阿拉伯
带变量的 AWK 负正则表达式

我在 bash 脚本中使用 awk 来比较两个文件以获取不匹配的行我需要将第二个文件的所有三个字段作为一个模式与第一个文件的所有行进行比较第一个文件 chr1 9997 10330 HumanGM18558 peak 1 150 1
在 grails 中编写代理

我正在使用 Gralis 1 3 7 我正在编写一个控制器需要从另一台服务器获取 PDF 文件并将其返回给客户端我想以某种相当有效的方式来做到这一点例如 class DocController def view URL source
如何读取数据库文件并应用不同的解码？

我有一个 dbf 文件结束编码为 866 代码页 DOS 使用下面的代码我正在尝试阅读它问题是我得到的字符串的形成方式就好像文件位于代码页 1252 中一样我已经检查过 SO 和其他论坛上的其他问题到目前为止还没有运气寻找有关热门
在linux中将包含word的行从一个文件复制到另一个文件

我想复制包含某些单词的行file1 to file2 Suppose file1 ram 100 ct 50 gopal 200 bc 40 ravi 50 ct 40 krishna 200 ct 100 file2应该只有包含 ct 的
awk 反转行和单词

我对编程语言之类的东西很陌生所以我必须用 awk 反转文件中的所有行以及这些行中的所有单词并将其打印出来要反转的 File1 aa bb cc foo 做为 File1 的输出打印应该是这样的就像 foo 一样 cc bb aa 我在
awk - 连接两个字符串变量并分配给第三个

在 awk 中我有 2 个字段 1 和 2 它们都是我想要连接并分配给变量的字符串只需使用var var1 var2它会自动连接变量var1 and var2 awk new var 1 2 print new var file 您可以
如何比较两个文件中的多列并在找到匹配时从另一列检索相应的值

我有两个文件 File1 txt 和 File2 txt 我需要将 File1 中的三列 1 2 和 3 分别与 File2 的 4 5 和 6 进行比较如果找到匹配项我想从 File2 的第 2 列中检索相应的值并将其粘贴到输出中 T
如何使用 Bash 编写二进制文件？

我的问题是我需要创建一个包含以下确切字节的文件 48 00 49 00 我不能使用C perl 其他脚本语言目标是嵌入式设备我使用 awk 尝试过在桌面上它确实有效 awk BEGIN printf c c c c 48 00 49
awk 脚本中出现“BEGIN 块必须有操作部分”错误

这是我的代码 bin sh filename usr bin find name INSTANCE log echo filename is filename awk BEGIN print Processing file filename
将以反斜杠结尾的行与下一行 awk 连接起来（来自著名的 awk 单行解释）

这个练习来自于Peteris Krumins 的博客文章解释了 AWK 的俏皮话 http www catonmat net blog awk one liners explained part two 本质上是这条线 awk sub ge
awk 在循环中使用时不打印任何内容[重复]

这个问题在这里已经有答案了我有一堆使用 file 1 a 1 txt 格式的文件如下所示 A 1 B 2 C 3 D 4 并使用以下命令添加包含每个文件名称的新列 awk print FILENAME NF t 0 file 1 a 1
在 MySQL 中存储表情符号的编码问题：如何使用 Prisma ORM 在 NodeJS 中定义字符排序规则？

亲爱的 Nodejs 专家和数据库专家我们在 MySQL 数据库中存储表情符号和其他特殊字符时遇到问题我们使用 Prisma 得到一个错误这是我们使用的 ORM 参数无法从排序规则 utf8 general ci 转换为 utf8mb
有没有办法为Java的字符集名称添加别名

我收到一个异常埋藏在第 3 方库中消息如下 java io UnsupportedEncodingException BIG 5 我认为发生这种情况是因为 Java 没有定义这个名称java nio charset Charset Ch

随机推荐

条件编译和非类型模板参数

我无法理解非类型模板参数并希望有人能够阐明这一点 include
Cuda 和 OpenAI Whisper：强制使用 GPU 而不是 CPU 不起作用？

tldr 我的假设正确吗 torch cuda init device cuda and result model transcribe etc 应该足以强制使用 GPU 吗我检查了几个论坛帖子但找不到解决方案抱歉如果这很愚蠢我也
php多个if条件

当我尝试过滤所有这些参数时 php 只输入第一个 if 条件忽略所有其他条件 if t red lt 0 t red 0 else if t red gt 256 t red 255 else if t green lt 0 t red
为什么数组中的值保留在 while 循环中？ (VB.NET)

如果我在该行放置一个断点currentrow MyParser ReadFields currentrow 仍然包含从文件解析的上一行的值后currentrow MyParser ReadFields 执行时存储当前文件行值由于 cu
如何在C#中获得拉普拉斯方差

简而言之我试图使用 OpenCVSharp 作为 C 函数的一部分来计算图像的清晰度作为第一次尝试我使用了拉普拉斯滤波器如下所示 int kernel size 3 int scale 1 int delta 0 int ddept
比较器使用我的类的 String 字段进行比较？

我有一个 A 类型的对象列表我必须为 A 的一个 String 类型的字段对其进行排序 public class A public String field1 public Integer field2 如果我必须订购 int 字段我会
如何理解android绘制完视图？ [复制]

这个问题在这里已经有答案了可能的重复 Activity什么时候完成自己的绘制 https stackoverflow com questions 3171216 when has the activity finished drawing
我想计算 Watir 或 Selenium 中的页面加载时间

这是场景 1 Login to a web application with username and password and hit Enter Start timer 2 Load the login page lap timer s
Python。 argparse。删除不需要的参数

我正在解析一些命令行参数其中大多数需要传递给方法但不是全部 parser argparse ArgumentParser parser add argument d dir help Directory name type str de
Rails 中图像和 js/css 文件后的问号。为什么？

有谁知道为什么图像和css文件查看html代码时后面有问号带有数字我怎样才能将它们关闭 From Rails API 文档 http api rubyonrails com classes ActionView Helpers As
如何在 Laravel 4 中使用更新或插入？

我正在 Laravel 4 中构建一个应用程序我需要运行多个查询作为 UPDATE 或 INSERT 查询以避免重复插入时出现 PK 冲突我还没有找到任何方法来使用 Laravel 中的查询生成器来执行此操作我可以修改数据库类或类似
为什么接口不实现带有指针引用的方法，而仍然可以直接访问？

我确实理解接口没有按照 Go 规范和 FAQ 实现带有指针引用的方法因为 T 和 T 有不同的方法集 https golang org doc faq guarantee satisfies interface https golang
Elmah 对于其他 PHP

有没有一个Elmah https learn microsoft com en us aspnet web forms overview older versions getting started deploying web site p
奇怪的错误：无法渲染多边形

I use a MKMapView总共显示约 700 个注释我的问题是有时我会收到这样的巨大日志 2013 06 05 17 32 12 395 tiet 1493 1c52b Can t render polygon can t re
是否可以在解决方案中跨多个项目共享 web.config？（ASP.NET）

我有一个由 Web 应用程序和多个项目组成的解决方案是否可以在所有解决方案中共享 Web 应用程序中的配置 Thanks 我看起来是可能的你可以尝试以下操作您可以复制您的web config文件到解决方案的根文件夹然后创建解决方案文
异常 CX_SY_REF_IS_INITAL

我正在从类中设置方法调用 DATA r info TYPE REF TO zcl sv job offline ctrl CALL METHOD r info gt create EXPORTING is data lr test reco
为什么在托管模式下运行 GWT App Engine 应用程序时会出现 ClassNotPersistableException？

当我尝试对 GWT App Engine 应用程序的本地 JDO 数据存储执行查询时我随机收到 org datanucleus exceptions ClassNotPersistableException 仅当我在托管模式下运行应用程序
Python 的 difflib SequenceMatcher 加速

我使用 difflib SequenceMatcher ratio 方法来定义文本文件之间的相似性虽然 difflib 比较一小组文本文件的速度相对较快例如10 个 70 kb 的文件平均相互比较 46 次比较大约需要 80 秒这
Hive 左外连接长期运行

Hortonworks HDP 2 3 0 Hive 0 14 Table T1 partition on col1 no bucket ORC 应用程序 1 2 亿行和 6GB 数据大小Table T2 partition on col2
在 awk match 函数的字符串参数中使用特殊字符。当前区域设置

我在使用时遇到问题match函数于awk在包含特殊字符的字符串上考虑文件test awk match 0 kon a print a 1 以及相应的测试文件 test txt 其内容为 Testing H kon 注意挪威语字符该文件采

在 awk match 函数的字符串参数中使用特殊字符。当前区域设置

在 awk match 函数的字符串参数中使用特殊字符。当前区域设置 的相关文章

随机推荐

热门标签

在 awk match 函数的字符串参数中使用特殊字符。当前区域设置的相关文章