我有一个大文本文件,其中包含一些导致 LaTeX 崩溃的 unicode 字符。如何在 Linux bash 中使用 sed 等查找文件中的非 ASCII 字符?
Try:
nonascii() { LANG=C grep --color=always '[^ -~]\+'; }
可以这样使用:
printf 'ŨTF8\n' | nonascii
Within []
^
意思是“不”。所以[^ -~]
表示不在空格和~之间的字符。因此,排除控制字符,它匹配非 ASCII 字符,并且是一个更可移植但稍微不太准确的版本[^\x00-\x7f]
以下。这\+
means 1 or more
并使多字节字符在整个字符周围显示颜色,而不是散布在每个字节中,从而破坏多字节序列
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)