我有一个包含网站和地址的 CSV 文件。我需要处理这个文件来生成一个 json 文件,我将在 Django 中使用该文件将初始数据加载到我的数据库中。为此,我需要将 CSV 文件中的所有特殊字符转换为 unicode 转义字符。
这是一个例子:
Örnsköldsvik;SE;Ornskoldsvik;Ångermanlandsgatan 28 A
应将其转换为:
\u00D6rnsk\u00F6ldsvik;SE;Ornskoldsvik;\u00C5ngermanlandsgatan 28 A
以下网站正在执行我期望的转换:http://itpro.cz/juniconv/ http://itpro.cz/juniconv/但我想找到一种方法从命令行(bash)或Python中做到这一点。我已经尝试过使用iconv
, uconv
以及一些没有真正成功的 python 脚本。
背后运行着什么样的脚本juniconv
网站?
预先感谢您的任何建议。
如果你想得到与 Java 类似的 Unicode 转义 https://docs.oracle.com/javase/specs/jls/se8/html/jls-3.html#jls-3.3在Python中;你可以使用 JSON 格式 http://www.json.org/:
>>> import json
>>> import sys
>>> s = u'Örnsköldsvik;SE;Ornskoldsvik;Ångermanlandsgatan 28 A'
>>> json.dump(s, sys.stdout)
"\u00d6rnsk\u00f6ldsvik;SE;Ornskoldsvik;\u00c5ngermanlandsgatan 28 A"
还有,unicode-escape
编解码器,但你不应该使用它:它会产生 Python 特定的转义(Python Unicode 字符串文字的样子):
>>> print s.encode('unicode-escape')
\xd6rnsk\xf6ldsvik;SE;Ornskoldsvik;\xc5ngermanlandsgatan 28 A
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)