我在维基百科上查看中文字符的编码,但无法弄清楚它们正在使用什么。例如“的”被编码为“%E7%9A%84”(see here http://upload.wikimedia.org/wikipedia/commons/thumb/a/ae/%E7%9A%84-order.gif/24px-%E7%9A%84-order.gif)。这是三个字节,但是没有描述任何编码在本页 http://www.khngai.com/chinese/charmap/使用三个字节来表示汉字。例如,UTF-8 使用 2 个字节。
我基本上试图将这三个字节与实际字符匹配。关于它可能是什么编码有什么建议吗?
>>> c='\xe7\x9a\x84'.decode('utf8')
>>> c
u'\u7684'
>>> print c
的
though Unicode encodes it in 16 bits, utf8 breaks it down to 3 bytes.
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)