我正在尝试使用正则表达式来解析XML
文件(就我而言,这似乎是最简单的方法)。
例如,一行可能是:
line='<City_State>PLAINSBORO, NJ 08536-1906</City_State>'
要访问标签 City_State 的文本,我使用:
attr = re.match('>.*<', line)
但没有返回任何内容。
有人可以指出我做错了什么吗?
你通常不想使用re.match
. 引用自文档 http://docs.python.org/2/library/re.html#re.match:
如果您想在字符串中的任何位置找到匹配项,请使用search() http://docs.python.org/2/library/re.html#re.search相反(另见search() 与 match() http://docs.python.org/2/library/re.html#search-vs-match).
Note:
>>> print re.match('>.*<', line)
None
>>> print re.search('>.*<', line)
<_sre.SRE_Match object at 0x10f666238>
>>> print re.search('>.*<', line).group(0)
>PLAINSBORO, NJ 08536-1906<
另外,当你可以使用类似的东西时,为什么还要用正则表达式解析 XMLBeautifulSoup http://www.crummy.com/software/BeautifulSoup/ :).
>>> from bs4 import BeautifulSoup as BS
>>> line='<City_State>PLAINSBORO, NJ 08536-1906</City_State>'
>>> soup = BS(line)
>>> print soup.find('city_state').text
PLAINSBORO, NJ 08536-1906
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)