我正在尝试解析一个网站以提取存储在正文中的一些数据,如下所示:
<body>
<b>INFORMATION</b>
Hookups: None
Group Sites: No
Station: No
<b>Details</b>
Ramp: Yes
</body>
我想使用 BeautifulSoup4 和 RegEx 来提取 Hookups 和 Group Sites 等的值,但我对 bs4 和 RegEx 都是新手。我已尝试以下方法来获取连接值:
soup = BeautifulSoup(open('doc.html'))
hookups = soup.find_all(re.compile("Hookups:(.*)Group"))
但搜索结果却是空的。
美丽汤find_all
仅适用于tags。实际上,假设 HTML 就是这么简单,您只需使用纯正则表达式即可获得所需的内容。否则你可以使用find_all
然后得到.text
nodes.
re.findall("Hookups: (.*)", open('doc.html').read())
您还可以使用标签内容进行搜索text
从 BeautifulSoup 4.2 开始的属性
soup.find_all(text=re.compile("Hookups:(.*)Group"));
编辑:从 BeautifulSoup 4.4 开始,text
参数被命名为string
.
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)