我试图根据部分属性值来识别 html 文档中的标签。
例如,如果我有一个 Beautifulsoup 对象:
import bs4 as BeautifulSoup
r = requests.get("http:/My_Page")
soup = BeautifulSoup(r.text, "html.parser")
I want tr
标签有id
属性,其值的格式如下:“news_4343_23255_xxx”。我对任何一个都感兴趣tr
标签只要其前 4 个字符为“news”id
属性值。
我知道我可以按如下方式搜索:
trs = soup.find_all("tr",attrs={"id":True})
这给了我一切tr
标签与id
属性。
如何根据子字符串进行搜索?
Use regex to get tr
with id
从...开始"news"
Ex:
from bs4 import BeautifulSoup
import re
soup = BeautifulSoup(html, "html.parser")
for i in soup.find_all("tr", {'id': re.compile(r'^news')}):
print(i)
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)