如何通过匹配 BeautifulSoup 中元素属性中的文本来获取元素

2023-12-01

我有这个代码

<a title="Next Page - Results 1 to 60 " href="bla bla" class="smallfont" rel="next">&gt;</a>

我想抓住a元素并获取 href 。

我怎样才能匹配title属性与Next Page

我想部分匹配标题属性中的文本a元素。

有许多a页面上的标签与其类似,但唯一的区别是title属性包含"Next Page或者文本是>.


您必须使用正则表达式来完成您想要的事情。

首先将整个标记作为字符串并制作BeautifulSoup反对它。

然后使用.findAll的方法BeautifulSoup对象如下

import BeautifulSoup
import re

soup = BeautifulSoup('<a title="Next Page - Results 1 to 60 " href="bla bla" class="smallfont" rel="next">&gt;</a>')

elements = soup.findAll('a', {'title':re.compile('Next Page.')}) 
# get all 'a' elements with 'title' attribute as 'Next Page something' into a list

for e in elements:
    if str(e.string) == '>' or e.string == '&gt;': # check if string inside 'a' tag is '>'
        print e['href']
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何通过匹配 BeautifulSoup 中元素属性中的文本来获取元素 的相关文章

随机推荐