我注意到一个非常烦人的错误:BeautifulSoup4(包:bs4
)经常会发现比以前版本更少的标签(包:BeautifulSoup
).
这是该问题的一个可重现的实例:
import requests
import bs4
import BeautifulSoup
r = requests.get('http://wordpress.org/download/release-archive/')
s4 = bs4.BeautifulSoup(r.text)
s3 = BeautifulSoup.BeautifulSoup(r.text)
print 'With BeautifulSoup 4 : {}'.format(len(s4.findAll('a')))
print 'With BeautifulSoup 3 : {}'.format(len(s3.findAll('a')))
Output:
With BeautifulSoup 4 : 557
With BeautifulSoup 3 : 1701
正如您所看到的,差异并不小。
以下是模块的确切版本,以防有人想知道:
In [20]: bs4.__version__
Out[20]: '4.2.1'
In [21]: BeautifulSoup.__version__
Out[21]: '3.2.1'
你有lxml
已安装,这意味着BeautifulSoup 4将使用that标准库上的解析器html.parser
option.
您可以将 lxml 升级到 3.2.1(对我来说,它会为您的测试页返回 1701 个结果); lxml本身使用libxml2
and libxslt
这也可能是罪魁祸首。您可能需要升级those相反/也。请参阅lxml 需求页面;目前建议使用 libxml2 2.7.8 或更高版本。
或者在解析 soup 时显式指定其他解析器:
s4 = bs4.BeautifulSoup(r.text, 'html.parser')
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)