Python - 使用 BeautifulSoup 从 URL 列表中抓取文本的最简单方法

2024-05-27

使用 BeautifulSoup 从几个网页（使用 URL 列表）中抓取文本的最简单方法是什么？有可能吗？

最好的，乔治娜

import urllib2
import BeautifulSoup
import re

Newlines = re.compile(r'[\r\n]\s+')

def getPageText(url):
    # given a url, get page content
    data = urllib2.urlopen(url).read()
    # parse as html structured document
    bs = BeautifulSoup.BeautifulSoup(data, convertEntities=BeautifulSoup.BeautifulSoup.HTML_ENTITIES)
    # kill javascript content
    for s in bs.findAll('script'):
        s.replaceWith('')
    # find body and extract text
    txt = bs.find('body').getText('\n')
    # remove multiple linebreaks and whitespace
    return Newlines.sub('\n', txt)

def main():
    urls = [
        'http://www.stackoverflow.com/questions/5331266/python-easiest-way-to-scrape-text-from-list-of-urls-using-beautifulsoup',
        'http://stackoverflow.com/questions/5330248/how-to-rewrite-a-recursive-function-to-use-a-loop-instead'
    ]
    txt = [getPageText(url) for url in urls]

if __name__=="__main__":
    main()

现在它删除了 javascript 并解码了 html 实体。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

screenscraping

beautifulsoup

webscraping

Python - 使用 BeautifulSoup 从 URL 列表中抓取文本的最简单方法的相关文章

在 python 程序中合并第三方库的最佳实践是什么？

下午好我正在为我的工作编写一个中小型Python程序该任务需要我使用 Excel 库xlwt and xlrd 以及一个用于查询 Oracle 数据库的库称为CX Oracle 我正在通过版本控制系统即CVS 开发该项目我想知道围
如何在flask中使用g.user全局

据我了解 Flask 中的 g 变量它应该为我提供一个全局位置来存储数据例如登录后保存当前用户它是否正确我希望我的导航在登录后在整个网站上显示我的用户名我的观点包含 from Flask import g among other
为 Anaconda Python 安装 psycopg2

我有 Anaconda Python 3 4 但是每当我运行旧代码时我都会通过输入 source activate python2 切换到 Anaconda Python 2 7 我的问题是我为 Anaconda Python 3 4 安
通过最小元素比较对 5 个元素进行排序

我必须在 python 中使用元素之间的最小比较次数来建模对 5 个元素的列表进行排序的执行计划除此之外复杂性是无关紧要的结果是一个对的列表表示在另一时间对列表进行排序所需的比较我知道有一种算法可以通过 7 次比较总是在元素之间
如何使用 Ansible playbook 中的 service_facts 模块检查服务是否存在且未安装在服务器中？

我用过service facts检查服务是否正在运行并启用在某些服务器中未安装特定的软件包现在我如何知道这个特定的软件包没有安装在该特定的服务器上service facts module 在 Ansible 剧本中它显示以下错误
Spark KMeans 无法处理大数据吗？

KMeans 有几个参数training http spark apache org docs latest api python pyspark mllib html highlight kmeans pyspark mllib clus
以编程方式停止Python脚本的执行？ [复制]

这个问题在这里已经有答案了是否可以使用命令在任意行停止执行 python 脚本 Like some code quit quit at this point some more code that s not executed sys e
如何加速Python中的N维区间树？

考虑以下问题给定一组n间隔和一组m浮点数对于每个浮点数确定包含该浮点数的区间子集这个问题已经通过构建一个解决区间树 https en wikipedia org wiki Interval tree 或称为范围树或线段树已经针对一
从 Flask 访问 Heroku 变量

我已经使用以下命令在 Heroku 配置中设置了数据库变量 heroku config add server xxx xxx xxx xxx heroku config add user userName heroku config add
在Python中获取文件描述符的位置

比如说我有一个原始数字文件描述符我需要根据它获取文件中的当前位置 import os psutil some code that works with file lp lib open path to file p psutil Pro
使用 \r 并打印一些文本后如何清除控制台中的一行？

对于我当前的项目有一些代码很慢并且我无法使其更快为了获得一些关于已完成必须完成多少的反馈我创建了一个进度片段您可以在下面看到当你看到最后一行时 sys stdout write r100 80 n I use 80覆盖最终剩余的
Jupyter Notebook 内核一直很忙

我已经安装了 anaconda 并且 python 在 Spyder IPython 等中工作正常但是我无法运行 python 笔记本内核被创建它也连接但它始终显示黑圈忙碌符号防火墙或防病毒软件没有问题我尝试过禁用两者我也无法
将图像分割成多个网格

我使用下面的代码将图像分割成网格的 20 个相等的部分 import cv2 im cv2 imread apple jpg im cv2 resize im 1000 500 imgwidth im shape 0 imgheight i
对年龄列进行分组/分类

我有一个数据框说df有一个柱子 Ages gt gt gt df Age 0 22 1 38 2 26 3 35 4 35 5 1 6 54 我想对这个年龄段进行分组并创建一个像这样的新专栏 If age gt 0 age lt 2 the
Python：如何将列表列表的元素转换为无向图？

我有一个程序可以检索 PubMed 出版物列表并希望构建一个共同作者图这意味着对于每篇文章我想将每个作者如果尚未存在添加为顶点并添加无向边或增加每个合著者之间的权重我设法编写了第一个程序该程序检索每个出版物的作者列表并
发送用户注册密码，django-allauth

我在 django 应用程序上使用 django alluth 进行身份验证注册我需要创建一个自定义注册表单其中只有一个字段电子邮件密码将在服务器上生成这是我创建的表格 from django import forms from
使用 Python 的 matplotlib 选择在屏幕上显示哪些图形以及将哪些图形保存到文件中

我想用Python创建不同的图形matplotlib pyplot 然后我想将其中一些保存到文件中而另一些则应使用show 命令然而 show 显示all创建的数字我可以通过调用来避免这种情况close 创建我不想在屏幕上显示的绘图
Rocket UniData/UniVerse：ODBC 无法分配足够的内存

每当我尝试使用pyodbc连接到 Rocket UniData UniVerse 数据时我不断遇到错误 pyodbc Error 00000 00000 Rocket U2 U2ODBC 0302810 Unable to allocate
使用 XMLHTTP 进行抓取会在特定类名处引发错误

我正在尝试使用此代码抓取网站以提取姓名和联系人 Sub Test Dim htmlDoc As Object Dim htmlDoc2 As Object Dim elem As Variant Dim tag As Variant Dim
如何将输入读取为数字？

这个问题的答案是社区努力 help privileges edit community wiki 编辑现有答案以改进这篇文章目前不接受新的答案或互动 Why are x and y下面的代码中使用字符串而不是整数注意在Python 2

随机推荐

didDeselectRowAtIndexPath indexPath 为 nil

我有一个表视图控制器它实现了 TableView 委托方法 public override func tableView tableView UITableView didSelectRowAtIndexPath indexPath NS
写入 Windows 7“预览”窗口区域

如何使用 C 将控件写入或绘制到 Windows 7 预览区域作为我正在讨论的示例请在 Windows 7 中打开 Windows Media Player 并播放一首歌曲播放歌曲时最小化 Windows Media Player
使用搜索模式 '...\**\TEST-*.xml 找不到测试结果文件

我正在 TFS Nunit 加带有适配器的 Visual Studio 中运行测试并且我已设置构建定义如下构建成功但没有生成测试结果文件 TFS 是否写入此 Xml 文件日志 2017 02 08T08 08 40 8151428Z
需要同步仅增量计数器吗？

我使用整数作为计数器该整数只会增加并且肯定有多个线程会同时增加它当没有其他线程尝试访问其值时在程序执行结束时读取该计数器的值我假设我不必为这种仅增量计数器使用锁或任何类型的同步这是正确的吗如果这有什么区别的话我用 Java
从 IntelliJ 运行 JavaFX 应用程序

Versions openjdk版本 11 0 11 2021 04 20 OpenJDK 运行时环境 build 11 0 11 9 Ubuntu 0ubuntu2 20 10 OpenJDK 64 位服务器虚拟机内部版本 11 0 1
AttributeError：模块“matplotlib”没有属性“font_manager”

我安装了 matplotlib 但 python 3 8 10 显示了这个错误 AttributeError module matplotlib has no attribute font manager What i am doing w
在 jupyter 笔记本中运行 pytest 测试函数

我正在制作有关 python 测试选项的演示我想要演示的技术之一是 pytest 我计划使用 jupyter ipython 笔记本进行演示理想情况下我希望能够在单元格中定义一个测试函数然后使用 pytest 运行该函数这样我就可
将 MouseBindings 添加到数据绑定 WPF ListView 中的项目

我试图在用户单击 ListView 中的项目时执行 ViewModel 中的命令当我添加一个ListViewItem在 XAML 中我可以添加一个MouseBinding to its InputBindings
有两个切边的矩形

我不确定这个形状的具体名称是什么但我可以将其称为半平行四边形吗我想纯粹使用这个形状CSS CSS3 有什么帮助吗或教程您可以使用伪元素来完成此操作如下所示做法是从盒子的左下角和右上角剪出一个三角形只要主体背景是纯色此方法
为什么直接访问对象文字上的属性会引发语法错误？

当尝试访问该属性时a物体的 a 我收到错误 SyntaxError Unexpected token 有了括号一切都很好 a 为什么我首先会收到错误有歧义吗花括号被解释为块语句 http es5 github com x12 html
UITableViewHeader 的 UISearchBar 子视图？

我想将 UISearchBar 添加到已有标题视图的 UITableView 中当我尝试将搜索栏添加到现有标题视图时它会一直工作直到我点击它此时我得到The view hierarchy is not prepared for th
Apache“无法初始化模块”，因为更改 PHP 配置后模块和 PHP 的 API 不匹配

php v 给出了这个 PHP Warning PHP Startup memcache Unable to initialize module Module compiled with module API 20060613 PHP co
如何在 Django 管理中的 TabularInline 表单集中设置默认值

如何在 django admin 的内联中设置第一个默认行值 class Employee models Model username models CharField Username max length 150 null False
在 iOS 上使用 OpenGL ES 2.0 进行实例化绘制

简而言之谁能确认是否可以使用内置变量gl InstanceID or gl InstanceIDEXT 在 iOS 上使用 OpenGL ES 2 0 的顶点着色器中GL EXT draw instanced启用 Longer 我想使用绘
检查数组中是否有 3 个连续值高于某个阈值

假设我有一个像这样的 np array a 1 3 4 5 60 43 53 4 46 54 56 78 有没有一种快速方法来获取 3 个连续数字都高于某个阈值的所有位置的索引也就是说对于某个阈值th 得到所有x其中 a x gt th
让 Google 地图在刷新后保留缩放和居中？

如何让 Google 地图保留用户的视图缩放级别和 HTTP 刷新后现在它会在每次刷新后重置视图我可以调整代码吗下面说 zoom 当前缩放级别和 center 当前中心位置以某种方式 function initialize
如何在猫鼬中使用聚合

如何在 mongoose 中定义以下 MongoDB 聚合查询 db contacts aggregate group id code Code name Name 查询的目的是获取不同代码和名称的列表我当前的模型代码是 use stri
域名 foo.bar 指向 127.0.53.53 ——为什么？

我今天刚刚注意到域名 foo bar 解析为 127 0 53 53 http foo bar http foo bar http whois domaintools com foo bar http whois domaintools c
打开我网站上的链接不起作用

在我的网站上我有一个我正在尝试获取工作的链接我有一个遵循正常格式的链接即 href 以 www youtube com 作为目标链接并在末尾添加 target blank 当我单击该链接时托管我的网站的网站会显示一条错误消息当我
Python - 使用 BeautifulSoup 从 URL 列表中抓取文本的最简单方法

使用 BeautifulSoup 从几个网页使用 URL 列表中抓取文本的最简单方法是什么有可能吗最好的乔治娜 import urllib2 import BeautifulSoup import re Newlines re c

Python - 使用 BeautifulSoup 从 URL 列表中抓取文本的最简单方法

Python - 使用 BeautifulSoup 从 URL 列表中抓取文本的最简单方法 的相关文章

随机推荐

热门标签

Python - 使用 BeautifulSoup 从 URL 列表中抓取文本的最简单方法的相关文章