Python+BeautifulSoup：从网页中抓取特定的表

2024-01-21

我正在尝试从以下位置抓取特定的表格：这个网页 http://biz.yahoo.com/c/s.html

我想要抓取的是股票信息。日期、公司名称、比例以及是否可选。

这是我到目前为止所拥有的：

from bs4 import BeautifulSoup
import urllib2

url = "http://biz.yahoo.com/c/s.html"
page = urllib2.urlopen(url) 
soup = BeautifulSoup(page.read())

alltables = soup.find_all('table')

这段代码为我提供了页面上的所有表格（不止一个）。

1）我不知道如何识别我需要的表。

2）我不确定如何将该表中的信息提取到数组或列表或其他可用于进一步分析的数据结构中。

标记并不容易抓取 - 没有id或具体class您可以使用这些属性来区分各个表。在这种情况下我会做的是find a Payable标题单元格并找到第一个table parent http://www.crummy.com/software/BeautifulSoup/bs4/doc/#find-parents-and-find-parent:

header = soup.find("b", text="Payable")
table = header.find_parent("table")

然后，您可以迭代表行，跳过前 2 个标题和带有分隔符的行：

for row in table.find_all("tr")[2:]:
    print([cell.get_text(strip=True) for cell in row.find_all("td")])

并且，您可以将其转换为列表的列表：

[[cell.get_text(strip=True) 
  for cell in row.find_all("td")]
 for row in table.find_all("tr")[2:]]

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

webscraping

beautifulsoup

Python+BeautifulSoup：从网页中抓取特定的表的相关文章

使用 MongoDB 作为我们的主数据库，我应该使用单独的图数据库来实现实体之间的关系吗？

我们目前正在为一家专业公司内部实施类似 CRM 的解决方案由于存储信息的性质以及信息的不同值和键我们决定使用文档存储数据库因为它完全适合目的在本例中我们选择 MongoDB 作为此 CRM 解决方案的一部分我们希望存储实体之间的关
Pandas set_levels，如何避免标签排序？

我使用时遇到问题set levels多索引 from io import StringIO txt Name Height Age Metres A 1 25 B 95 1 df pd read csv StringIO txt heade
pandas DataFrame.join 的运行时间是多少（大“O”顺序）？

这个问题更具概念性理论性与非常大的数据集的运行时间有关所以我很抱歉没有一个最小的例子来展示我有一堆来自两个不同传感器的数据帧我需要最终将它们连接成两个very来自两个不同传感器的大数据帧 df snsr1 and df snsr2
Django Rest Framework 是否有第三方应用程序来自动生成 swagger.yaml 文件？

我有大量的 API 端点编写在django rest framework并且不断增加和更新如何创建和维护最新的 API 文档我当前的版本是 Create swagger yaml文件并以某种方式在每次端点更改时自动生成然后使用此文件作
如何从Python中的函数返回多个值？ [复制]

这个问题在这里已经有答案了如何从Python中的函数返回多个变量您可以用逗号分隔要返回的值 def get name you code return first name last name 逗号表示它是一个元组因此您可以用括号将值括
从Django中具有外键关系的两个表中检索数据？ [复制]

这个问题在这里已经有答案了 This is my models py file from django db import models class Author models Model first name models CharFie
Java 和 Python 可以在同一个应用程序中共存吗？

我需要一个 Java 实例直接从 Python 实例数据存储中获取数据我不知道这是否可能数据存储是否透明唯一或者每个实例如果它们确实可以共存都有其单独的数据存储总结一下 Java 应用程序如何从 Python 应用程序的数据存
使用 Python Oauthlib 通过服务帐户验证 Google API

我不想使用适用于 Python 的 Google API 客户端库但仍想使用 Python 访问 Google APIOauthlib https github com idan oauthlib 创建服务帐户后谷歌开发者控制台 http
无法导入 langchain.agents.load_tools

我正在尝试使用 LangChain Agents 但无法导入 load tools 版本 langchain 0 0 27 我尝试过这些 from langchain agents import initialize agent from
未知错误：Chrome 无法启动：异常退出

当我使用 chromedriver 对 Selenium 运行测试时出现此错误 selenium common exceptions WebDriverException Message unknown error Chrome fail
通过Python连接到Bigquery：ProjectId和DatasetId必须非空

我编写了以下脚本来通过 SDK 将 Big Query 连接到 Python 如下所示 from google cloud import bigquery client bigquery Client project My First Pr
Django REST Framework - CurrentUserDefault 使用

我正在尝试使用CurrentUserDefault一个序列化器的类 user serializers HiddenField default serializers CurrentUserDefault 文档说为了使用它请求必须作为
将 Matlab 的 datenum 格式转换为 Python

我刚刚开始从 Matlab 迁移到 Python 2 7 在读取 mat 文件时遇到一些问题时间信息以 Matlab 的日期数字格式存储对于那些不熟悉它的人日期序列号将日历日期表示为自固定基准日期以来已经过去的天数在 MATLAB
如何使用 Python 3 检查目录是否包含文件

我到处寻找这个答案但找不到我正在尝试编写一个脚本来搜索特定的子文件夹然后检查它是否包含任何文件如果包含则写出该文件夹的路径我已经弄清楚了子文件夹搜索部分但检查文件却难倒了我我发现了有关如何检查文件夹是否为空的多个建议并且我尝
带有 LSTM 的 GridSearchCV/RandomizedSearchCV

我一直在尝试通过 RandomizedSearchCV 调整 LSTM 的超参数我的代码如下 X train X train reshape X train shape 0 1 X train shape 1 X test X test
为什么 csv.DictReader 给我一个无属性错误？

我的 CSV 文件是 200 Service 我放入解释器的代码是 snav csv DictReader open screennavigation csv delimiter print snav fieldnames 200 for
如果 PyPy 快 6.3 倍，为什么我不应该使用 PyPy 而不是 CPython？

我已经听到很多关于PyPy http en wikipedia org wiki PyPy项目他们声称它比现有技术快 6 3 倍CPython http en wikipedia org wiki CPython口译员开启他们的网站 ht
每当使用 import cv2 时 OpenCV 都会出错

我在终端上使用 pip3 install opencv contrib python 安装了 cv2 并且它工作了但是每当我尝试导入 cv2 或运行导入了 cv2 的 vscode 文件时在 python IDLE 上它都会说 Trac
如何将 Django 中的权限添加到模型并使用 shell 进行测试

我在模型中添加了 Meta 类并同步了数据库然后在 shell 中创建了一个对象它返回 false 所以我真的无法理解错误在哪里或者缺少什么是否在其他文件中可能存在某种配置 class Employer User Employer in
等待子进程使用 os.system

我用了很多os system在 for 循环内调用创建后台进程如何等待所有后台进程结束 os wait告诉我没有子进程 ps 我使用的是Solaris 这是我的代码 usr bin python import subprocess imp

随机推荐

如何使用 PyAutoGUI 检测按键事件？

如何使用 PyAutoGUI 检测按键事件在我的研究中我无法在这个模型中举例 import pyautogui num 0 if pyautogui press b I know the right thing is not to us
段落标签不包含块元素

如何在 HTML 段落标记中放置块元素当我尝试这样做时 Firebug 的 HTML 选项卡显示该段落未包含块元素此外应用于段落的任何 CSS 都不适用于子块元素这段代码 p p ol li foo li li bar li ol
如何在 Conda environment.yml 中指定版本范围

是否可以在conda包的environment yml文件中指定版本范围 The 官方文档 https conda io projects conda en latest user guide tasks manage environmen
Flink：将文件与kafka流连接

我有一个问题我真的无法弄清楚所以我有一个 kafka 流其中包含一些如下数据 adId 9001 eventAction start eventType track eventValue timestamp 1498118549550
为了性能，使用一个还是多个css文件？

我想知道CSS文件是制作一个还是多个文件更好我总是看到有大量 css 文件的网站但它看起来更好 http developer yahoo com performance rules html num http仅使用一个大文件你有什么建
如何使用 Google Cloud Dataflow 将压缩文件写入 Google Cloud Storage？

我正在尝试将 Gzipped 文件写入 Google Dataflow 程序中的 Google Cloud Storage 存储桶中常见问题解答说 Does the TextIO source and sink support compr
通知高度不正确“match_parent”

我尝试使用以下 xml 代码创建自定义视图
您建议使用哪种 Java 嵌入式 VM 进行 ARM 开发？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案有很多 Java 嵌入式 VM 您对 ARM 开发有何建议 http www cacaovm org http www cacaovm o
ttl 在 cassandra 创建墓碑

我只对 cassandra 进行插入插入时仅插入非空值以避免墓碑但插入 TTL 的记录很少但是然后从表中执行 select count 会出现以下错误读取 76 个活动行和 1324 个逻辑删除单元以进行查询 SELECT FRO
Vue test-utils 如何测试 router.push()

在我的组件中我有一个方法将执行router push import router from router export default methods closeAlert function if this msgTypeContactF
这是 iOS14 中预期的 @State var 行为还是一个错误？

当我在 iOS14 sim 或设备上运行为 iOS14 编译的以下代码时更新的 State 变量选择不会传递到显示为 sheet 确切的代码在 iOS 13 5 sim 或 13 6 设备上运行正常如果我在视图中的某个位置放置一个文
Android 操作栏标签栏分隔线

我在设置分隔线的可绘制对象时遇到问题我的 style xml 如下所示
dtruss 在 OS X 10.11 上的 ps 上失败

我想看看是哪个系统调用ps用于获取 OS X 10 11 El Capitan 上进程的命令行并遇到以下错误 dtruss ps p 43520 o args dtrace failed to execute ps dtrace cann
运行时错误：无法创建链接（名称已存在）Keras

当我保存模型时出现以下错误 RuntimeError Traceback most recent call last
在旋转动画期间更新属性

我正在 Kotlin 中制作旋转动画并且在每个动画之后我想设置一个净rotationStart和rotationEnd 其中rotationStart值最初应设置为 0 然后假设每次旋转后的rotationEnd值 val rand Ra
NSWindow 中的底部栏

我正在 Cocoa 中开发一个应用程序我需要在窗口的底部栏显示进度但我正在寻找一种解决方案将底部栏放入NSWindow 期待解决方案这是在窗口底部放置一个栏的代码就像在取景器中一样 theWindow setContentBord
使用中的 Gunicorn 连接：('0.0.0.0', 5000)

我今天下午安装了 redis 它导致了一些错误所以我卸载了它但是当我使用以下命令启动应用程序时此错误仍然存在foreman start 关于修复有什么想法吗 foreman start 22 46 26 web 1 started
.net 4.0 中并行网络爬虫的最佳实践

我需要通过代理下载很多页面构建多线程网络爬虫的最佳实践是什么 Parallel For Foreach 是否足够好还是对于繁重的 CPU 任务更好您对以下代码有何看法 var multyProxy new MultyProxy mul
如何在 IBM Worklight 中设置 MySQL

我刚刚了解了IBM Worklight 我想知道如何设置和配置MySQL数据库我已经设置了Worklight Adapter 但是我不知道如何用MySQL创建数据库您应该通过IBM Worklight 入门 http www ibm
Python+BeautifulSoup：从网页中抓取特定的表

我正在尝试从以下位置抓取特定的表格这个网页 http biz yahoo com c s html 我想要抓取的是股票信息日期公司名称比例以及是否可选这是我到目前为止所拥有的 from bs4 import BeautifulSo

Python+BeautifulSoup：从网页中抓取特定的表

Python+BeautifulSoup：从网页中抓取特定的表 的相关文章

随机推荐

热门标签

Python+BeautifulSoup：从网页中抓取特定的表的相关文章