技能树-网络爬虫-BeautifulSoup

2023-10-31

文章目录

前言
一、获取所有p标签
二、获取所有text
三、获取所有图片地址
总结

前言

技能树-网络爬虫-BeautifulSoup
Python入门技能树

大家好，我是空空star，本篇给大家分享一下《技能树-网络爬虫-BeautifulSoup》。

一、获取所有p标签

获取所有p标签里的文本

# -*- coding: UTF-8 -*-
from bs4 import BeautifulSoup

def fetch_p(html):
    # TODO(You): 请在此实现代码
    return results

if __name__ == '__main__':
    html = '''
        <html>
            <head>
                <title>这是一个简单的测试页面</title>
            </head>
            <body>
                <p class="item-0">body 元素的内容会显示在浏览器中。</p>
                <p class="item-1">title 元素的内容会显示在浏览器的标题栏中。</p>
            </body>
        </html>
        '''
    p_text = fetch_p(html)
    print(p_text)

请选出下列能正确实现这一功能的选项。
A.

def fetch_p(html):
   soup = BeautifulSoup(html, ‘lxml’)
   p_list = soup.xpath(“p”)
   results = [p.text for p in p_list]
   return results

def fetch_p(html):
   soup = BeautifulSoup(html, ‘lxml’)
   p_list = soup.find_all(“p”)
   results = [p.text for p in p_list]
   return results

def fetch_p(html):
   soup = BeautifulSoup(html, ‘lxml’)
   results = soup.find_all(“p”)
   return results

def fetch_p(html):
   soup = BeautifulSoup(html, ‘lxml’)
   p_list = soup.findAll(“p”)
   results = [p.text for p in p_list]
   return results

分析：
A是错的，没有xpath方法；
B是对的，
['body 元素的内容会显示在浏览器中。', 'title 元素的内容会显示在浏览器的标题栏中。']
C是错的，获取到的不仅有文本，还有标签
[<p class="item-0">body 元素的内容会显示在浏览器中。</p>, <p class="item-1">title 元素的内容会显示在浏览器的标题栏中。</p>]
D也是对的，在BeautifulSoup中，find_all()和findAll()是等价的方法，都用于查找文档中符合条件的所有tag。它们的参数都可以传入tag名称、属性名或属性值等。
之所以有这两个方法的不同写法，是因为BeautifulSoup早期的版本使用的是findAll()方法，而后续版本为了与Python的命名规范保持一致，增加了find_all()方法，但实际上它们的功能和用法是完全相同的。

二、获取所有text

获取网页的text

# -*- coding: UTF-8 -*-
from bs4 import BeautifulSoup

def fetch_text(html):
    # TODO(You): 请在此实现代码
    return result

if __name__ == '__main__':
    html = '''
        <html>
            <head>
                <title>这是一个简单的测试页面</title>
            </head>
            <body>
                <p class="item-0">body 元素的内容会显示在浏览器中。</p>
                <p class="item-1">title 元素的内容会显示在浏览器的标题栏中。</p>
            </body>
        </html>
        '''
    text = fetch_text(html)
    print(text)

请选出下列能正确实现这一功能的选项。
A.

def fetch_text(html):
    soup = BeautifulSoup(html, 'lxml')
    result = soup.find_all('text')
    return result

def fetch_text(html):
    soup = BeautifulSoup(html, 'lxml')
    result = soup.text
    return result

def fetch_text(html):
    soup = BeautifulSoup(html, 'lxml')
    result = soup.find_text()
    return result

def fetch_text(html):
    soup = BeautifulSoup(html, 'lxml')
    result = soup.text()
    return result

分析：
A是错的，find_all是根据tag查，该题目是要求获得文本，而不是获得tag为text的；
B是对的，



这是一个简单的测试页面


body 元素的内容会显示在浏览器中。
title 元素的内容会显示在浏览器的标题栏中。




Process finished with exit code 0

C是错的，没有find_text()；
D是错的，没有text()

三、获取所有图片地址

查找网页里所有图片地址

from bs4 import BeautifulSoup

def fetch_imgs(html):
    # TODO(You): 请在此实现代码
    return imgs

def test():
    imgs = fetch_imgs(
        '<p><img src="http://example.com"/><img src="http://example.com"/></p>')
    print(imgs)

if __name__ == '__main__':
    test()

请选出下列能正确实现这一功能的选项。
A.

def fetch_imgs(html):
    soup = BeautifulSoup('html.parser', html)
    imgs = [tag['src'] for tag in soup.find_all('img')]
    return imgs

def fetch_imgs(html):
    soup = BeautifulSoup(html, 'html.parser')
    imgs = [tag['src'] for tag in soup.find_all('img')]
    return imgs

def fetch_imgs(html):
    soup = BeautifulSoup(html, 'html.parser')
    imgs = [tag for tag in soup.find_all('img')]
    return imgs

def fetch_imgs(html):
    soup = BeautifulSoup(html, 'html.parser')
    imgs = soup.find_all('img')
    return imgs

分析：
A是错的，BeautifulSoup中参数写反了；
B是对的，['http://example.com', 'http://example.com']
C是错的，会把img的标签也会带上，
[<img src="http://example.com"/>, <img src="http://example.com"/>]
D是错的，会把img的标签也会带上，
[<img src="http://example.com"/>, <img src="http://example.com"/>]

总结

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

网络爬虫

爬虫

beautifulsoup

python

技能树-网络爬虫-BeautifulSoup 的相关文章

如何使用 PrimaryKeyRelatedField 更新多对多关系上的类别

Django Rest 框架有一个主键相关字段 http www django rest framework org api guide relations primarykeyrelatedfield其中列出了我的 IDmany to m
pytest找不到模块[重复]

这个问题在这里已经有答案了我正在关注pytest 良好实践 https docs pytest org en latest explanation goodpractices html test discovery或者至少我认为我是但是
JSON：TypeError：Decimal（'34.3'）不是JSON可序列化的[重复]

这个问题在这里已经有答案了我正在运行一个 SQL 查询它返回一个小数列表当我尝试将其转换为 JSON 时出现类型错误查询 res db execute SELECT CAST SUM r SalesVolume 1000 0 AS
NLTK：查找单词大小为 2k 的上下文

我有一个语料库我有一个词对于语料库中该单词的每次出现我想获取一个包含该单词之前的 k 个单词和该单词之后的 k 个单词的列表我在算法上做得很好见下文但我想知道 NLTK 是否提供了一些我错过的功能来满足我的需求 def size
如何在不使用外部库（如Numpy、Pandas）的情况下读取CSV文件？

这是面试中经常出现的问题我知道如何使用读取 csv 文件Pandas 然而我正在努力寻找一种在不使用外部库的情况下读取文件的方法 Python 是否带有任何可以帮助读取 csv 文件的模块你最有可能将需要用于读取 CSV 文件的库虽
py2exe - 没有系统模块“pywintypes”

我正在尝试将一个简单的 Python 脚本转换为 Windows 可执行文件我的 setup py 脚本是 from distutils core import setup import py2exe setup name Simple
如何使用python 3.9的typing.Annotation MaxLen？

我知道有这种新的打字格式Annotated您可以在其中为函数的入口变量指定一些元数据来自文档 https docs python org 3 library typing html typing Annotated 您可以指定传入列表的最
为什么静态绑定对于类和函数的工作方式不同？

在 python 中在 2 7 6 上测试所有变量都是在编译时静态绑定到范围这个过程很好描述于http www python org dev peps pep 0227 http www python org dev peps p
如何在 Google App Engine (GAE) 上使用 bcrypt？ [复制]

这个问题在这里已经有答案了我发现了一个 python 的 bcrypt 库它似乎非常容易使用比特加密 1 0 1 https pypi python org pypi bcrypt 1 0 1 安装它并在我的本地计算机上测试 hell
pyinstaller错误：OSError：[WinError 6]句柄无效

该文件使用终端命令获取 wifi 密码netsh wlan show profiles我之前使用 pyinstaller 创建了一些 exe 它们工作得很好代码 import subprocess import time import s
如何根据图像中的对象大小（以像素为单位）来测量现实世界中的对象大小（例如英寸、厘米等）？

我计算了物体的大小pixel来自包含对象的图像我想测量现实世界中物体的大小有没有办法找出乘数来测量实际尺寸我目前正在使用python以便实施通常您将使用相机获取图像该相机通过镜头将 3 维场景投影到 2 维传感器上垂直高度
通过命令行使用 Python 进行交互式绘图

我正在尝试使用 Python 以及 numpy 和 matplotlib 库进行一些数据分析和绘图并查看我的绘图相应地调整我的代码等所以我需要能够检查绘图但是从命令行运行脚本会导致该图形暂时弹出然后立即消失另一个答案建议添加一个r
.py 文件和 .ipy 文件有什么区别？

我尝试过以两种方式保存并运行脚本并使用两种方式运行它ipython and python 但我没有看到任何区别这些文件扩展名是多余的吗 Edit python 和 ipython 之间的区别 https stackoverflow
仅在代码的某些部分记录打印两次

我一直在使用自定义格式化程序在代码中登录到终端最近我一直在更改代码中的内容但我找不到为什么现在在代码的某些部分日志被打印两次这是自定义格式化程序的代码 import logging class MyFormatter logging
pip install MySQL-python 在 ubuntu 14.04 上失败，错误：命令“x86_64-linux-gnu-gcc”失败，退出状态为 1

我已经阅读了所有要安装的软件包列表的堆栈溢出谷歌建议但似乎都没有解决这个问题将 ubuntu 14 04 Web 服务器从美国托管提供商迁移到欧洲的 DigitalOcean 两者都配置了相同的 Ansible playbook 但美
pyspark中的函数input()

我的问题是当我输入 p 的值时没有任何反应它不执行请问有办法修复它吗 import sys from pyspark import SparkContext sc SparkContext local simple App p inp
姜戈。列出静态文件夹中的文件

我遇到的一件看似基本的事情是将一个简单的静态文件列表例如我的服务器上单个存储库目录的内容呈现为链接列表这是否安全是另一个问题但假设我想这样做这就是我的工作目录的样子我想将模板中分析文件夹的所有文件作为链接列出 I have tr
python numpy savetxt

有人可以指出我在这里做错了什么吗 import numpy as np a np array 1 2 3 4 5 dtype int b np array a b c d e dtype S1 np savetxt test txt zip
Python 将 *args 转换为列表

这就是我正在寻找的 def init self args list of args magic Parent init self list of args 我需要将 args 传递给单个数组以便 MyClass init a b c Pa
本地化：django-admin compilemessages 跳过 venv

我正在使用本地化Django 1 11应用我可以排除虚拟环境文件夹node modules文件夹同时使用消息文件添加消息 i选项如 django admin makemessages l no i venv django admin m

随机推荐

YOLOv3 从入门到部署（四）YOLOv3模型导出onnx（基于pytorch）

YOLOv3 从入门到部署四 YOLOv3模型导出onnx 基于pytorch 文章目录 YOLOv3 从入门到部署四 YOLOv3模型导出onnx 基于pytorch 目录概述 pytorch导出onnx采坑转onnx代码使用D
postgresql ERROR: could not load library plpgsql.so的处理

1 创建function时遇到ERROR could not load library plpgsql so 多半是因为使用了旧的版本 2 查看postgresql版本 3 寻找对应版本的so档案替换目前使用的plpgsql so 4 大功
Linux系统分区方案

我个人服务器配置 24G内存 1T固态 2T机械固态硬盘 1 主分区 Swap area 这个是根据系统内存的大小设置的我这里内存是24G 所以给了 24 1024 2 主分区 boot 我这里给了 5120 3 逻辑分区 EFI 我这
Spring 对象XML映射

OXM简介我们都知道对象关系映射 ORM 用来将Java对象和关系型数据库的数据进行映射 Spring也提供了一套类似的映射机制用来将Java对象和XML文件进行映射这就是Spring的对象XML映射功能有时候也成为XML的序列化和
计算机组成原理期末总结

文章目录写在前面 1 计算机系统概论知识点习题 2 运算方法和运算器知识点习题 3 多层次的存储器知识点习题 4 指令系统知识点习题 5 中央处理器知识点习题 6 总线系统知识点习题 7 外存与IO设备知识点习
JS-SDK与二次分享问题

先说说背景知识 1 JS SDK的用途调用拍照选图支付分享定位功能微信开放这些能力给开发者要对开发者进行鉴权鉴权的时候需要签名签名需要票据随机字符串时间戳网址票据需要调用微信的一个接口生成比较麻烦的参数票据票据
Java 如何对中文排序

字符串的 compareTo 方法是不能对中文排序的下面这个例子中的中文使用 compareTo 方法排序后得到的是乱序 List
23功能之海量文件(内存不足100M)的排序

23功能之海量文件内存不足100M 的排序参考自如何处理大数据量的磁盘文件程序用编程艺术 1 思想这里使用了多路归并因为二路归并时由于最后的两个文件变得越来越大导致内存还是不满足但多路归并时会因文件IO而变得慢步骤 1
【Linux开发】编写属于你的第一个Linux内核模块

曾经多少次想要在内核游荡曾经多少次茫然不知方向你不要再对着它迷惘让我们指引你走向前方内核编程常常看起来像是黑魔法而在亚瑟 C 克拉克的眼中它八成就是了 Linux内核和它的用户空间是大不相同的抛开漫不经心你必须小心翼翼因为
mac vim高亮及缩进设置

转载自 http www 32133 com labrary 564 html 将vim的环境文件copy到自己常用用户的主目录下 cp usr share vim vimrc vimrc 修改 vimrc文件归读写属性 sudo chmo
知乎：到底去大公司还是小公司？

文章来源 dwz cn NA3E0JFG 职场生涯总会面临着选择尤其对我们这些 IT 人来说跳槽的频率应该是所有行业中相当大的了那么我们跳来跳去究竟该选择什么样的公司大 or 小工作三年多了经历一大一小最近也面试了不少家公司
线程同步（一）

上篇文章讲述了什么是线程以及在Linux系统下线程的相关操作线程 Linux系统实现小梁今天敲代码了吗的博客 CSDN博客本文将继续讲述线程的相关知识线程同步目录 1 线程同步的概念 2 线程不同步可能会发生什么 3 线程同步方
yolov8Pose实战

目录前言一 yolov8环境搭建二测试训练模型评估模型并导出模型实测检测效果测试人体姿态估计前言 YOLO系列层出不穷从yolov5到现在的yolov8仅仅不到一年的时间追踪新技术了解前沿算法一起来测试下yolo
全国大学生数学建模比赛介绍及其入门（国赛+美赛）

1 数学建模介绍 1 1 数学建模概念数学建模是将实际问题转化为数学问题通过建立数学模型编写程序求解的过程如某区域水资源评价问题水利工程项目风险评价问题水资源污染增长预测问题快递员派送快递的最短路径问题等等 1 2 数学模型的
Linux下压缩解压命令

Linux下压缩解压命令 1 命令 zip 压缩文件 zip 压缩文件名需要压缩的文件 eg zip passwd zip passwd 目录 zip r 压缩文件名需要压缩的目录 eg zip r test zip test 特点
运行.exe,并自动关闭.exe

运行exe文件进行计算并一次计算完毕后自动关闭exe界面结束线程可用于循环启动 exe param rnRuntime public static void test3 Runtime rnRuntime try 如果想自动关闭 r
How Do Vision Transformers Work? ICLR2022

文章标题 How Do Vision Transformers Work 是 ICLR2022 spotlight 从大佬那里入的这篇文章的坑遂做了个报告大佬的视频来源 https www bilibili com video BV1G
【论文复现】——Patchwork++：基于点云的快速稳健地面分割方法

目录一算法原理 1 Git源码 2 论文概述 3 参考文献二代码实现三结果展示四相关链接一算法原理本文使用PCL进行实现 1 Git源码这是韩国团队2022年的最新文章 Patchwork Fast and Robu
Unity3d场景中出现闪面的解决方法

当你发现在unity3d场景中发现有闪面的现象基本上是由于面之间的距离太近导致的专业术语Z Fighting 出现这种情况可以调整摄像机的Clipping plane属性中的Near值来解决这个问题
技能树-网络爬虫-BeautifulSoup

文章目录前言一获取所有p标签二获取所有text 三获取所有图片地址总结前言技能树网络爬虫 BeautifulSoup Python入门技能树大家好我是空空star 本篇给大家分享一下技能树网络爬虫 Beautif

技能树-网络爬虫-BeautifulSoup

文章目录

前言

一、获取所有p标签

二、获取所有text

三、获取所有图片地址

总结

技能树-网络爬虫-BeautifulSoup 的相关文章

随机推荐

热门标签