获取特定 div 的 span 类内的文本

2023-12-27

我正在 T-Mobile 网站上查找有关三星 Galaxy S9 的评论。我能够为 HTML 代码创建一个 Beautiful Soup 对象，但我无法获取 span 类中存在的评论文本，还需要遍历评论页面以收集所有评论。

我尝试了 2 个代码，但一个返回错误，另一个返回空列表。我也无法在汤对象中找到我需要的特定跨度类。

from urllib.request import Request, urlopen
from bs4 import BeautifulSoup

tmo_ratings_s9 = []

req = Request('https://www.t-mobile.com/cell-phone/samsung-galaxy-s9', headers={'User-Agent': 'Mozilla/5.0'})
webpage = urlopen(req).read()
tmo_soup_s9 = BeautifulSoup(webpage, 'html.parser')
tmo_soup_s9.prettify()
for review in tmo_soup_s9.find_all(class_="BVRRReviewText"):
    text = review.span.get_text(strip=True)
    tmo_soup_s9.append(text)

print(tmo_ratings_s9)


############################################################################

from urllib.request import urlopen
html = urlopen("https://www.t-mobile.com/cell-phone/samsung-galaxy-s9")

soup=BeautifulSoup(html)

ratings = soup.find_all('div', class_='BVRRReviewTextParagraph BVRRReviewTextFirstParagraph BVRRReviewTextLastParagraph')     
textofrep = ratings.get_text().strip()
tmo_ratings_s9.append(textofrep)

我希望从网页上的所有 8 个页面获取评论文本，并将它们存储在 HTML 文件中。

首先，如果您使用的是 google chrome 或 mozilla firefox，请在页面中按 ctrl+u，然后您将转到页面源代码。通过搜索一些关键字来检查评论内容是否存在于源中的任何位置。如果存在，则写入该数据的 xpath，如果不存在，请检查网络部分，以了解页面加载时发送的任何 json 请求，如果不存在，则必须使用 selenium。

根据您的情况，将请求发送到此页面https://t-mobile.ugc.bazaarvoice.com/9060redes2-en_us/E4F08F7E-8C29-4420-BE87-9226A6C0509D/reviews.djs?format=embeddedhtml https://t-mobile.ugc.bazaarvoice.com/9060redes2-en_us/E4F08F7E-8C29-4420-BE87-9226A6C0509D/reviews.djs?format=embeddedhtml

这是加载整个页面时发送的 json 请求。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

获取特定 div 的 span 类内的文本的相关文章

如何将背景图像仅应用于一个反应页面而不是整个应用程序？

注册页面示例 register background image linear gradient to right ff5722 0 ff9800 100 margin top 150px important div div div div
为什么 web2py 在启动时崩溃？

我正在尝试让 web2py 在 Ubuntu 机器上运行所有文档似乎都表明要在 nix 系统上运行它您需要下载源代码并执行以下操作蟒蛇 web2py py 我抓住了source http www web2py com examples
更好地相当于这个疯狂的嵌套 python for 循环

for a in map for b in map a for c in map b for d in map c for e in map d print a b c d e 上面的代码用于创建图中一定长度的所有路径 map a 表示从
PyQt 使用 ctrl+Enter 触发按钮

我正在尝试在我的应用程序中触发确定按钮我当前尝试的代码是这样的 self okPushButton setShortcut ctrl Enter 然而它不起作用这是有道理的我尝试查找一些按键序列here http ftp ics
MongoEngine 查询具有以列表中指定的前缀开头的属性的对象的列表

我需要在 Mongo 数据库中查询具有以列表中任何前缀开头的特定属性的元素现在我有一段这样的代码 query mymodel terms term in query terms 并且这会匹配在列表 term 上有一个项目的对象该列表中的
矩形函数的数值傅里叶变换

本文的目的是通过一个众所周知的分析傅里叶变换示例来正确理解 Python 或 Matlab 上的数值傅里叶变换为此我选择矩形函数这里报告了它的解析表达式及其傅立叶变换https en wikipedia org wiki Rectan
GUI（输入和输出矩阵）？

我需要创建一个 GUI 将数据输入到矩阵或表格中并读取此表单数据完美的解决方案是限制输入表单仅允许float 例如 A 1 02 0 25 0 30 0 515 0 41 1 13 0 15 1 555 0 25 0 14 1 21 2
如何使用 Selenium 和 ChromeDriver 解决 TypeError: 'module' object is not callable 错误 [重复]

这个问题在这里已经有答案了代码试验 from selenium import webdriver from selenium webdriver chrome options import Options as Chromeoptions
为什么一旦我离开内置的运行服务器，Django 就无法找到我的管理媒体文件？

当我使用内置的简单服务器时一切正常管理界面很漂亮 python manage py runserver 但是当我尝试使用 wsgi 服务器为我的应用程序提供服务时django core handlers wsgi WSGIHandle
Python 3：将字符串转换为变量[重复]

这个问题在这里已经有答案了我正在从 txt 文件读取文本并且需要使用我读取的数据之一作为类实例的变量 class Sports def init self players 0 location name self players pla
将div设置为隐藏，延时后可见

我试图在 X 时间后也许甚至在随机时间之后但现在我们只做固定时间在黑色背景上出现一个黄色方块 function initialSetup if document getElementById yellow null document
表单计算器脚本基本价格未加载 OnLoad

我的表单中有一个计算器来计算我的下拉选项选择 function select calculate on change calc input type checkbox calculate on click calc function cal
Iframe 相对路径挑战

我有一个页面在页面内有一个 Iframe 目录如下 Folder1 Folder2 IframeCSS IframeCSS Css iframePage1 html stuff css parentPage1 html 在 iframeP
使用 Python Oauthlib 通过服务帐户验证 Google API

我不想使用适用于 Python 的 Google API 客户端库但仍想使用 Python 访问 Google APIOauthlib https github com idan oauthlib 创建服务帐户后谷歌开发者控制台 http
动态img（或视频）标签根本不加载资源，HTTP请求处于“待处理”状态

我尝试使用以下方法在 Web 应用程序上加载资源时遇到一些问题img or videoHTML 标签我在我的应用程序中使用 Angular 并动态设置src的参数img标签使用ng src src 指示没有那么多图像和资源需要加载在
pandas - 包含时间序列数据的堆积条形图

我正在尝试使用时间序列数据在 pandas 中创建堆积条形图 DATE TYPE VOL 0 2010 01 01 Heavy 932 612903 1 2010 01 01 Light 370 612903 2 2010 01 01 Me
Pandas 组合不同索引的数据帧

我有两个数据框df 1 and df 2具有不同的索引和列但是有一些索引和列重叠我创建了一个数据框df索引和列的并集因此不存在重复的索引或列我想填写数据框df通过以下方式 for x in df index for y in df
PySpark groupByKey 返回 pyspark.resultiterable.ResultIterable

我试图找出为什么我的 groupByKey 返回以下内容 0
python 中的“槽包装器”是什么？

object dict 和其他地方的隐藏方法设置为这样的
无效字符错误：“fred”

我确信他一定是一个新手问题简单来说我想定义我的第一个 Polymer dart 组件只是我一直在同一个减速带上踢脚趾为了使事情变得非常简单我将其简化为一个非常简单的示例我做了一个简单的rename示例跑表来自 Dart 组件

随机推荐

RestKit 映射 XML 元素主体

如何为 XML 元素主体创建 RestKit 对象映射到对象属性 XML
我可以在 GDB 的“内存访问”上设置断点吗？

我正在通过 gdb 运行应用程序并且我想在访问更改特定变量的任何时间设置断点有没有好的方法来做到这一点我也对监视 C C 中的变量以查看它是否何时发生变化的其他方法感兴趣 watch仅在写入时中断 rwatch让你继续阅读并且a
App.config 替换单元测试

我的持续集成服务器 TeamCity 配置为在构建时运行我们应用程序中的所有单元测试在运行这些测试之前我需要更改一些 appSettings 以使它们对我们的 CI 服务器有效我通过使用 Visual Studio 提供的部署项目为我
Google Calendar Api 不要求 Oauth Screen

我最近用过Google Calendar API 我已经创建了项目并生成了凭据对于本地主机我使用了以下凭据 installed client id xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx apps google
如何将LogCat内容保存到文件？

我添加了调试字符串使用 Log d 并希望在 logCat 内容的上下文中查看它们 LogCat 的保存图标有一个保存所选项目提示但必须有一种快速方法来保存整个内容或选择整个内容但我不知道该怎么做要将 Log cat 内容
如何在预测后保留 xts 时间序列数据中的日期

请考虑这个小数据集 library xts library ggplot2 library forecast data lt data frame idDate c 12 12 2012 13 12 2012 14 12 2012 16 1
如何使用 Google Sheets 脚本查找列中第一个匹配项的索引？

我正在尝试使用 Google Sheets 脚本查找列中第一个匹配项的索引 function getRowIndex var lookupValue car var ss SpreadsheetApp getActiveSpreadshee
bean实例化失败；嵌套异常是 java.lang.NoClassDefFoundError: org/apache/log4j/Logger

我试图让公共日志记录适用于 log4j 配置但在启动服务器时不断出现异常当尝试使用 StringUtils 时我也遇到了类似的异常该异常可通过另一个公共库获得 org springframework beans factory Be
具有自定义接收器的 Spark 结构化流中的输入行数

我在结构化流 spark 2 2 0 中使用自定义接收器并注意到 Spark 为输入行数生成了错误的指标它始终为零我的流构建 StreamingQuery writeStream session readStream schema R
如何根据嵌套键值删除JSONB列中的数组元素？

如何根据对象键之一的值从数组中删除对象该数组嵌套在父对象内这是一个示例结构 foo1 bar1 123 bar2 456 bar1 789 bar2 42 foo2 some other stuff 我可以根据以下值删除数组元素吗bar
在 Android/Jetpack Compose 中手动预填充导航后台

是否可以在 Android Jetpack Compose 中预填充导航后台我有一个深层链接可以深入导航层次结构但是按后退时它会导航到根路线 Example Route Main gt Route List gt Route De
请求相机权限 Flutter Web

我需要在我的网络应用程序中使用相机所以我想如果用户拒绝在他她的浏览器上使用相机我会再次请求它允许相机许可这是我的代码 import package universal html html dart as html RaisedBut
何时在 Blazor 中使用 ValueChanged 和 ValueExpression？

我在一些库 MatBlazor Telerik 中看到了这种常见模式ValueChanged and ValueExpression属性这真的让我很困惑两者有什么区别以及什么时候使用它我想添加一些用例ValueChanged and
我们如何对使用 cy.get() 获取的元素进行切片，然后仅对这些特定元素运行测试？

cy get li slice 0 5 上面的代码行不起作用因为它显示错误消息类型 Chainable 上不存在属性 slice 有没有办法对我们获取的元素进行切片cy get 还有其他几种方法可以做到这一点添加伪选择器 lt 5 取
流行博客文章排名算法

我正在建立一个博客聚合器例如Techmeme http techmeme com它可以从多个博客中查找最受欢迎的帖子与 Techmeme 不同我首先从各种 RSS 源聚合博客文章然后将标题和相关 URL 保存在数据库中之后我必须
单击工具提示内容 vuetify

大家我有一个问题可以点击工具提示内容来调用任何函数吗当我的工具提示打开时我想单击调用测试功能的范围
光滑的轮播从右到左

我已经设置了光滑的轮播来连续滚动但是我需要向相反的方向滚动添加 RTL 选项似乎不起作用在这里小提琴目前从左到右 http jsfiddle net mth2ghod http jsfiddle net mth2ghod funct
要解密的数据超出了该模数的最大值 128 字节。 RSA解密c#

我不知道如何在使用 X509 证书中的私钥解密文件时解决此异常要解密的数据超出了该模数 128 字节的最大值 byte data File ReadAllBytes F enc test file1 txt X509Certificate
本机库未在设备上运行

我已将armeabi armeabi v7a 文件夹放入libs 文件夹中而不是放入maven 存储库中但我在使用 libgdx 时遇到以下错误库 gdx backend jogl natives jar 包含不会在设备上运行的本机库
获取特定 div 的 span 类内的文本

我正在 T Mobile 网站上查找有关三星 Galaxy S9 的评论我能够为 HTML 代码创建一个 Beautiful Soup 对象但我无法获取 span 类中存在的评论文本还需要遍历评论页面以收集所有评论我尝试了 2 个代

获取特定 div 的 span 类内的文本

获取特定 div 的 span 类内的文本 的相关文章

随机推荐

热门标签

获取特定 div 的 span 类内的文本的相关文章