如何使用 beautifulsoup 打印 href 属性，同时通过 selenium 实现自动化？

2023-12-04

蓝色元素的 href 值是我想从此 HTML 访问的内容

我尝试了几种方法来打印链接，但没有成功。

我的代码如下：-

discover_page = BeautifulSoup(r.text, 'html.parser')

finding_accounts = discover_page.find_all("a", class_="author track")
print(len(finding_accounts))

finding_accounts = discover_page.find_all('a[class="author track"]')
print(len(finding_accounts))

accounts = discover_page.select('a', {'class': 'author track'})['href']
print(len(accounts))

Output:- 
0
0
TypeError: 'dict' object is not callable

网页的网址是https://society6.com/discover但网址更改为https://society6.com/society?show=2登录我的帐户后

我在这里做错了什么？

注意：-我在这里使用 selenium chrome 浏览器。这里给出的答案在我的终端中有效，但在我运行文件时无效

我的完整代码：-

from selenium import webdriver
import time
import requests
from bs4 import BeautifulSoup
import lxml

driver = webdriver.Chrome()
driver.get("https://society6.com/login?done=/")
username = driver.find_element_by_id('email')
username.send_keys("[email protected]")
password = driver.find_element_by_id('password')
password.send_keys("sultan1997")
driver.find_element_by_name('login').click()

time.sleep(5)

driver.find_element_by_link_text('My Society').click()
driver.find_element_by_link_text('Discover').click()

time.sleep(5)

r = requests.get(driver.current_url)
r.raise_for_status()

'''discover_page = BeautifulSoup(r.html.raw_html, 'html.parser')

finding_accounts = discover_page.find_all("a", class_="author track")
print(len(finding_accounts))

finding_accounts = discover_page.find_all('a[class="author track"]')
print(len(finding_accounts))


links = []
for a in discover_page.find_all('a', class_ = 'author track'): 
        links.append(a['href'])
        #links.append(a.get('href'))

print(links)'''

#discover_page.find_all('a')

links = []
for a in discover_page.find_all("a", attrs = {"class": "author track"}): 
        links.append(a['href'])
        #links.append(a.get('href'))

print(links)

#soup.find_all("a", attrs = {"class": "author track"})'''

soup = BeautifulSoup(r.content, "lxml")
a_tags = soup.find_all("a", attrs={"class": "author track"})

for a in soup.find_all('a',{'class':'author track'}):
    print('https://society6.com'+a['href'])

文档中的代码是我正在尝试使用的代码

如果您希望找到所有链接而不需要在 Beautifulsoup 中手动尝试。然后去请求-html

获取所有链接的示例代码，

from requests_html import HTMLSession
from bs4 import BeautifulSoup

url = 'https://society6.com/discover'
session = HTMLSession(mock_browser=True)
r = session.get(url, headers={'User-Agent': 'Mozilla/5.0'})

print(r.html.links)
print(r.html.absolute_links)

soup = BeautifulSoup(r.html.raw_html, 'html.parser')
a_tags = soup.find_all("a", attrs={"class": "author track"})
for a_tag in a_tags:
    print(a_tag['href'])

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

selenium

webscraping

beautifulsoup

WebDriverWait

如何使用 beautifulsoup 打印 href 属性，同时通过 selenium 实现自动化？的相关文章

Python（Selenium）：如何通过登录重定向/组织登录登录网站

我不是专业程序员所以请原谅任何愚蠢的错误我正在做一些研究我正在尝试使用 Selenium 登录数据库来搜索大约 1000 个术语我有两个问题 1 重定向到组织登录页面后如何使用 Selenium 登录 2 如何检索数据库在我解决
通过最小元素比较对 5 个元素进行排序

我必须在 python 中使用元素之间的最小比较次数来建模对 5 个元素的列表进行排序的执行计划除此之外复杂性是无关紧要的结果是一个对的列表表示在另一时间对列表进行排序所需的比较我知道有一种算法可以通过 7 次比较总是在元素之间
如何使用 Ansible playbook 中的 service_facts 模块检查服务是否存在且未安装在服务器中？

我用过service facts检查服务是否正在运行并启用在某些服务器中未安装特定的软件包现在我如何知道这个特定的软件包没有安装在该特定的服务器上service facts module 在 Ansible 剧本中它显示以下错误
python 相当于 R 中的 get() （= 使用字符串检索符号的值）

在 R 中 get s 函数检索名称存储在字符变量向量中的符号的值s e g X lt 10 r lt XVI s lt substr r 1 1 X get s 10 取罗马数字的第一个符号r并将其转换为其等效整数尽管花了一些时间翻
是否可以忽略一行的pyright检查？

我需要忽略一行的pyright 检查有什么特别的评论吗 def create slog group SLogGroup data Optional dict None SLog insert one SLog group group da
Spark KMeans 无法处理大数据吗？

KMeans 有几个参数training http spark apache org docs latest api python pyspark mllib html highlight kmeans pyspark mllib clus
OpenCV 无法从 MacBook Pro iSight 捕获

几天后我无法再从 opencv 应用程序内部打开我的 iSight 相机 cap cv2 VideoCapture 0 返回并且cap isOpened 回报true 然而 cap grab 刚刚返回false 有任何想法吗示例代码
Python 函数可以从作用域之外赋予新属性吗？

我不知道你可以这样做 def tom print tom s locals locals def dick z print z name z name z guest Harry print z guest z guest print di
Flask如何获取请求的HTTP_ORIGIN

我想用我自己设置的 Access Control Allow Origin 标头做出响应而弄清楚请求中的 HTTP ORIGIN 参数在哪里似乎很混乱我在用着烧瓶 0 10 1 以及HTTP ORIGIN似乎是这个的特点之一object
Python 的“zip”内置函数的 Ruby 等价物是什么？

Ruby 是否有与 Python 内置函数等效的东西zip功能如果不是做同样事情的简洁方法是什么一些背景信息当我试图找到一种干净的方法来进行涉及两个数组的检查时出现了这个问题如果我有zip 我可以写这样的东西 zip a b a
使用 \r 并打印一些文本后如何清除控制台中的一行？

对于我当前的项目有一些代码很慢并且我无法使其更快为了获得一些关于已完成必须完成多少的反馈我创建了一个进度片段您可以在下面看到当你看到最后一行时 sys stdout write r100 80 n I use 80覆盖最终剩余的
Pandas：merge_asof() 对多行求和/不重复

我正在处理两个数据集每个数据集具有不同的关联日期我想合并它们但因为日期不完全匹配我相信merge asof 是最好的方法然而有两件事发生merge asof 不理想的数字重复数字丢失以下代码是一个示例 df a pd Da
解释 Python 中的数字范围

在 Pylons Web 应用程序中我需要获取一个字符串例如关于如何做到这一点有什么建议吗我是 Python 新手我还没有找到任何可以帮助解决此类问题的东西该列表将是 1 2 3 45 46 48 49 50 51 77 使用
使用 Python 绘制 2D 核密度估计

I would like to plot a 2D kernel density estimation I find the seaborn package very useful here However after searching
如何计算 pandas 数据帧上的连续有序值

我试图从给定的数据帧中获取连续 0 值的最大计数其中包含来自 pandas 数据帧的 id date value 列如下所示 id date value 354 2019 03 01 0 354 2019 03 02 0 354 201
发送用户注册密码，django-allauth

我在 django 应用程序上使用 django alluth 进行身份验证注册我需要创建一个自定义注册表单其中只有一个字段电子邮件密码将在服务器上生成这是我创建的表格 from django import forms from
使用 Python 的 matplotlib 选择在屏幕上显示哪些图形以及将哪些图形保存到文件中

我想用Python创建不同的图形matplotlib pyplot 然后我想将其中一些保存到文件中而另一些则应使用show 命令然而 show 显示all创建的数字我可以通过调用来避免这种情况close 创建我不想在屏幕上显示的绘图
Rocket UniData/UniVerse：ODBC 无法分配足够的内存

每当我尝试使用pyodbc连接到 Rocket UniData UniVerse 数据时我不断遇到错误 pyodbc Error 00000 00000 Rocket U2 U2ODBC 0302810 Unable to allocate
Python 类继承 - 诡异的动作

我观察到类继承有一个奇怪的效果对于我正在处理的项目我正在创建一个类来充当另一个模块的类的包装器我正在使用第 3 方 aeidon 模块用于操作字幕文件但问题可能不太具体以下是您通常如何使用该模块 project aeidon P
java.lang.IllegalStateException：驱动程序可执行文件的路径必须由 webdriver.chrome.driver 系统属性设置 - Similiar 不回答

尝试学习 Selenium 我打开了类似的问题但似乎没有任何帮助我的代码 package seleniumPractice import org openqa selenium WebDriver import org openqa s

随机推荐

MapView 上的 java.util.ConcurrentModificationException

fellas 很多天以来我都面临着非常奇怪的问题我正在尝试经常更新覆盖因此有时当我触摸地图时我会收到 java util ConcurrentModificationException 或者有时当地图尝试更新叠加层时我会收到 ja
如何使用 Json.NET 序列化和反序列化数组的 ArrayList

我需要在应用程序中使用 JSON NET 将对象序列化反序列化为 json Object 具有 ArrayList 属性类型其中包含字符串数组为了模拟它我编写了以下单元测试 public class JsonTests public
仅在释放模式下按 HOME 时才会终止 Activity

首先我有两个 Activity Splash 和 MainActivity 仅支持纵向在 MainActivity 中我有很多片段使用幻灯片菜单我想在用户离开 MainActivity 时保留当前片段这是我的尝试 int curr
无法在 CodeIgniter 中使用会话类检索会话 ID

我的控制器中有这段代码 class Upload center extends Controller function construct parent Controller this gt load gt model auth model
在 Automator 中编辑文本

我想创建一个 Automator 服务它可以获取所选文本并将其替换为编辑后的版本 i e 所选文本将类似于这是所选文本然后输出将采用该文本并输出类似一些预定义的开始这是选定的文本这是选定的文本我以前曾对文件名做过类似的事情但
如何使用 PHP Bitly v4 缩短 URL？

我有 Bitly 的代码v3并且运行良好
RedirectToAction 不是重定向

这不应该起作用吗如果我最后有一个断点它停在那里但永远不会到达ContactAction 发布后的页面只是一个空白页面没有源代码我错过了什么谢谢您的联系人 ContactModel 模型不应为 void 而应为 public
如何将数据从应用程序发送到AppWidgetProvider？

我陷入了一个特定的场景用户从应用程序更新时间后我需要立即更新我的小部件我确实尝试通过 Intent Extras 发送数据来进行广播但失败了目前我的数据在AppWidgetProvider我需要将此数据发送到服务 public
更改 LISP 中列表的副本

在 LISP 中我有一个传递列表的函数我想更改此列表的元素而不更改原始列表通常情况下我会使用copy list创建我将更改的列表的本地副本但这似乎不起作用 CL USER gt defun test item let copy c
Azure DevOps 多阶段管道陷入等待批准状态

我将托管的 Azure DevOps 与 Azure Git Repos 中的代码一起使用我们曾经使用经典的基于 UI 的管道编辑器但在构建发布阶段正在转向 YAML 模板过去我配置了 CI CD 以便当代码通过拉取请求提交到
类型“List”不是类型“List”的子类型

我有一段从 Firestore 示例中复制的代码片段 Widget buildBody BuildContext context return new StreamBuilder stream getEventStream builder
更新 Entity Framework 6 中的子对象

使用实体框架6 2 我有以下两个模型实体 public class City public int CityId get set public string Name get set public class Country public
Rails 如何获得最佳性能请求并行 sidekiq 工作线程

我的 Rails 应用程序有一名 sidekiq 工作人员该工作线程将向外部 api 发出 2500 个请求响应是一个 xml 如何让该员工获得最佳绩效在工作线程内部生成应用程序级线程例如创建 10 个 ruby 线程来处理 2
如何用 Python 编写与 Wikipedia 中的示例不同的策略模式？

在 2009 年策略模式的维基百科条目中有一个例子用 PHP 编写大多数其他代码示例都会执行以下操作 a Context new StrategyA new a execute gt Doing the task the normal
在 JavaScript 中检查字母数字的最佳方法

对文件执行字母数字检查的最佳方法是什么INPUT领域在JSP 我已附上我当前的代码 function validateCode var TCode document getElementById TCode value for var i
Form_Load() '事件' 或覆盖 OnLoad()

我希望有人尝试解释它们之间的区别更具体地说是示例使用场景我正在重构一些窗口窗体代码和一个Form有一些代码在Form Load 事件并且也在protected override void OnLoad 调用的事件base OnLoad
@Dependent 范围在 Wildfly 中不是默认的吗？

我在使用 Wildfly 通过 Inject 注入 POJO 时遇到一些麻烦文档明确指出 Dependent 如果未指定则默认范围这意味着一个对象的存在只是为一个客户端 bean 提供服务并且与该客户端 bean 具有相同的生命周期
如何在Python线程中使用qtwebkit？

我正在尝试使用 qtwebkit 解析 js 生成的网页我找到了如何获取页面源的示例 import sys from PySide QtGui import from PySide QtCore import from PySide Qt
如何测试更新方法？

我是单元测试新手并在我的 Java Spring Boot 应用程序中使用 JUnit 我有时需要测试更新方法但是当我在网上搜索时没有合适的示例或建议那么您能否澄清一下如何测试以下更新方法我认为这可能需要与测试 void 不同的
如何使用 beautifulsoup 打印 href 属性，同时通过 selenium 实现自动化？

蓝色元素的 href 值是我想从此 HTML 访问的内容我尝试了几种方法来打印链接但没有成功我的代码如下 discover page BeautifulSoup r text html parser finding accounts

如何使用 beautifulsoup 打印 href 属性，同时通过 selenium 实现自动化？

如何使用 beautifulsoup 打印 href 属性，同时通过 selenium 实现自动化？ 的相关文章

随机推荐

热门标签

如何使用 beautifulsoup 打印 href 属性，同时通过 selenium 实现自动化？的相关文章