selenium 实现头条关键字爬取

2023-11-13

from selenium import webdriver
# 设立米嗯
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from lxml import html
import time
from urllib import request
import re
import csv

CONTENT =[]

def page_sourc(url):
    driver_path = r'D:\Desktop\chromedriver_win32\chromedriver.exe'
    driver = webdriver.Chrome(executable_path=driver_path)
    driver.get(url)

    inputTag = driver.find_element_by_xpath("//input[@class='tt-input__inner']")
    inputTag.send_keys("旅游被坑")

    current_window = driver.current_window_handle

    WebDriverWait(driver=driver,timeout=10).until(
        EC.presence_of_element_located((By.XPATH,"//input[@class='tt-input__inner']"))
    )
    subBtn =driver.find_element_by_xpath("//button[@class='tt-button tt-button--default']")
    subBtn.click()

    all_window = driver.window_handles
    for window in all_window:
        if window != current_window:
            driver.switch_to.window(window)
    current_window = driver.current_window_handle

    WebDriverWait(driver=driver,timeout=10).until(
        EC.presence_of_element_located((By.XPATH,"//div[@class='sections']//div[@class='title-box']/a"))
    )
    time.sleep(2)
    for i in range(10):
        driver.execute_script(
            "window.scrollTo(0, document.body.scrollHeight); var lenOfPage=document.body.scrollHeight; return lenOfPage;")
        time.sleep(3)
        source = driver.page_source
        sprider(source)


def sprider(source):
    etree = html.etree
    text = etree.HTML(source)

    links = text.xpath("//div[@class='sections']//div[@class='title-box']/a/@href")
    links = list(map(lambda x : 'https://www.toutiao.com'+ x ,links))

    titles = re.findall(r'<span class="J_title".*?>(.*?)</span>',source,re.DOTALL)
    contonts = []
    for title in titles:
        contont = re.sub(r'<.*?>','',title)
        contonts.append(contont.strip())

    for value in zip(links, contonts):
        links,contonts = value
        content = {
            '标题': contonts,
            '网址':  links
        }
        # print(poem)
        CONTENT.append(content)

def wrte_csv(CONTENT):
    headers = ['标题','网址']

    with open('D://旅游被坑.csv','a',newline='') as fp:
       writer = csv.DictWriter(fp,headers)
       writer.writeheader()
       writer.writerows(CONTENT)



def main():
    url='https://www.toutiao.com/'
    page_sourc(url)
    wrte_csv(CONTENT)


if __name__ == '__main__':
    main()

1.因为头条也是爬取其他地方的资源所以想要去去除重复的资源不可能
2.我把结果保存在d盘csv文件里面的

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

selenium 实现头条关键字爬取的相关文章

DirectShowPlayerService::doSetUrlSource: Unresolved error code

Qt 编译后不能播放音乐或者视频经过搜索得知 Qt 中的多媒体播放底层是使用DirectShowPlayerService 需要一个DirectShow解码器例如LAV Filters LAV Filters的下载地址如下 http
FPGA的基本结构

FPGA主要由以下几部分组成 1 基本可编程逻辑单元 CLB 2 可编程输入输出单元 IOB 3 嵌入式块RAM 4 内嵌的底层功能单元和嵌入式专用硬核 5 完整的时钟管理模块 6 丰富的布线资源一总体结构二基本组成部分 1 可配置
NMS（非极大值抑制）算法详解与示例

一 NMS是什么 NMS non maximum suppression 即非极大值抑制广泛应用于传统的特征提取和深度学习的目标检测算法中 NMS原理是通过筛选出局部极大值得到最优解在2维边缘提取中体现在提取边缘轮廓后将一些梯度方向变化
vue设置延时

参考资料 https blog csdn net zc ad article details 86235227 一定要创建一个timer 然后调用延时之前先清除timer的延时 clearTimeout this timer 清除延迟执行
scala数据结构

元组 val tuple Bigdata 2020 748 333 容器 collection Scala Collection Seq 索引0 1 2 LinearSeq gt 列表相同类型不可变队列列表 var strList
SpringIOC和AOP介绍

Spring介绍 1 spring是轻量级的开源的JavaEE框架 2 Spring可以解决企业应用开发的复杂性 3 Spring有两个核心部分 IOC AOP 1 IOC 控制反转把创建好的对象给Spring进行管理 2 AOP 面向切
模式识别、计算机视觉、机器学习领域的顶级期刊和会议（整理）

部分AI刊物影响因子05 SCIIF 2005 2004 JMLR 4 027 5 952 机器学习 PAMI 3 810 4 352 模式识别 IJCV 3 657 2 914 计算机视觉 TOIS 4 529 4 097 AIJ 2 6
Neo4j下载安装以及Neo4j浏览器详细说明

1 下载需要提前安装 JDK 自行百度前往官网 https neo4j com download center community 如上图下载共有三个模式企业版本社区版本和桌面版本企业版本收费的社区版本免费只是个人运行建议直
请告诉我一些常见的泰勒公式展开

常见的泰勒公式展开有 1 二项式展开 x y n nCkx n k y k 2 三角形展开 a b c 2 a 2 b 2 c 2 2ab 2ac 2bc 3 多项式展开 x y z 3 x 3 y 3 z 3 3x 2y 3x 2z 3x
勤于奋：的日常，写程序，做任务，赚美刀，分享我的成长

大家好欢迎来到勤于奋今天跟大家聊聊我的日常吧大家好欢迎来到勤于奋国外LEAD联盟营销勤于奋时刻提醒自己只有勤快和奋斗合一体天天坚持去做一件事情才能有可能成功所以我很喜欢这个名字每天我都会关注程序语言的发展开发技术的更新
springboot 2.7集成swagger 3

目录前言错误原因报错内容报错原因解决方案依赖配置 webmvc配置 swagger配置结果前言 springboot集成swagger2技术比较成熟基本不挑版本网上技术文章一找一大堆不在此赘述但是sprngboot
线路编码(NRZ,NRZI,8B/10B,Manchester等)

0 前言编码根据作用和场景不同分为信源编码信道编码和线路编码信源编码降低信源符号之间的相关性和冗余度通过编码提高每个符号的信息量具体说就是针对信源输出符号序列的统计特性来寻找某种方法把信源输出符号序列变换为最短的码字序列比
HashMap循环遍历方式及其性能对比

HashMap循环遍历方式及其性能对比主要介绍HashMap的四种循环遍历方式各种方式的性能测试对比根据HashMap的源码实现分析性能结果总结结论 1 Map的四种遍历方式下面只是简单介绍各种遍历示例以HashMap为例各自
IDEA调试技巧之如何让调试器在特定的地方停下（根据条件调试）

首先打个断点在代码的左侧点击即可右键断点取消勾选已启用然后在条件中填写逻辑表达式当该逻辑表达式为真时调试才停下否则继续
System.currentTimeMillis()计算方式与时间的单位转换

2019独角兽企业重金招聘Python工程师标准 gt gt gt 一时间的单位转换 1秒 1000毫秒 ms 1毫秒 1 1 000秒 s 1秒 1 000 000 微秒 s 1微秒 1 1 000 000秒 s 1秒 1 000 00
黑话管理：偶像

http blog csdn net shenyisyn article details 4228387 与朋友一起闲聊老提到一个话题管理者大部分下属都很崇拜因此成为他们的偶像是很重要这个观点很大程度上很有道理作为偶像往往在精神上
数据结构之线性结构

上一讲程序数据结构算法上次介绍了数据结构相关内容理解这次介绍数据结构另一块内容线性结构理解线性结构存储形式类似一列火车这种包含有数组链表队列栈 1 数组是数据结构中逻辑结构分类其中一种物理结构以连续地址存储单元把数
U8接口开发

一官方接口 OPENAPI 第三方系统部署在外网互联网与 U8 对接的场景限制做不了上下游关联生单比如采购入库单无法关联采购到货单不支持事务优势安全接口定义面向消费者使用相对最简单数据标准 json 协议 https
oracle enable broken,[20200220]关于SQLNET.EXPIRE_TIME and ENABLE=BROKEN的总结.txt

20200220 关于SQLNET EXPIRE TIME and ENABLE BROKEN的总结 txt 昨天做了大量关于SQLNET EXPIRE TIME and ENABLE BROKEN的测试晚上再仔细看测试做的有点乱做一
页面发送指令到后端处理控制PLC

框架ssh 后台 1 后台写一个控制类 control action 控制发送指令 Utils sendMessage toServer m1 给中间件httpserverService 2 control类要在applicationCon

随机推荐

【速卖通代运营】2022跨境电商怎么做？速卖通今年重点要做三件事

4月19日一年一度的速卖通的年度峰会在线上举行面向商家介绍平台全年策略和方向阿里巴巴集团副总裁全球速卖通总经理张凯夫表示 2022年速卖通平台将对国内商家有大量利好调整重点将聚焦于加快提升全球物流履约能力持续优化平台机制和商家生
Call to deprecated function get_sheet_by_name (Use wb[sheetname])

DeprecationWarning Call to deprecated function get sheet by name Use wb sheetname 原因新版 python 3 remove sheet 和 get shee
Vux使用心得

参考链接布局简单平分水平布局和垂直布局
Qt Creator使用Heob检测内存泄漏

使用步骤 1 设置Heob路径 Analyze Heob heob64 exe需要自己下载 2 点击 OK 启动测试程序运行后进行各种常规操作并关闭程序 3 等待Hebo工具分析结果完成后会出现如下内存泄漏代码定位可跳转到相应位置进行
如何进行特征工程，以及特征工程的一些理论

正如一句业界经典的话所说 Garbage in garbage out 对于一个机器学习问题数据和特征决定了结果的上限而模型算法的选择和优化决定了模型的下限 1 什么是特征工程以及其重要性 1 1 特征工程特征工程顾名思义是对原
开源推荐-C++开发的微服务框架Tars

Tars项目于2017年4月开源 BSD3协议至今已有5年在软件层面社区的版本保持稳定的迭代支持了多语言微服务的开发和治理在硬件层面也移植到Arm生态上 Tars可以帮助开发人员和企业以微服务的方式快速构建自己稳定可靠的分布式
OpenWRT移植EC200A驱动，并实现wifi和lan的上网，及wan和4g的负载均衡（五）

网卡驱动方式转载拨号PPP NDIS RNDIS CDC ECM NCM QMI WWAN GOBINET RMNET MBIM概念介绍 https blog csdn net qlexcel article details 11715
nacos添加权限控制的鉴权功能

nacos如果使用权限控制的鉴权功能需要在配置文件添加特定参数我这边是k8s部署的需要在k8s yaml文件中添加如下参数才能使用权限控制的鉴权功能 name nacos core auth enabled value true 如果
android删除文件夹代码,Android_Android递归方式删除某文件夹下的所有文件(.mp3文件等等)，1.由于需要删除文件，因此需 - phpStudy...

Android递归方式删除某文件夹下的所有文件 mp3文件等等 1 由于需要删除文件因此需要如下权限 2 核心代码 package com example deleteyoumi import java io File import an
性能优化——动画优化笔记

动画优化再UWA报告中Animator相关的函数有两个一个是DirectorUpdateAnimationBegin 一个是DirectorUpdateAnimationEnd 一般来说我们都要关注这两个函数的堆栈通过堆栈函数的调用
Win10、Win11 增加系统暂停更新时间教程

在我们日常电脑的使用中经常会遇到系统弹出系统更新提示还不想更新系统的用户就会设置暂停更新但是暂停更新是有时间限制的在设置中我们可以看得到最多只能暂停 5 周更新下面是延长暂停时间的教程基本等于永久关闭更新 1 首先按键盘上的
C++中的封装、继承、多态

封装 encapsulation 就是将抽象得到的数据和行为或功能相结合形成一个有机的整体也就是将数据与操作数据的源代码进行有机的结合形成类其中数据和函数都是类的成员封装的目的是增强安全性和简化编程使用者不必了解具体的实现
我今年24岁，月入4500，怎么慌成这样？

之前在某职场大号看到有粉丝留言不知道为什么不管怎样努力好像都没什么用职位没有提升收入也上不去和同龄人的差距越来越大大概是说出了很多人的心声这条留言的点赞数直飙第一或许你也曾有过这种疑惑有的人年纪轻轻已经是职业精英有的人
Android EditText禁止输入空格和特殊字符

有时候我们需要限制EditText输入的字符类型如空格特殊字符等这时候我们可以使用系统提供的输入过滤器 InputFilter 具体实现如下禁止EditText输入空格 param editText public static vo
eclipse使用记录

1 ctrl alt esc取消eclipse置顶 2 https github com java decompiler jd eclipse releases download v2 0 0 jd eclipse 2 0 0 zip ec
oracle 11.2.0.4 rac

oracle 11 2 0 4 rac for rhel 6 8 installation kissweety 于 2017 09 18 09 22 37 发布 3523 收藏 1 分类专栏 ORACLE数据库文章标签 oracle rh
【Unity 插件】 Shader Editor

之前因为项目需求要研究如何写Unity的Shader 可是目前国内研究shader语言的可谓凤毛麟角更别说大神了没办法唯有找插件顶住先几经艰辛地点了不少搜索键后终于发现了Shader Editor 咋看之下这插件十分复杂但是用过
2020年最全的自动化测试面试题及答案--看完后吊打面试官！自动化测试是什么？自动化测试学什么？

一前言最近有童鞋和我抱怨说网上很难搜到那些全面又合适的自动化测试面试题这里根据我个人的经验以及收集整理的你没看错不慌慢慢来先从什么是自动化测试开始说起哈二什么是自动化测试什么是自动化测试当我第一次知道自动化测试的时候
QObject::killTimer: timers cannot be stopped from another thread

QObject killTimer timers cannot be stopped from another thread 产生原因定时器的事件处理所处的线程和调用定时器操作方法的线程不是同一个线程可以通过 qDebug lt l
selenium 实现头条关键字爬取

from selenium import webdriver 设立米嗯 from selenium webdriver common by import By from selenium webdriver support ui impor

selenium 实现头条关键字爬取

selenium 实现头条关键字爬取 的相关文章

随机推荐

热门标签

selenium 实现头条关键字爬取的相关文章