【Python爬虫】百度百科词条内容

2023-05-16

词条内容

我这里随便选取了一个链接，用的是FBI的词条

import urllib.request
import urllib.parse
from lxml import etree

def query(url):
    headers = {'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.163 Safari/537.36',
               'Referer':'https://www.baidu.com/link?url=_A6PAPRyw5Gs2ITJuAiY91laVo3xjjRUzUOTRV7K_7ObZuWV-LshlI9xBVBPWYIgIVhfRH13NxGwDDG3i-93L48AFaO0Smrj7GzaKhCOMQTHl6Wfc1Cjhm4DGcU8M99lHu5G6YURVZJwShNyZ5pCNLQs_mPRhrlzIZfsIIsuDmO&wd=&eqid=c7d9761f0002125100000004627c655d' }
    req = urllib.request.Request(url=url, headers=headers, method='GET')
    response = urllib.request.urlopen(req)
    text = response.read().decode('utf-8')
    html = etree.HTML(text)
    sen_list = html.xpath('//div[contains(@class,"lemma-summary") or contains(@class,"lemmaWgt-lemmaSummary")]//text()')
    sen_list_after_filter = [item.strip('\n') for item in sen_list]
    return ''.join(sen_list_after_filter)
    

if __name__ =="__main__":
    url = 'https://baike.baidu.com/item/%E7%BE%8E%E5%9B%BD%E8%81%94%E9%82%A6%E8%B0%83%E6%9F%A5%E5%B1%80/297801?fr=aladdin'
    result = query(url)
    print('结果：' + result)

关于如何设置headers：打开任意浏览器某一页面（要联网），按f12,然后点network，之后再按f5，然后就会看到“name”这里，我们点击name里面的任意文件即可。之后右边有一个headers,点击headers找到request headers，这个就是浏览器的请求报头了。然后复制其中的user-agent，其他的cookie还有Accept可以要也可以不要，主要是伪装成浏览器
referer的作用：对付防盗链，具体原因不展开说了，在这里其实没啥用
xpath：f12调出检查页面，根据指定位置，一般在div class=附近

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

【Python爬虫】百度百科词条内容的相关文章

excel数据对比-----查找两列（表）的相同数据

原创作品 xff0c 允许转载 xff0c 转载时请务必以超链接形式标明文章原始出处作者信息和本声明否则将追究法律责任 http xueli blog 51cto com 3325186 920592 现有两个excel表 xff0c
discuz 微社区您请求的XXXX无法访问接口错误（ERR02)

我遇到的情况 xff1a 1 UC可以访问页面 xff0c 用微信报错 2 4G网络下可以访问 xff0c WiFi网络下报错网上有两种解决方法 xff1a 1 关闭防采集 xff0c 我最终的采用方法 2 default下的mobile
所有文件夹都变成1KB文件夹快捷方式病毒的手动清除方法

电脑差不多都因使用U盘而感染了病毒 xff0c 其中一个就是Autoran病毒的变种 xff0c 它的症状我就不再描述了 xff0c 另外一个病毒的症状是所有文件夹都变成了1KB文件夹快捷方式 xff0c 各盘无法双击打开 xff08 但右
搜狗高速浏览器2.0使用体验

2010年 4 月 8 号 xff0c 我们终于迎来了国内浏览器的后起之秀搜狗高速浏览器2 0 正式版的发布高速真双核引擎的概念得到了落实它新增并改进了诸多功能 xff0c 修改了一些bug xff0c 从整体提高搜狗高速浏览
Connection refused错误

这个问题整了我两天时间 xff0c 现在终于解决了问题 xff1a 用php 构造http请求访问自身web服务器页面 xff0c 总是报Connection refused 111 错误显示 xff1a unable to conne
QT样式表从入门到精通

QT样式表从入门到精通文章目录 QT样式表从入门到精通前言1 背景介绍2 初级学习2 1 34 盒子 34 模型2 2 语法说明2 3 基础控件2 4 控件状态表2 5 选择器 3 中级学习3 1 坐标讲解3 1 1 相对坐标3 1 2
GIF89a图片头文件欺骗

1 什么是GIF89a 一个GIF89a图形文件就是一个根据图形交换格式 xff08 GIF xff09 89a版 xff08 1989年7 月发行 xff09 进行格式化之后的图形在GIF89a之前还有87a版 xff08 1987年5
txt文件导入mysql

LOAD DATA LOW PRIORITY CONCURRENT LOCAL INFILE 39 file name 39 REPLACE IGNORE INTO TABLE tbl name CHARACTER SET charset
mac下终端无法使用数字小键盘的解决方案

终端下偏好设置 xff0d 高级 xff0d xff08 去掉 xff09 允许VT100应用程序小键盘模式
Mac Eclipse Failed to load JavaHL Library.

转自 xff1a http blog csdn net wy10207010219 article details 42294293 写这一篇前我想发表一下感慨 xff1a 你所害怕的事 xff0c 你想要逃避的事 xff0c 在将来的某个
ROS学习笔记（一）ROS安装和helloworld

ROS学习笔记 xff08 一 xff09 ROS安装和helloworld 文章目录一 ros安装及测试1 打开ubuntu软件和更新 xff0c 进行如下设置2 设置安装源3 设置安装密钥4 更新软件源5 安装ros6 添加命令7 初
使用ActiveMQ进行C++与C#的通信4 - 使用C++连接ActiveMQ

在上一节编译ActiveMQ CPP的基础上 xff0c 创建C 43 43 控制台应用程序 xff0c 将activemq cpp项目中的include文件夹拷贝到该C 43 43 项目中 xff0c 设置好附加包含目录将生成好的lib
使用ActiveMQ进行C++与C#的通信5 - 实现C++和C#的通信

在前几篇文章分别实现C C 43 43 连接ActiveMQ的基础上 xff0c 本文介绍如何使它们通信使不同的进程对同一个ActiveMQ消息队列进行访问 xff0c 就能够达到消息互通的效果例如使用queue test1 log作为
【计算机游戏开发】游戏交互界面设计

github项目地址一实验目的与要求熟悉交互界面设计原理了解Cocos2d x中的用户交互触摸事件碰撞检测机制二实验内容与方法完成游戏编译 50分仿照实验一英雄快跑实验 xff0c 将教材源码和素材文件复制到自己的项
k-近邻实现手写数字识别

1 k 近邻工作原理简单地说 xff0c K近邻算法采用测量不同特征值之间的距离方法进行分类该算法具有一下特点优点 xff1a 精度高对异常值不敏感无数据输入假定缺点 xff1a 计算复杂度高空间复杂度高 K近邻算法的工作原理
selenium之CSS定位

一层级定位 1 xff1a 所有标签 2 标签名 xff1a 查找所有该标签名 3 标签名 xff0c 标签名 xff1a 查找多个标签名 id用表示索引尽量使用xpath 二三大等待和切换 1 页面元素可以定位 xff0c 但是代
STM32核心笔记

STM32核心笔记文章目录 STM32核心笔记1 下载程序的两种方式1 1 串口ISP1 2 仿真器1 2 1 J Link1 2 1 ST LINK 2 认识寄存器3 地址总线与外设地址映射关系4 GPIO的三种配置5 时钟树6 常用中
用efibootmgr管理UEFI启动项，添加丢失的启动项

UEFI用来替代传统BIOS引导操作系统 xff0c 学会修改UEFI启动项也变得十分重要 xff0c UEFI全称为 xff1a 统一的可扩展固件接口 xff08 Unified Extensible Firmware Interface
JAVA-生产消费者模型

简单介绍一下生产消费者模型 xff0c 如下图 xff1a 一般来说 xff0c 生产消费者模型就是消费者和生产者可以共同操作茶叶仓库这一个共享资源打一个比方 xff0c 生产者生产茶叶供向茶叶市场 xff0c 消费者在茶叶市场购买茶叶
悲观锁与乐观锁（CAS实现）

CAS乐观锁悲观锁悲观锁与乐观锁悲观锁 xff1a 总是假设最坏的情况 xff0c 每次去拿数据的时候都认为别人会修改 xff0c 所以每次在拿数据的时候都会上锁 xff0c 这样别人想拿这个数据就会阻塞直到它拿到锁传统的关系型

随机推荐

ButterKnife离我们而去，作者已经宣称不在更新，取替代他的是官方推出的 View Binding

是的是自从Android studio2 2 2升级项目到Android studio4 0以上 AS提示警告错误 Resource IDs will be non final by default in Android Gradle Pl
Auto.js学习笔记4:autojs打包后，大部分华为等大牌子手机无法安装？利用模拟器远程在autoPro里签名打包可以解决该问题。

准备工作 Android模拟器 xff0c 我用的逍遥模拟器 xff1b auto Pro版本的apk 本人用的是Prov7 0 4 1版本 xff1b vs Code开发工具 xff1b 一台可以正常连接网络的电脑 xff0c 这个是必须
AS:Warning: 意外的元素 (uri:““, local:“base-extension“)。所需元素为＜{}codename＞,＜{}layoutlib＞,＜{}api-level＞

出现原因 xff1a 1 将 Android SDK 从 30 0 3 更新到 31 0 0 以上 2 使用了Android Studio Bumblebee 版本 2021 1 1 Patch 3 也就是现在最新版本AS 3 gradle
Auto.js学习笔记5：autojs的UI界面基础篇1

申明本人使用的autojs是4 1 1版本目录 UI定义控件通用基础属性 w xff1a h xff1a id gravity layout gravity margin padding bg visibility rotation m
Auto.js学习笔记15：autojs的UI界面基础篇2

常用的基础控件 xff0c 主要在autojs上展示相关的操作界面目录线性布局 linear 垂直布局 vertical 垂直布局 horizontal 帧布局 frame 相对布局 relative 滑动 scroll 文本控件 te
Auto.js学习笔记7:js文件调用另一个js文件里的函数和变量，解决调用失败的各种问题

这里要用到模块的概念 module 模块介绍 xff1a Auto js 有一个简单的模块加载系统在 Auto js 中 xff0c 文件和模块是一一对应的 xff08 每个文件被视为一个独立的模块 xff09 例如AutoWeiXin
【Android控件】HorizontalScrollView的基础使用记录（滚动条自定义）

目录效果图简介注意事项基础属性滚动条全部设置滚动条是否总显示自定义滚动条滑动背景和滚动条背景设置滚动条的宽度设置滚动条距离其它常规设置设置滚动速度布局代码示例总结效果图简介 HorizontalScrollVi
C语言知识点笔记

C语言知识点笔记文章目录 C语言知识点笔记前言1 那些语句不用结尾2 uint32 uint16等整形数据类型属于stdint h头文件3 int p1 char p2 之间的区别4 相同类型指针相加减5 如何将int p 指定指定地址
【魔兽世界】WLK版本的常规宏教程

文章目录宏常规指令和语法基础指令队列施法攻击动作条取消目标选择模拟点击图标及提示判断条件在不失去当前目标的情况下 xff0c 定位另一目标语法注意事项宏例子上马跟随宏神牧攻击宏牧师驱散宏我的常用指令及判
【Flutter·学习实践·UI篇】基础且重要的UI知识

前言参考学习官网 xff1a Flutter实战第二版学习前先记住 xff1a Flutter 中万物皆为Widget xff0c 心中默念3次以上铭记于心这一点和开发语言Dart的变量一切皆是对象的概念 xff0c 相互对应 Wi
【lua初级篇】基础知识和开发工具

文章介绍文章介绍简述工具安装配置和下载快速看基础知识一些常用的关键字一览数据类型 table xff1a 运算符算术运算符关系运算符逻辑运算符条件语句的形式注释单行注释多行注释总结 xff1a 简述没时间玩魔兽
【Flutter·学习实践·配置】认识配置文件pubspec.yaml

目录简介 pubspec yaml 添加Pub仓库其他依赖方式依赖本地包依赖Git 简介简单说就是包管理工具 xff0c 类似于Android 提供了 Gradle 来管理依赖 xff0c iOS 用 Cocoapods 或 Ca
Ubuntu快速重装教程！拯救你的系统！

目录 1 删除旧分区 1 1删除除EFI分区外的Ubuntu分区 1 2删除EFI分区 2 安装Ubuntu 首先抱抱点进这个标题的小伙伴 xff0c 你们一定是饱受现在系统的折磨才选择重装的 xff08 答主也经历过 xff0c 项目竞标
JVM性能调优篇07-阿里巴巴Arthas工具详解

Arthas工具 Arthas 是 Alibaba 在 2018 年 9 月开源的 Java 诊断工具支持 JDK6 43 xff0c 采用命令行交互模式 xff0c 可以方便的定位和诊断线上程序运行问题 Arthas 官方文档十分详细
ThinkPHP 鲜为人知的 selectAdd 方法 addAll( select() )

TP算是国内相当热门的一个PHP框架 xff0c 相信大家对TP的普通增删查改所用的select add save delect find getField 等等内置函数早已烂熟于心了今天 xff0c 就向大家介绍一种TP手册中未提及 x
算法多线程leetcode题目总结（多解法实现）

简介本文汇总了leetcode上多线程题目 xff0c 并对每一道题进行多方法解答 xff0c 并分析不同方法之间的优劣文中示例代码为Java 题目 1114 按序打印简单1115 交替打印FooBar 中等1116 打印零与奇偶数
java.lang.IllegalStateException Unable to find a @SpringBootConfiguration错误解决方案

java lang IllegalStateException Unable to find a 64 SpringBootConfiguration you need to use 64 ContextConfiguration or 6
智慧型物业管理系统功能解析

随着当前社会经济的发展与科技发达 xff0c 物业管理系统化已经成为常态了尤其是随着智慧物业管理系统功能越来越多 xff0c 人们对智慧物业管理系统的依赖就更明显了毕竟系统真的可以给生活带来很多的便利之处 xff1a 业主可通过该系统查
spring依赖注入

目录 1 使用bean标签注入 1 pom xml文件配置 2 spring配置文件 xff08 存放bean spring注解等相关信息的文件 xff09 3 bean标签生成对象 4 对象的依赖注入 1 通过set方法 xff1a xf
【Python爬虫】百度百科词条内容

词条内容我这里随便选取了一个链接 xff0c 用的是FBI的词条 import urllib request import urllib parse from lxml import etree def query url headers

【Python爬虫】百度百科词条内容

词条内容

【Python爬虫】百度百科词条内容 的相关文章

随机推荐

热门标签

【Python爬虫】百度百科词条内容的相关文章