【Python爬虫】百度百科词条内容

2023-05-16

 

词条内容

  • 我这里随便选取了一个链接,用的是FBI的词条
import urllib.request
import urllib.parse
from lxml import etree

def query(url):
    headers = {'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.163 Safari/537.36',
               'Referer':'https://www.baidu.com/link?url=_A6PAPRyw5Gs2ITJuAiY91laVo3xjjRUzUOTRV7K_7ObZuWV-LshlI9xBVBPWYIgIVhfRH13NxGwDDG3i-93L48AFaO0Smrj7GzaKhCOMQTHl6Wfc1Cjhm4DGcU8M99lHu5G6YURVZJwShNyZ5pCNLQs_mPRhrlzIZfsIIsuDmO&wd=&eqid=c7d9761f0002125100000004627c655d' }
    req = urllib.request.Request(url=url, headers=headers, method='GET')
    response = urllib.request.urlopen(req)
    text = response.read().decode('utf-8')
    html = etree.HTML(text)
    sen_list = html.xpath('//div[contains(@class,"lemma-summary") or contains(@class,"lemmaWgt-lemmaSummary")]//text()')
    sen_list_after_filter = [item.strip('\n') for item in sen_list]
    return ''.join(sen_list_after_filter)
    

if __name__ =="__main__":
    url = 'https://baike.baidu.com/item/%E7%BE%8E%E5%9B%BD%E8%81%94%E9%82%A6%E8%B0%83%E6%9F%A5%E5%B1%80/297801?fr=aladdin'
    result = query(url)
    print('结果:' + result)

  • 关于如何设置headers:打开任意浏览器某一页面(要联网),按f12,然后点network,之后再按f5,然后就会看到“name”这里,我们点击name里面的任意文件即可。之后右边有一个headers,点击headers找到request headers,这个就是浏览器的请求报头了。然后复制其中的user-agent,其他的cookie还有Accept可以要也可以不要,主要是伪装成浏览器
  • referer的作用:对付防盗链,具体原因不展开说了,在这里其实没啥用
  • xpath:f12调出检查页面,根据指定位置,一般在div class=附近

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

【Python爬虫】百度百科词条内容 的相关文章

  • excel数据对比-----查找两列(表)的相同数据

    原创作品 xff0c 允许转载 xff0c 转载时请务必以超链接形式标明文章 原始出处 作者信息和本声明 否则将追究法律责任 http xueli blog 51cto com 3325186 920592 现有两个excel表 xff0c
  • discuz 微社区 您请求的XXXX无法访问 接口错误(ERR02)

    我遇到的情况 xff1a 1 UC可以访问页面 xff0c 用微信报错 2 4G网络下可以访问 xff0c WiFi网络下报错 网上有两种解决方法 xff1a 1 关闭防采集 xff0c 我最终的采用方法 2 default下的mobile
  • 所有文件夹都变成1KB文件夹快捷方式病毒的手动清除方法

    电脑差不多都因使用U盘而感染了病毒 xff0c 其中一个就是Autoran病毒的变种 xff0c 它的症状我就不再描述了 xff0c 另外一个病毒的症状是所有文件夹都变成了1KB文件夹快捷方式 xff0c 各盘无法双击打开 xff08 但右
  • 搜狗高速浏览器2.0使用体验

    2010年 4 月 8 号 xff0c 我们终于迎来了 国内浏览器的后起之秀搜狗高速浏览器2 0 正式版 的 发布 高速真双核引擎 的概念得到了落实 它新增并改进了诸多功能 xff0c 修改了一些bug xff0c 从整体提高 搜狗高速浏览
  • Connection refused错误

    这个问题整了我两天时间 xff0c 现在终于解决了 问题 xff1a 用php 构造http请求访问自身web服务器页面 xff0c 总是报Connection refused 111 错误 显示 xff1a unable to conne
  • QT样式表从入门到精通

    QT样式表从入门到精通 文章目录 QT样式表从入门到精通前言1 背景介绍2 初级学习2 1 34 盒子 34 模型2 2 语法说明2 3 基础控件2 4 控件状态表2 5 选择器 3 中级学习3 1 坐标讲解3 1 1 相对坐标3 1 2
  • GIF89a图片头文件欺骗

    1 什么是GIF89a 一个GIF89a图形文件就是一个根据图形交换格式 xff08 GIF xff09 89a版 xff08 1989年7 月发行 xff09 进行格式化之后的图形 在GIF89a之前还有87a版 xff08 1987年5
  • txt文件导入mysql

    LOAD DATA LOW PRIORITY CONCURRENT LOCAL INFILE 39 file name 39 REPLACE IGNORE INTO TABLE tbl name CHARACTER SET charset
  • mac下终端无法使用数字小键盘的解决方案

    终端下 偏好设置 xff0d 高级 xff0d xff08 去掉 xff09 允许VT100应用程序小键盘模式
  • Mac Eclipse Failed to load JavaHL Library.

    转自 xff1a http blog csdn net wy10207010219 article details 42294293 写这一篇前我想发表一下感慨 xff1a 你所害怕的事 xff0c 你想要逃避的事 xff0c 在将来的某个
  • ROS学习笔记(一)ROS安装和helloworld

    ROS学习笔记 xff08 一 xff09 ROS安装和helloworld 文章目录 一 ros安装及测试1 打开ubuntu软件和更新 xff0c 进行如下设置2 设置安装源3 设置安装密钥4 更新软件源5 安装ros6 添加命令7 初
  • 使用ActiveMQ进行C++与C#的通信4 - 使用C++连接ActiveMQ

    在上一节编译ActiveMQ CPP的基础上 xff0c 创建C 43 43 控制台应用程序 xff0c 将activemq cpp项目中的include文件夹拷贝到该C 43 43 项目中 xff0c 设置好附加包含目录 将生成好的lib
  • 使用ActiveMQ进行C++与C#的通信5 - 实现C++和C#的通信

    在前几篇文章分别实现C C 43 43 连接ActiveMQ的基础上 xff0c 本文介绍如何使它们通信 使不同的进程对同一个ActiveMQ消息队列进行访问 xff0c 就能够达到消息互通的效果 例如使用queue test1 log作为
  • 【计算机游戏开发】游戏交互界面设计

    github项目地址 一 实验目的与要求 熟悉交互界面设计原理 了解Cocos2d x中的用户交互 触摸事件 碰撞检测机制 二 实验内容与方法 完成游戏编译 50分 仿照实验一 英雄快跑 实验 xff0c 将教材源码和素材文件复制到自己的项
  • k-近邻实现手写数字识别

    1 k 近邻工作原理 简单地说 xff0c K近邻算法采用测量不同特征值之间的距离方法进行分类 该算法具有一下特点 优点 xff1a 精度高 对异常值不敏感 无数据输入假定 缺点 xff1a 计算复杂度高 空间复杂度高 K近邻算法的工作原理
  • selenium之CSS定位

    一 层级定位 1 xff1a 所有标签 2 标签名 xff1a 查找所有该标签名 3 标签名 xff0c 标签名 xff1a 查找多个标签名 id用 表示 索引尽量使用xpath 二 三大等待和切换 1 页面元素可以定位 xff0c 但是代
  • STM32核心笔记

    STM32核心笔记 文章目录 STM32核心笔记1 下载程序的两种方式1 1 串口ISP1 2 仿真器1 2 1 J Link1 2 1 ST LINK 2 认识寄存器3 地址总线与外设地址映射关系4 GPIO的三种配置5 时钟树6 常用中
  • 用efibootmgr管理UEFI启动项,添加丢失的启动项

    UEFI用来替代传统BIOS引导操作系统 xff0c 学会修改UEFI启动项也变得十分重要 xff0c UEFI全称为 xff1a 统一的可扩展固件接口 xff08 Unified Extensible Firmware Interface
  • JAVA-生产消费者模型

    简单介绍一下生产消费者模型 xff0c 如下图 xff1a 一般来说 xff0c 生产消费者模型就是消费者和生产者可以共同操作茶叶仓库这一个共享资源 打一个比方 xff0c 生产者生产茶叶供向茶叶市场 xff0c 消费者在茶叶市场购买茶叶
  • 悲观锁与乐观锁(CAS实现)

    CAS乐观锁 悲观锁 悲观锁与乐观锁 悲观锁 xff1a 总是假设最坏的情况 xff0c 每次去拿数据的时候都认为别人会修改 xff0c 所以每次在拿数据的时候都会上锁 xff0c 这样别人想拿这个数据就会 阻塞 直到它拿到锁 传统的关系型

随机推荐