python爬虫需要学哪些知识_Python爬虫程序要用到哪些知识和技术?

2023-10-27

相信喜欢动手的粉丝们已经在自己的电脑上跑过一遍这个程序了。但是对于初步接触python的人来说,一上来就搞一个python的爬虫,也的确会让自己摸不着头脑,但是如果我们一直写那种知识点型的文章的话,你们也会觉得只有知识点不过瘾,综合考虑后,还是觉得上这种案例好,哪怕我需要多写几篇文章才能解释清楚一个案例。

没有阅读过前面来两篇文章的同学,建议点进去阅读一下,以便于理解本文内容。

前面有点废话了,下面说正经的,这个用来从百度地图抓取某个区域边缘坐标点的爬虫程序用到了哪些知识点和技术呢?我一一列举出来:

1.对网页结构需要有一个基本的了解和认知。

我们平时上网浏览网页,信息展现在浏览器里面的页面中,但我们用爬虫要抓取的信息是放在网页源代码里面的。(图1为我们看到的页面,图2

为页面对应的网页源代码)

在浏览器中使用快捷键F12来调出该界面,这个界面称为开发者模式

2.知道如何去找到我们需要的信息在网页源代码的那个位置。

一般来说信息可能直接存在于网页的html页面中,但是有一些动态加载的信息可能存在于js页面中。有一些网站,它的数据价值比较高,总会有竞争对手去抓取它的数据,所以它就会有比较厉害的反抓取措施,一般新手很难应付这种反抓取措施。一般的静态网页要求你对浏览器的开发者模式很熟悉,能够利用这个工具去定位自己需要的信息在网页源代码中的那个位置,网上有相关教程,搜一下就能找到,更复杂的动态网页,就需要你对动态加载的网页有点研究才行。这些知识点和技能,都是需要自己动手去尝试才能学会的。

3.知道用什么python程序库去完成网页源代码的下载,解析,数据提取,存储。

python是一门很简单的编程语言,一方面是因为python的语法简洁,另一方面是因为在python社区,已经有很多很多的人为我们贡献了很多很多开源的程序库,我们在编写程序的时候,直接调用这些程序库,就能够省下很多很多工作量。比如在我分享的这个爬虫项目中,我使用了如下这些程序库:

# 导入需要使用的Python库import requestsimport jsonimport reimport pandas as pd

它们的作用见如下所述:

requests :根据url将网页源代码下载下来

json :用来将网页中的js内容转换为Python字典类型

re :正则表达式库,用于提取网页中满足一定规律的内容(比如本案例中的经纬度信息)

pandas :Python中操作结构化数据的程序库,能够实现几乎所有Excel的数据操作功能,本例中,用来结构化经纬度数据

4. 最后一点就是能够把这些知识和技术整合起来写出能够实现自己爬取数据需求的代码的能力了

这也是为什么我现在倾向于向大家分享具体的案例,而不是知识点。不过知识和技能只有内化吸收,才能成为自己的。我们最终的目的是为了使现实中的问题得到解决,因此在接触新技术,新的知识点后,要有意识的去整合它们,只有这样,才能提高自己解决实际问题的能力。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

python爬虫需要学哪些知识_Python爬虫程序要用到哪些知识和技术? 的相关文章

  • c语言复习笔记(一)——操作符和表达式

    前言 操作符 前言 一 算术操作符 1 基本的算术运算符 2 自增运算符和自减运算符 二 移位操作符 左移位操作符规则 右移操作符的规则 位操作符 三 sizeof运算符 四 逻辑操作符 五 逗号表达式 六 整形提升 七 自动类型转换 一
  • uniapp微信小程序常用防抖函数及调用

    先看代码 复制使用即可 防抖一般用于按钮使用 避免如登陆 购买等多次调用 如多次点击购买按钮在网速较慢下可能生成多个订单信息等 这里只是一个封装调用的简单流程 如您使用我们官方产品 uview 防抖参考 throttle debounce节
  • 基于新浪云服务器的微信公众号

    基于新浪云服务器的微信公众号 本微信公众号是智能浴室排雾及浴室滑倒报警系统的一个分支 通过设备上传到ONENET云平台 新浪云服务器调用云平台数据再反馈给微信公众号 从而实现微信公众号实时获取设备数据和发送报警信息给指定用户 因为只是代码放
  • 自动完成文本框(AutoCompleteTextView)的功能及用法

    自动完成文本框AutoCompleteTextView是从EditText派生而出的 也属于是一个文本编辑框 但是 他比普通编辑框多一个功能 当用户输入一定字符后 自动文本框会显示一个下拉菜单 供用户从中选择 当用户选择某个菜单项之后 Au
  • Spring 如何解决循环依赖的问题(三级缓存)

    一 Spring IOC容器 对象循环依赖 1 什么是循环依赖 what 1 循环依赖 gt 循环引用 gt 即2个或以上bean 互相持有对方 最终形成闭环 eg A依赖B B依赖C C又依赖A 注意 这里不是函数的循环调用 是个死循环
  • c ++比较字符串是否相等_在C ++中比较字符串的3种方法

    c 比较字符串是否相等 In this tutorial we ll learn methods to compare strings in C Consider a scenario wherein you are required to
  • MFC之文档视图案例30

    1 文档视图案例的初始化 1 创建基于单文档的MFC程序 但是到下图步骤时 需要换一下视图的继承基类为CFormView 这样下面我们就多出了FORM这个对话框 以前单文档继承于CView时是没有对话框的 所以无法操作控件 2 然后按如下所
  • 2021年最新Python讲义:面向对象(OOP)基本概念

    面向对象 OOP 基本概念 面向对象编程 Object Oriented Programming 简写 OOP 目标 了解 面向对象 基本概念 01 面向对象基本概念 我们之前学习的编程方式就是 面向过程 的 面相过程 和 面相对象 是两种
  • 无监督学习之聚类方法(K-Means、层次聚类)

    一 导入 无监督学习中需要对无标记样本进行训练学习进而找到数据的内在性质和逻辑结构 聚类方法是为了为无监督学习的数据分析提供的基础学习方法 聚类将数据集划分为若干个子集 每个子集称为类或者簇 如果一个样本只属于一个类 簇 则是硬聚类 如果某
  • 算法题的ACM模式与核心代码模式

    不同的刷题模式 身为一名程序员 刷题网站系统我们应该再熟悉不过了 除了针对竞赛的 OJ 系统 比如 POJ 还有很多专为求职提供的刷题 OJ 系统 比如 leetcode 牛客网 等 这两类 OJ 在刷题模式上有些区别 一般竞赛的 OJ 系
  • Windows 照片查看器无法显示此图片,因为计算机上的可用内存可能不足

    问题 Windows 照片查看器无法显示此图片 因为计算机上的可用内存可能不足 问题分析 经沟通 打不开的照片都是扫面件 按F11或者使用画图软件可以打开 说明本身是没有问题的 而且一般导致该问题的图片都是照相机拍出来的 那是因为 Wind
  • 一文搞懂考研数列极限问题(概念/计算/证明)史上最强/最全总结

    不管本科高数还是考研数学 数列极限问题 看这一篇文章管够 看完还不会做你来找我 数列极限 是数列和极限两个充满不确定性的概念相混合 容易让人产生摸不着头脑 看到题目就害怕的感觉 本篇文章就按以下目录对这块儿重难点拨云见日 内容循序渐进 越往
  • Java获取Json中的数据

    目录 1 普通元素 2 属性包含大括号 3 属性包含中括号 4 属性中既有中括号包括 又嵌套了大括号 使用com alibaba fastjson解析 总结 一个花括号 放进JSONObject一次 一个中括号 放进JSONArray一次
  • S3fs挂载报错提示

    s3fs挂载报错 提示s3fs unable to access MOUNTPOINT backup fileserver Transport endpoint is not connected s3fs appfiles v1 backu
  • texlive2020安装过程中的问题

    问题 安装TeXstudio后找不到编译文件 运行cmd 添加tex vertion表示找不到该文件 都是因为系统变量名称添加不全导致 打开系统变量名后我发现最后确实添加了c texlive 2021 bin win32这条路径 但是没有写
  • 工具及方法 - 利用在线网站Gravatar创建你的个人Profile

    Gravatar是一个永久免费的网站 不收取任何人的费用 它为个人提供公开的头像和介绍信息 并以供整个网络访问 你的信息和邮箱绑定 Gravatar提供了根据此邮箱即可访问你信息的服务 这样不管你登录到哪个网站来发表评论或进行互动 都可以使
  • 利用OpenCV把一幅彩色图像转换成灰度图

    图像灰度化的目的是为了简化矩阵 提高运算速度 彩色图像中的每个像素颜色由R G B三个分量来决定 而每个分量的取值范围都在0 255之间 这样对计算机来说 彩色图像的一个像素点就会有256 256 256 16777216种颜色的变化范围
  • GuLi商城-前端基础Vue-整合ElementUI快速开发

    npm安装 启动项目 npm run dev http localhost 8082 hello
  • 微信公众号开发中遇到的问题——支付(二)

    第一次开发微信公众号 也是第一次接触微信公众号的支付 我使用的是jssdk 用h5页面调用的支付 后台使用的是java 首先声明 我不是一个愤世嫉俗的人 也不喜欢吐槽 我认为别人提供接口就已经很不错了 干嘛要吐槽呢 但是 这一次 我不得不说

随机推荐

  • kettle报错 Error occurred while trying to connect to the database 三种可能性分析

    如图 报这个错误有以下几种原因 1 电脑没有安装orcal 如果不想安装oracle又想进行oracle远程相关操作 还可以安装oracle运行库 instantclient basic 2 没有将oracle安装路径下的jar包拷贝到ke
  • 使用fastboot工具刷入recovery.img、boot.img、system.img等

    下载解压 fastboot工具 解压FastBoot工具 zip 将解压得到的 FastBoot文件夹复制到任意盘如 D盘 将要刷入手机的recovery img recovery img等放到FastBoot文件夹 安装好手机型号对应的U
  • C++11中std::lock_guard的使用

    互斥类的最重要成员函数是lock 和unlock 在进入临界区时 执行lock 加锁操作 如果这时已经被其它线程锁住 则当前线程在此排队等待 退出临界区时 执行unlock 解锁操作 更好的办法是采用 资源分配时初始化 RAII 方法来加锁
  • 医疗器械安规三项是什么?1、漏电流测试 IEC60950-1 2、电介质强度测试=耐压测试?GB9706 3、保护接地电阻测试=保护接地 ?GB9706

    医疗器械行业标准 并列标准 电磁兼容YY0505 2012 最新生效2023 05 01 YY9706 102 2021 医疗器械安规三项是什么 GB9706 1 2007最新生效GB9706 1 2020 1 漏电流测试 IEC60950
  • 树与二叉树 —— 十分钟吊打数据结构

    目录 传统艺能 树的的概念与结构 基本术语 树的表示 树的实际应用 二叉树 二叉树的性质 传统艺能 小编是双非本科大一菜鸟不赘述 欢迎大佬指点江山 QQ 1319365055 此前博客点我 点我 请搜索博主 知晓天空之蓝 乔乔的gitee代
  • Requirement already satisfied 解决方法

    python m pip install urllib3 upgrade pip 出现 Requirement already satisfied 解决方法 加上路径即可 跟新pip python m pip install target
  • 攻防世界-pwn when_did_you_born(栈覆盖)

    0x01 拿到文件之后 先检查文件的基本信息 文件信息 64bit elf可执行文件 无PIE保护 0x02 执行文件 文件之中有两个输入 第一个输入有回显 0x03 IDA静态分析 可以看出获取flag需要用到v5的值 首先需要v5不等于
  • 召唤神龙小游戏

    文章底部有源码地址 免费获取 游戏介绍 召唤神龙小游戏是一款最近爆火朋友圈的休闲吞噬成长类手机游戏 召唤神龙提供了最轻松的吞噬玩法以及多种不同形态的转换机制 玩家需要从一只小蝌蚪开始游戏 一点点吃东西成长为一条庞大的神龙 在召唤神龙游戏中
  • 深度学习词嵌入和传统机器学习结合

    CNN词嵌入和xgboost结合 在使用小批文本数据进行深度学习时 由于数据量的限制 最终的网络往往过拟合 在验证集上达不到目标结果 传统机器学习算法 例如xgboost 对于小数据量不容易达到过拟合 但是需要对文本进行特征提取 下面的想法
  • python 中的面向对象

    目录 面向对象基础 面向对象 面向过程 面向过程编程 面向对象基本概念 面向对象 类和对象 类 对象 类和对象的关系 类的设计 定义类名 属性和方法的确定 面向对象基本语法 定义简单的类 只包含方法 定义类 self的使用 面向对象基础 面
  • MySQL架构存储引擎以及性能优化

    文章目录 MySQL架构图 性能监控 schema与数据类型优化 执行计划 索引优化 查询优化 分区表 MySQL架构图 连接器 管理数据库连接 权限验证 用户成功建立连接后 即使管理员账号对这个用户的权限做了修改 也不会影响已经存在连接的
  • 将UTC时间(2018-07-03T10:18:58.000Z)转换为北京时间

    2018 07 03T10 18 58 000Z是什么时间格式 UTC 时间标准时间 世界标准时间 GMT 格林尼治时间 GST 北京时间 js如何处理UTC时间格式 遇到问题 用了阿里云的接口 发现传的日期是UTC格式的 需要转换 b b
  • 前端部署>>>从0部署项目到服务器

    从0部署项目到服务器 第一次正式写文章 有点小兴奋 紧张 也不知道该说啥 感觉有用就给我点一个小爱心把 求求了 急需续命 1 准备步骤 2 基础语法 3 服务器环境和镜像 4 liunx环境安装node 5 部署后端项目1 搭建node接口
  • EasyPoi实现Excel导入导出

    EasyPoi实现Excel导入导出 1 导入依赖
  • Java基于微信小程序的青少年健康心理科普平台

    第一章 简介 青少年心理健康科普平台为用户提供心理医生咨询服务 系统包括微信小程序端和后台 微信小程序用户可以先进行注册 填写个人的基本信息提交到服务器 服务器把数据保存到数据库 管理员对青少年的信息进行验证后 青少年通过验证后的用户名和密
  • 使用平均值填充R语言数据框中的缺失值

    使用平均值填充R语言数据框中的缺失值 在数据分析和统计建模的过程中 处理缺失值是一个常见的任务 在R语言中 数据框 data frame 是一种常用的数据结构 它可以包含多个变量 列 和观察 行 当数据框中存在缺失值时 一种常见的方法是使用
  • 《卓有成效的管理者》读书笔记(一)

    文章目录 写在前 有效是可以学会的 为什么需要有效的管理者 谁是管理者 管理者面对的现实 如何解决 如何学会有效这种习惯 写在前 技术做到上面 需要一些软技能 比如沟通 管理等能力 有分享和输出自己的欲望 先从学习管理开始 一个好的管理者首
  • 疫情期间,如何利用一台电脑或一部手机在家通过互联网来挣钱?

    作者 杨小二 来源 杨小二的小江湖 疫情期间 很多企业开始实施在家远程办公 也有的企业开始尝试慢慢复工 但是听到和看到的很多消息就是 我们公司通知疫情期间降薪30 我们只发放最低基本工资 我们停薪留职 于是 就让我想起了之前被朋友圈刷屏的扎
  • 其他软件

    1 notepad 快捷键 alt 鼠标左键 复制一列 npotepad 转换xml格式 json格式 语言xml 插件 xml tools preety第一个 preety第二个
  • python爬虫需要学哪些知识_Python爬虫程序要用到哪些知识和技术?

    相信喜欢动手的粉丝们已经在自己的电脑上跑过一遍这个程序了 但是对于初步接触python的人来说 一上来就搞一个python的爬虫 也的确会让自己摸不着头脑 但是如果我们一直写那种知识点型的文章的话 你们也会觉得只有知识点不过瘾 综合考虑后