老孙的爬虫（四）-------储存多层次的数据，使用递归不断请求，设置id与p_id确定数据的父子关系

2023-11-06

测试网站：https://d.qianzhan.com/xdata/list/xfyyy0yyIxPyywyy2xDxfd.html

数据的储存要求：储存的数据能看出父子关系

思路：因为该网站数据是层层打开的，使用递归不断请求。需要额外储存一些数据来区分数据的层次以及关系。例子：假设a数据id为1，则在a数据的子数据的p_id就都用a的id 1.

代码如下：

from pymongo import MongoClient
import requests
from lxml import etree
from Ip_and_Agent.ip_and_Agent import User_Agent,Inland_ip

con=MongoClient("localhost",27017)
db=con.Runoob
my_set=db.qianzhan_set6

#get_html（）方法封装的是requests请求，里面的Inland_ip是我随机取出单独封装的国内ip，User_Agent()是随机表头

def get_html(url): 
    req=requests.get(url,proxies={"http":Inland_ip},headers={"User_Agent":User_Agent})
    # print(req.text)
    return req.text

#从存入到mongodb的数据中取出，取出后修改状态

def get_key():
    get_key = my_set.find_one_and_update({"state": 0}, {"$set": {"state": 1}})
    return get_key

#大致思路就是，把从第一个传入的参数作为第0层，然后将获取的第一层数据定义为第一层（即level为1），并且各个数据的id为1。然后只要是从第一层里取出的url再次放入函数中取值，把第一层存放的id作为第二层的p_id，这样根据id和p_id区分父子关系
id = 0
def get_data(url,level,p_id):
    global id
    # for index in range(1, 10):
    # for url in recover_url(url_list):
    print("url:   ",level,url)
    text = get_html(url)
    html = etree.HTML(text)
    my_title = html.xpath("//div[@class='searchfilter_sub']["+str(level)+"]/a/text()")[1:]
    my_url = html.xpath("//div[@class='searchfilter_sub']["+str(level)+"]/a/@href")[1:]
    # my_set.update({"title":my_title,"url":my_url,"next_title":[{}]})

    if my_title==[]:
        data_title=html.xpath("//div/table/tbody/tr/td[1]/a/text()")
        data_url=html.xpath("//div/table/tbody/tr/td[1]/a/@href")
        try:
            for title2 in data_title:
                id += 1
                my_set.insert_one({"id": id, "p_id": p_id, "title": title2, "url": "https://d.qianzhan.com"+my_url[1], "level": level + 1, "state": 0})
                print(data_url)
        except:
            pass
        return
    else:
        # pass
        print("my_title:",my_title)
        index=0
        for title in my_title:
            id+=1
            print("id:",id)
            my_set.insert_one({"id":id,"p_id":p_id,"title":title,"url":"https://d.qianzhan.com"+my_url[index],"level":level,"state":0})
            index += 1
            # get_data=my_set.find_one_and_update({"state":0},{"$set":{"state":1}})
            data=get_key()
            new_level=data["level"]+1
            new_url=data["url"]
            new_id=data["id"]
            print(new_id,new_url,new_level)
            get_data(new_url,new_level,new_id)
            # print(index,my_title )

get_data("https://d.qianzhan.com/xdata/list/xfyyy0yyIxPyywyy2xDxfd.html",1,0)   #这里我并没有将第一层存入，而是直接以参数传入

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

老孙的爬虫（四）-------储存多层次的数据，使用递归不断请求，设置id与p_id确定数据的父子关系的相关文章

spring boot配置druid(德鲁伊)

spring boot配置druid 德鲁伊关于druid的介绍请看阿里巴巴温少访谈 1 引入相关依赖全部依赖是上一篇spring boot mybatis依赖的基础上再加上下边的依赖如下
[note] deep learning tensorflow lecture 1 notes 深度学习笔记 (1)

1 logistic classifier model W X b Y where W is the Weights Vector X is input vector b is bias and Y is output Y the outp
Gamemaker studio2经验（2）——TCP联机

问题概述众所周知gamemaker是一款制作2d游戏的优秀引擎但是落后的弱联网机制始终是一个坑所幸在gms2中 yoyogames集团加入了TCP的联机机制这也为gm系列引擎制作联网游戏带来了希冀下面用一个最简单的红蓝球游戏作
spring boot打jar包和打war包的区别作用

spring boot既可以打成war发布也可以找成jar包发布说一下区别 jar包直接通过内置tomcat运行不需要额外安装tomcat 如需修改内置tomcat的配置只需要在spring boot的配置文件中配置内置tomc
shell函数【参数传递及输入输出】&内置函数

Linux shell脚本基础3 shell函数参数传递及输入输出内置函数函数定义 1 退出状态 1 参数传递 2 标准IO 2 脚本调试 2 AND OR 3 内置命令补充 3 函数定义函数定义在Shell 中函数就是一组命令
数据可视化：读取csv文件绘制图表

怎样去读取csv文件怎样去读每一行的某一列提取并读取数据读取每天的最高气温 import csv filename sitka weather 07 2014 csv with open filename as f reader cs
深入理解微分、积分电路！搞懂PID控制原理就这么简单！

很多朋友觉得PID是遥不可及很神秘很高大上的一种控制对其控制原理也很模糊只知晓概念性的层面知其然不知其所以然那么本期从另类视角来探究微分积分电路的本质意在帮助理解PID的控制原理 PID P表示比例控制 I表示积分控制 D表
Ｌｉｎｕｘ异步通知，以及Ｑt的调用

参考帖子 http bbs elecfans com jishu 913446 1 1 html
Python在26个字母大小写和9个数字组成的列表中随机生成8位密码。

from random import def makepasswd a b 定义一个生成密码的函数可先先看main 函数 frequency 0 用于计算生成密码的个数 Allpasswd 用于存放生成的密码 while frequenc
hdu 4405 Aeroplane chess

Problem acm hdu edu cn showproblem php pid 4405 vjudge net contest 151678 problem R Reference bbs csdn net topics 380193
springboot+thymeleaf前端调用date函数bean name ‘#dates‘ available as request attribute

问题描述
机器学习基础：监督学习深入介绍

目录监督学习三要素监督学习实现步骤监督学习模型评估策略模型评估模型选择监督学习三要素模型 model 总结数据的内在规律用数学函数描述的系统算法 algorithm 选取最优模型的具体方法策略 strategy 选取最优
jdbctypetimestamp_数据库中date、time和timestamp类型读取和写入

存储格式 date yyyy mm dd time hh mm ss timestamp yyyy mm dd hh mm ss 对应Java类型 date java sql Date time java sql Time timestam
服务器渲染技术--＞Thymeleaf

目录一基本介绍 1 Thymeleaf 是什么 2 Thymeleaf 的优点 3 Thymeleaf 的缺点二 Thymeleaf 机制说明三 Thymeleaf 语法 1 表达式 1 表达式一览 2 字面量 3 文本操作 2 运
基于策略的强化学习(一)

基于策略的强化学习基于策略的强化学习解决的问题策略目标函数基于策略的强化学习解决的问题解决行为空间连续观测受限随机策略的强化学习等问题策略目标函数在基于策略的强化学习中策略 pi 可以被描述为一个包含参数 theta
初探LSTM——异常事件检测

文章参考 Abnormal Event Detection in Videos using Spatiotemporal Autoencoder Learning Temporal Regularity in Video Sequences
使用sqlserver manager创建作业时报错c001f011

在使用sqlserver创建作业时有时会报错如下 IClassFactory 为 CLSID 为 17BCA6E8 A95D 497E B2F9 AF6AA475916F 的 COM 组件创建实例失败原因是出现以下错误 c001f01
【flutter text文本添加渐变色】

给text文本添加颜色渐变使用ShaderMask gradientText text Alignment begin Alignment end colors return ShaderMask shaderCallback rect r
双路服务器单路运行,什么叫双路服务器？与PC机、单路机有什么区别？

什么叫双路服务器与PC机单路机有什么区别单路服只有一个处理器路两个处理器双路服务器才是真正的服务器PC机和单路机并不是真正意义上的服务器虽价格便宜但在性能上稳定性上无法与双路机比拟所以亲们购买服务器一定要买双路的求采纳
将Windows的复制粘贴到Linux上

安装 sudo apt get autoremove open vm tools 安装 sudo apt get install open vm tools desktop 输入reboot重启配图作者地址 https blog csdn

随机推荐

Quartz定时任务之二从数据库中读取任务

Quartz默认的任务是存储在内从中的这点可以从启动日志中找到 Scheduler class org quartz core QuartzScheduler running locally NOT STARTED Currently i
【ssh登陆问题】no matching cipher found / no matching key exchange method found

no matching cipher found no matching key exchange method found 解决方法修改ssh配置文件添加相应设置即可 1 ssh 加密方法和密钥交换方式登陆设置方法本地ssh需要进行
apple更新Final Cut Pro10.5.3等视频四件套，针对M1芯片优化增强。

apple近日同时更新了自家的视频编辑四件套 iMovie10 2 4 Final Cut Pro10 5 3 Motion5 2 2 和 Compressor4 5 3 的更新此次更新都是针对apple芯片优化增强提高了采用 Appl
从0开撸C++系列（二）——c++的继承

从0开撸C 系列往期地址 c 的封装本期主题 c 中的继承文章目录从0开撸C 系列 1 c 的继承介绍 2 不同类型的继承 2 1 public继承 2 2 private继承 2 3 protected继承 3 关于继承的总结 1
Tomcat下JSP、Servlet和JavaBean环境的配置

Tomcat下JSP Servlet和JavaBean环境的配置经常看到jsp的初学者问tomcat下如何配置jsp servlet和bean的问题于是总结了一下如何tomcat下配置jsp servlet和ben 希望对那些初学者有所
自制第一块最精简esp32s3开发板踩坑（仅限硬件小白来看）

老早就想自己做一块esp32开发板了手残没信心于是先做了一些简单的建立信心现在终于来挑战它了经过努力做坏了4个板子之后终于好了目前就是pcb的hello world级别水平就是做个最简单的问题来了最简的esp32开发板到
用Python进行网络爬虫和数据分析的初次尝试（一）

某天突然起了兴致想知道国内每个成员有多少粉但不知道应该怎么做各个应援会论坛的用户数很多粉也去其它成岩的应援论坛不靠谱各个贴吧会员数这只能说明某个成员是否出名并且也有和应援论坛相同的弊端最好的方法是在一个中立无成员倾向的
Centos7 firewall-cmd 命令报错 ModuleNotFoundError: No module named ‘gi‘

安装了python3的解释器并设置新默认路径后 python是指向python3的而原来的系统firewall cmd 是命令脚本是使用python2的而python3没有对应包需要修改firewall cmd命令脚本让它依旧使用p
十二条后端开发经验分享，总有一条你不知道

前言本文是博主从事后端开发以来对公司个人项目的经验总结包含代码编写功能推荐第三方库使用及优雅配置等希望大家看到都能有所收获博主github地址 https github com wayn111 一优雅的进行线程池异常处理
SQL语句中对时间字段进行区间查询

title SQL语句中对时间字段进行区间查询 created 2022 03 15T01 31 14 505Z modified 2022 03 15T01 48 07 370Z SQL语句中对时间字段进行区间查询当项目中需要查询某一段
docker安装mysql8 并且忽略大小写问题解决

一 docker安装mysql8 1 拉取镜像 docker pull mysql 2 docker安装mysql 只需要执行docker run name mysq db p 3306 3306 e MYSQL ROOT PASSWORD
WebSocket：最简单的实现方式——>初学者。WebSocket注入Service的方法。

使用本方法不需要任何jar包但是需要引用tomcat 不然无法引用注释 ServerEndpoint var ws new WebSocket url protocol url 指定连接的服务器 protocol 可接受的子协议 var
python中的pygame使用_python 中的pygame的一些基本使用总结

什么是pygame pygame是一个python中的一个游戏库用于2D游戏的开发下面是关于pygame的一些常用方法首先需要导入 import pygame 窗口的相关操作创建一个窗口 screen pygame display
verilog HDL +UART实验+数码管动态显示

功能板子接受通过RS232接受串口调试助手发送的一个字节数据然后将其转化成0 255的十进制数在4位数码管上显示出来只用到了3位不用的位熄灭只有有数字的位才显示说明 UART部分还是参考特权的Verilog程序谢谢前辈啊
人脸图像数据增强

为什么要做数据增强在计算机视觉相关任务中数据增强 Data Augmentation 是一种常用的技术用于扩展训练数据集的多样性它包括对原始图像进行一系列随机或有规律的变换以生成新的训练样本数据增强的主要目的是增加模型的泛化能力
技术前言 - 芯片制造工序详解

制造工序芯片简介工序简介硅片制造生产流程行业壁垒 IC设计设计流程行业壁垒芯片制造封装测试制造流程封装测试行业壁垒九大核心设备参考文档芯片简介种类 1 按照性质数字模拟芯片 2 按照用途计算机家电手
对象检测工具包mmdetection简介、安装及测试代码

mmdetection是商汤和港中文大学联合开源的基于PyTorch的对象检测工具包属于香港中文大学多媒体实验室open mmlab项目的一部分该工具包提供了已公开发表的多种流行的检测组件通过这些组件的组合可以迅速搭建出各种检测框架
常用序列的MATLAB代码（一）

1 典型序列函数 1 单位冲激序列 function x n impseq n0 ns nf ns 序列的起点 nf 序列的终点 n0 序列在n0处有一个单位脉冲 x 产生的单位采样序列 n 产生序列的位置信息 n ns nf x n n0
vue-cli 3.0 使用 npm 报错

问题 vue cli 3 0 使用 npm 报错最近 vue 项目打算使用 vue cli 3 0 生成模板全部默认配置生成模板后使用了 npm 安装依赖后项目不能正常运行看npm install 后的执行代码好像在不
老孙的爬虫（四）-------储存多层次的数据，使用递归不断请求，设置id与p_id确定数据的父子关系

测试网站 https d qianzhan com xdata list xfyyy0yyIxPyywyy2xDxfd html 数据的储存要求储存的数据能看出父子关系思路因为该网站数据是层层打开的使用递归不断请求需要额外储存一些

老孙的爬虫（四）-------储存多层次的数据，使用递归不断请求，设置id与p_id确定数据的父子关系

老孙的爬虫（四）-------储存多层次的数据，使用递归不断请求，设置id与p_id确定数据的父子关系 的相关文章

随机推荐

热门标签

老孙的爬虫（四）-------储存多层次的数据，使用递归不断请求，设置id与p_id确定数据的父子关系的相关文章