爬虫实例十二沪深证券股票全站数据爬取

2023-11-13

先上代码

import requests
from lxml import etree
import openpyxl
import time
import random

#新建workbook对象
wb=openpyxl.Workbook()
#创建正在操作的表
sheet = wb.active
#设置表头
sheet.append(['股票名称','股票代码','最新价','涨跌幅','涨跌额','成交量','成交额','今开','昨收','最高','最低'])

#遍历全站单页链接并解析数据
for p in range(0,100):
   url="https://hq.gucheng.com/HSinfo/XSHE/?en_hq_type_code=XSHE&sort_field_name=px_change_rate&sort_type=desc&page="+str(p)
   headers={
      "User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36"
   }
   html=requests.get(url=url,headers=headers).text
   time.sleep(random.randint(1,3))
   tree=etree.HTML(html)
   GP_name=tree.xpath("//tbody/tr/td[1]/a/text()")
   GP_number=tree.xpath("//tbody/tr/td[2]/a/text()")
   NEW_price=tree.xpath("//tbody/tr/td[3]/text()")
   UP_DOWN=tree.xpath("//tbody/tr/td[4]/text()")
   Rise_fall=tree.xpath("//tbody/tr/td[5]/text()")
   Turnover_one=tree.xpath("//tbody/tr/td[6]/text()")
   Turnover_two=tree.xpath("//tbody/tr/td[7]/text()")
   day=tree.xpath("//tbody/tr/td[8]/text()")
   yesterday=tree.xpath("//tbody/tr/td[9]/text()")
   hightly=tree.xpath("//tbody/tr/td[10]/text()")
   lowly=tree.xpath("//tbody/tr/td[11]/text()")
   # 将数据添加进列表
   datas=[]
   for j in range(0,len(UP_DOWN)):
      data=[GP_name[j],GP_number[j],NEW_price[j],UP_DOWN[j],Rise_fall[j],
            Turnover_one[j],Turnover_two[j],day[j],yesterday[j],hightly[j],lowly[j]]
      datas.append(data)
   for s in datas:
      sheet.append(s)
   wb.save('100页股票数据.xlsx')

目标网址：
https://hq.gucheng.com/HSinfo/XSHE/?en_hq_type_code=XSHE&sort_field_name=px_change_rate&sort_type=desc&page=3

在这里插入图片描述
这个网站跟房产排行一样也是没有动态加载，所以也是没啥难度，但数据用来做大数据练习还是不错的

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Requests

python

爬虫实例十二沪深证券股票全站数据爬取的相关文章

使用“iloc”时出现“尝试在 DataFrame 切片的副本上设置值”错误

Jupyter 笔记本返回此警告 C anaconda lib site packages pandas core indexing py 337 SettingWithCopyWarning A value is trying to be
如何将字典转换为字符串

我正在尝试使用提供的解决方案here https stackoverflow com questions 5192753 how to get the number of occurrences of each character usin
Tensorflow 导入错误：没有名为“tensorflow”的模块

我在 Windows Python 3 5 Anaconda 环境中安装了 TensorFlow 验证成功有警告 tensorflow C gt python Python 3 5 3 英特尔公司默认 2017 年 4 月 27 日 1
在numpy中，[:,None]选择有什么作用？

我正在学习 Udacity 的深度学习课程我遇到了以下代码 def reformat dataset labels dataset dataset reshape 1 image size image size astype np flo
在 HSV 颜色空间内定义组织学图像掩模的颜色范围（Python、OpenCV、图像分析）：

为了根据颜色将组织学切片分成多个层我修改了 OpenCV 社区提供的一些广泛分布的代码 1 我们的染色程序用不同的颜色标记组织横截面的不同细胞类型 B 细胞为红色巨噬细胞为棕色背景细胞核为蓝色 I m interested in se
OpenPyXL - 如何查询单元格边框？

python 和 openpyxl 都是新的编写一个 py 脚本来遍历大量 Excel 工作簿工作表并且需要找到由边框格式标识的某些单元格我在网上看到几个关于如何设置单元格边框的示例但我需要阅读它们具体来说当表内的数据不一致但
代码运行时出现内存问题（Python、Networkx）

我编写了一个代码来生成具有 379613734 条边的图但由于内存问题代码无法完成当经过 6200 万行时大约会占用服务器内存的 97 所以我杀了它您有解决这个问题的想法吗我的代码是这样的 import os sys impor
会话cookie太大烧瓶应用程序[重复]

这个问题在这里已经有答案了我正在尝试使用会话本地加载某些数据并且它已经工作了一段时间但是现在我收到以下警告并且不再加载通过会话加载的数据 b session cookie 太大该值是 13083 字节但是标头需要 44 个
python下安装xgboost 32位msys失败

尝试安装 xgboost 失败 Windows 和企业版版本为 Anaconda 2 1 0 64 位我该如何继续我一直在使用 R 似乎从 RStudio 在 R 中安装新包相当容易但在间谍程序中则不然因为我需要进入命令窗口来执行此
如何在 matplotlib 图中禁用 xkcd？

您可以通过以下方式打开 xkcd 风格 import matplotlib pyplot as plt plt xkcd 但如何禁用它呢 I try self fig clf 但这行不通简而言之要么使用 Valentin 提到的上下文管
如何在 Python 中从 C++/C# 紧密实现 ?: ？

在 C 中我可以轻松编写以下内容 string stringValue string IsNullOrEmpty otherString defaultString otherString 有没有一种快速的方法可以在 Python 中做同
.NET 是否有相当于 Python 中的 **kwargs 的功能？

我一直无法通过典型渠道找到这个问题的答案在Python中我可以有以下函数定义 def do the needful kwargs Kwargs is now a dictionary i e do the needful spam 42
有没有比 ` except: pass` 更简洁的替代方案？

我有一个函数可以按偏好顺序返回多个组的随机成员事情是这样的 def get random foo or bar I d rather have a foo than a bar if there are foos return get
Python 正则表达式中的 \B+ 与 [\B]+ 与 [^\b]+

我在回答 SO 问题时遇到了一个我不明白的问题我创建了一个简化的示例来说明该问题场景我正在测试两个标记不是随机的英语单词在字符串中至少相距一定距离在这个例子中我们有一个动物列表我们要确保在羊和狼之间至少还有其他三种动物否则
Mxnet - 缓慢的数组复制到 GPU

我的问题我应该如何在 mxnet 中执行快速矩阵乘法我的具体问题数组复制到 GPU 的速度很慢对此我们能做些什么呢我创建随机数组将它们复制到上下文中然后相乘 import mxnet as mx import mxnet nd
Django model.foreignKey 并返回 self.text 错误

所以我正在 Django 中处理 model py 但遇到了 2 个 pylint 错误我不明白为什么这是 pylint 的问题还是我在代码中做错了什么 E1120 No value for argument on delete in
当没有 main 函数时，为什么 sys.settrace 不触发？

import sys def printer frame event arg print frame event arg return printer sys settrace printer x 1 sys settrace None 上
Python 中的否定

如果路径不存在我尝试创建一个目录但是不运算符不起作用我不知道如何在 Python 中进行否定正确的方法是什么 if os path exists usr share sounds blues proc subprocess Po
捕获 subprocess.run() 的输入

我在 Windows 上有一个交互式命令行 exe 文件是由其他人编写的当程序出现异常时它会终止并且我对程序的所有输入都会丢失所以我正在编写一个 python 程序它调用一个阻塞子进程subprocess run 并捕获所有输入
我可以在某些网格中打印带有颜色的 pandas 数据框吗？

我有一个 pandas DataFrame 我想突出显示一些数据例如 In 1 import pandas as pd In 2 import numpy as np In 3 df pd DataFrame np reshape ran

随机推荐

华为OD机试 - 英文输入法（Java）

题目描述主管期望你来实现英文输入法单词联想功能需求如下依据用户输入的单词前缀从已输入的英文语句中联想出用户想输入的单词按字典序输出联想到的单词序列如果联想不到请输出用户输入的单词前缀注意英文单词联想时区分大小写缩略形式
requests库学习

requests库学习 requests快速上手 http 2 python requests org zh CN latest user quickstart html Requests库是用来发送HTTP请求接收HTTP响应的一个Py
ES使用中遇到的坑

1 ES分页超过10000条报错 es 默认采用的分页方式是 from size 的形式是一种逻辑上的分页在深度分页的情况下采用from to方式进行分页效率会非常的低例如以下查询 1 GET student doc search
记一次在k8s集群搭建的Harbor私有仓库无法提供服务之镜像迁移恢复实践

本章目录记一次在k8s集群搭建的Harbor私有仓库无法提供服务之镜像迁移恢复实践描述 Harbor 是一个用于存储和分发Docker镜像的企业级Registry服务器通过添加一些企业必需的功能特性例如安全标识和管理等扩展了开源
内网隧道代理技术（十七）之 NPS的使用

NPS的介绍和使用 NPS介绍 nps是一款轻量级高性能功能强大的内网穿透代理服务器目前支持tcp udp流量转发可支持任何tcp udp上层协议访问内网网站本地支付接口调试 ssh访问远程桌面内网dns解析等等此外还支持
[752]压力测试工具-ab工具

在学习ab工具之前我们需了解几个关于压力测试的概念吞吐率 Requests per second 概念服务器并发处理能力的量化描述单位是reqs s 指的是某个并发用户数下单位时间内处理的请求数某个并发用户数下单位时间内能处理的最
JS进阶第三篇：开发中对数组及对象的判断方法

系列文章传送门 JS进阶第一篇手写call apply bind JS进阶第二篇函数参数按值传递文章目录 JS判断数组 1 通过instanceof运算符判断 2 通过constructor判断 3 通过数组自带的isArray方法判
ESP32-C3 应用篇（实例二、通过蓝牙将传感器数据发送给手机，手机端控制 SK6812 LED）

ESP32 C3 蓝牙部分我们学习了GATT 本文尝试使用蓝牙做一个简单的小应用目录前言一整体框架二数据传输部分 2 1 添加温湿度驱动组件 2 2 传感器数据传输程序再次说明 ESP GATTS READ EVT 事件 2
Git版本控制器的基本使用

摘要 Git 是一个分布式版本控制软件最初本是为了更好的管理Linux内核开发而被林纳斯托瓦兹开发后来因为项目开发中版本控制的强烈需求而git也日趋成熟最终成为了一个独立的版本控制软件 git 分布式版本控制目录关于git
正则表达式匹配第一个单个字符

匹配单字符数字 d表示0 9的数字只匹配一个 import re result re match r d 3python print result result re match r d python3 print result 运行结
ipsec.secrets

IPSEC SECRETS 5 strongSwan IPSEC SECRETS 5 NAME ipsec secrets secrets for IKE IPsec authentication DESCRIPTION The file
多元共进｜科技促进艺术发展，助力文化传承

科技发展助力文化和艺术的传播融合传统与创新碰撞独特魅力一起来了解 2023 Google 开发者大会上谷歌如何依托科技创新推动艺术与文化连接传承和弘扬传统文化自 2011 年成立以来谷歌艺术与文化致力于提供体验艺术和文化的新
使用OpenResty搭建简单的文件服务器

前言前几天使用nginx nginx upload module python 回调处理程序搭建了一个简单的文件服务器网上很多人都建议使用Lua去扩展nginx的功能所以琢磨了下如何使用Lua语言去对nginx去做功能扩展网上查阅
网络上的学习笔记 Hadoop

1 如今有10个文件夹每个文件夹都有1000000个url 如今让你找出top1000000url 1 运用2个job 第一个job直接用filesystem读取10个文件夹作为map输入 url做key reduce计算个url的sum
【弹性分布式EMA】在智能电网中DoS攻击和虚假数据注入攻击（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 1 1 FDIA攻击 1 2 DoS攻击 2 运行结果 3 参考文献 4 Matlab代码实现 1 概述
Java 正则提取短信签名

使用java 正则表达式提取短信签名 import java util regex Matcher import java util regex Pattern public class ExtractSmsSignature 匹配中括号内
安装ESXi

1 简介 ESXi是vmware推出的一款优秀的服务器级别的虚拟机它与我们常用的虚拟机不同的是日常使用的虚拟机是需要依赖于一个操作系统的比如在window上使用vmware 或者linux上使用virtualbox 而ESXi不依赖于
【多模态】1、几种多模态 vision-language 任务和数据集介绍

文章目录一 Phrase Grounding 1 1 概念介绍 1 2 常用数据集介绍 1 3 评估指标二 Referring Expression Comprehension REC 2 1 概念介绍 2 2 常用数据集介绍三 Vi
cmd相关命令

查看本地端口占用问题并进行处理 1 查看所有的端口及相关信息命令 netstat ano 2 找到对应的端口对应的PID 输入指令找到对应的进程 tasklist findstr 7676 7676表示pid 3 杀掉该进程再次启动就O
爬虫实例十二沪深证券股票全站数据爬取

先上代码 import requests from lxml import etree import openpyxl import time import random 新建workbook对象 wb openpyxl Workbook

爬虫实例十二 沪深证券股票全站数据爬取

爬虫实例十二 沪深证券股票全站数据爬取 的相关文章

随机推荐

热门标签

爬虫实例十二沪深证券股票全站数据爬取

爬虫实例十二沪深证券股票全站数据爬取的相关文章