用正则表达式爬豆瓣电影数据

2023-10-27

学了正则表达式后，简单的用它来爬取豆瓣网的数据

import re
from urllib.request import urlopen

def getPage(url):   # 获取网页的字符串
    response = urlopen(url)
    return response.read().decode('utf-8')

def parsePage(s):
    ret = com.finditer(s)  # 从s这个网页源码中 找到所有符合com正则表达式规则的内容 并且以迭代器的形式返回
    for i in ret:
        yield {
            "id": i.group("id"),#根据分组名取内容
            "title": i.group("title"),
            "rating_num": i.group("rating_num"),
            "comment_num": i.group("comment_num"),
        }

def main(num):  # 0  25 50  # 这个函数执行10次,每次爬取一页的内容
    url = 'https://movie.douban.com/top250?start=%s&filter=' % num
    response_html = getPage(url)   # response_html就是这个url对应的html代码 就是 str
    ret = parsePage(response_html) # ret是一个生成器
    print(ret)
    f = open("move_info7", "a", encoding="utf8")
    for obj in ret:

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Python 爬虫

用正则表达式爬豆瓣电影数据的相关文章

Videos from Embedded Linux Conference 2014

本文转载至 http free electrons com blog elc2014 videos As the summer is coming to an end we finally managed to publish the vi
Kubernetes详解（二十）——ReplicaSet控制器

今天继续给大家介绍Linux运维相关知识本文主要内容是ReplicaSet控制器一 ReplicaSet控制器概述 ReplicaSet控制器是Pod类控制器的一种实现该控制器用于确保其管控的Pod对象副本数量在任意时刻都能够满足用户
XXE-lab（全踩坑）实录

在bWAPP中有一关是XML External Entity Attacks XXE 传送门比较简单的了解了一下XXE 师傅的博客浅谈XML实体注入漏洞 XXE漏洞全称XML External Entity Injection即xml外
解决Windows系统下VNC Viewer无法连接到远程主机上的VNC Server的问题

问题如下笔记本 IP 10 100 172 194 上装了VNC Viewer 台机 IP 10 100 100 103 上装了VNC Server 原本笔记本连接无线网可以通过VNC远程连接到办公网的台机的桌面自从台机重装了系统后
去掉suse里ls默认显示隐藏文件的特性

以root权限suse终端时执行ls命令隐藏文件文件名以开头也都显示出来了这一点我是不太喜欢既然是隐藏文件一般情况下就不要出现尤其是 root目录一堆隐藏文件很影响我查找文件要去掉这个特性先执行alias命令一
arxiv文章下载很慢怎么办？

对于我们这样的深度学习屌丝来说没钱没资源没数据没时间只能看看别人的论文生存了经常会到arxiv上下载一些文章比如cvpr的文章但是由于国内封锁下载很慢甚至接连几天打不开arxiv的网站咋办强烈推荐使用中科院arxi
usb描述符以及传输方式

lsusb命令 Bus 002 表示第2个usb主控制器 Device 002 表示系统给usb鼠标分配的设备号 ID 8087 8002 Intel Corp 表示usb设备的ID 这个ID由芯片制造商设置可以唯一表示该设备 8087
洛谷P5731 【深基5.习6】蛇形方阵

include
电脑itunes,iTunes

Music TV and podcasts take center stage iTunes forever changed the way people experienced music movies TV shows and podc
内存管理之分段与分页

内存管理之分段与分页转载自多名技术分享者仅供参考第一篇要理解分段和分页那么得理解为什么会出现分段和分页的技术首先这两个技术都是为了利用和管理好计算机的资源内存在分段这个技术还没有出现之前程序运行是需要从内存中分配出足够多
【Verilog】Verilog定义二维数组（2D Array）

目录定义的种类第一种赋值方法第二种赋值方法第三种赋值方法定义的种类首先看几组定义类型第一种定义一个位宽为8的 data1 reg 和 data2 wire 的变量 reg 7 0 data1 wire 7 0 data
java.io.IOException: InvalidResourceRequestException: Invalid resource request

1 背景做一次kylin计算选择mr进行计算cube 但是报错首先是这一报错报错打开是 yarn上的原因为 2019 05 09 15 07 38 495 ERROR Thread 52 org apache hadoop mapr
R文本挖掘之五情感分析

本文是转载原文地址 CSDN R语言做文本挖掘 Part5情感分析 Part5情感分析这是这个系列里面最后一篇文章了其实这里文本挖掘每一个部分单拎出来都是值得深究和仔细研究的我还处于初级研究阶段用R里面现成的算法来实现自己的需求

随机推荐

java 多线程并发实例_java编程多线程并发处理实例解析

本文主要是通过一个银行用户取钱的实例演示java编程多线程并发处理场景具体如下从一个例子入手实现一个银行账户取钱场景的实例代码第一个类 Account java 账户类 package cn edu byr test public
ctfshow-Misc入门图片篇(50-60)

八神出的misc入门系列 misc57 59做的比较晚了本来想着等解了misc61一块发wp的忙着比赛和推免就忘了今天看到群里有人用g4 的工具一把梭了才想起来这个事 misc61等能把原理讲清楚了再发图片篇图片篇颜色通道 mi
经典运放电路详细分析（模拟电子技术）

运放电路何为运放电路由运算放大器组成的电路简称为运放电路这些电路可以说是五花八门是我们学习模拟电子技术的一个重要内容更是一个电子工程师必须掌握的电路之一运放电路有多种类型是不是我们把它们牢牢记住就行了呢显然不是啦作为知识
Excel打开csv文件时中文内容显示为乱码或问号的解决办法

有同事遇到这样一个问题就是打开csv文件后里面的中文显示乱码或者问号网上找了很久没有找到有效的解决方法改非Unicode编码 windows显示语言 office显示语言都没有用随后自己研究了一下发现只要改一个地方就可以正常显
JWT校验

JWT JSON Web Token 的缩写由三部分组成 Header 头部 Payload 负载 Signature 签名随着技术的发展分布式web应用的普及通过session管理用户登录状态成本越来越高因此慢慢发展成为toke
特征选择和特征理解

特征选择和特征理解特征选择排序对于数据科学家机器学习从业者来说非常重要好的特征选择能够提升模型的性能更能帮助我们理解数据的特点底层结构这对进一步改善模型算法都有着重要作用特征选择主要有两个功能减少特征数量降维使模型
Java List与ArrayList

目录 List的介绍什么是List List的使用 ArrayList与顺序表 ArrayList简介 ArrayList的使用 ArrayList的常见操作 ArrayList的扩容机制 ArrayList的模拟实现 List的介绍什
安卓绕过隐藏api限制

安全设置出于测试目的 Google 内置了一种在给定 Android 设备上全局禁用隐藏 API 限制的方法标题为如何启用对非 SDK 接口的访问的问题中链接中的部分说如下您可以通过使用以下 adb 命令更改 API 强制策略来启用
云上城之个服务器维护时间,云上城之歌幻乐之城开服时间表_云上城之歌新区开服预告_第一手游网手游开服表...

今日开服 15 00 三十八区苍炎之门已经开服 2021 08 10 10 00 三十八区巨石林野已经开服 2021 08 09 15 00 三十八区荧光要塞已经开服 10 00 三十八区雷神圣所已经开服 2021 08 07 10
springboot 读取配置报错java.lang.IllegalArgumentException: Could not resolve placeholder ‘xxx.xxx‘

springboot 读取配置报错java lang IllegalArgumentException Could not resolve placeholder xxx xxx 代码中写的是 Value xxx xxx 由于配置文件中没有
协同无法关闭的问题之一

StartCoroutine 方法名和StartCoroutine 方法名是不一样的用StartCoroutine 方法名无法用StopCoroutine 方法名关闭协同但是StartCoroutine 方法名就可以用Stop
spdlog同时输出到控制台和文件中，可设置文件大小及数目，define方式

因为自己想要个题目那种效果的又没找到很符合的博客就整合了下大佬们的博客封了个具体的内容都放到代码注释里了我这个目前在windows下只能将log文件创建到exe所处的目录中暂时仍未解决该问题欢迎大佬指正已解决直接将文件名设置
acwing 博弈论拆分-Nim游戏

include
安装最新版Calico

准备calico yaml 进入calico网站 Install Calico networking and network policy for on premises deployments 找到 Install Calico gt K
Android 对data/data/(your packagename)目录下的数据读写、删除操作

一数据存储 App自身的数据存储在 data data packagename 目录下大致结构如下图 Activity提供了getCacheDir 和getFilesDir 方法 getCacheDir getAbsolutePath
qt std::cout 中文乱码

char out 输入操作 r n std cout lt lt out QString qOut 输入操作 r n std cout lt lt qOut toStdString std cout lt lt qOut toStdWStr
python3---情感分析（基于词典中文）

写在前面现有的情感分析比较常用的有两种分别是基于词典的和机器学习前者也属于非监督学习后者自然一般属于监督学习刚开始学情感分析下面先从基于词典的情感分析开始进行词典我东搜西找找到了一些感觉是常用的字典主要有台湾大学NT
2.NanoPi M1(全志H3)的GPIO控制总结（内核驱动）

开发环境 VM Ubuntu 编译环境 linux3 4 交叉编译工具 arm linux gcc 4 4 3 GPIO内核驱动程序链接 https download csdn net download ddffyhg 11022291 用
ABAP DOI 下载SMW0的EXCEL和WORD模板

用 FUNCTION SAP OI LOAD MIME DATA 下载SMW0的模板用METHOD LR PROXY gt OPEN DOCUMENT FROM TABLE 打开模板没找到和ole一样先下载在打开的方法 SMWO上载模
用正则表达式爬豆瓣电影数据

学了正则表达式后简单的用它来爬取豆瓣网的数据 import re from urllib request import urlopen def getPage url 获取网页的字符串 response urlopen url retur

用正则表达式爬豆瓣电影数据

用正则表达式爬豆瓣电影数据 的相关文章

随机推荐

热门标签

用正则表达式爬豆瓣电影数据的相关文章