day2作业

2023-10-27

作业说明

请在下方提示位置，补充代码，完成《青春有你2》选手图片爬取，将爬取图片进行保存，保证代码正常运行
打印爬取的所有图片的绝对路径，以及爬取的图片总数，此部分已经给出代码。请在提交前，一定要保证有打印结果，如下图所示：

深度学习一般过程:

收集数据，尤其是有标签、高质量的数据是一件昂贵的工作。

爬虫的过程，就是模仿浏览器的行为，往目标站点发送请求，接收服务器的响应数据，提取需要的信息，并进行保存的过程。

Python为爬虫的实现提供了工具:requests模块、BeautifulSoup库

任务描述

本次实践使用Python来爬取百度百科中《青春有你2》所有参赛选手的信息。

数据获取：https://baike.baidu.com/item/青春有你第二季

上网的全过程:

普通用户:

打开浏览器 --> 往目标站点发送请求 --> 接收响应数据 --> 渲染到页面上。

爬虫程序:

模拟浏览器 --> 往目标站点发送请求 --> 接收响应数据 --> 提取有用的数据 --> 保存到本地/数据库。

爬虫的过程：

1.发送请求（requests模块）

2.获取响应数据（服务器返回）

3.解析并提取数据（BeautifulSoup查找或者re正则）

4.保存数据

本实践中将会使用以下两个模块，首先对这两个模块简单了解以下：

request模块：

requests是python实现的简单易用的HTTP库，官网地址：http://cn.python-requests.org/zh_CN/latest/

requests.get(url)可以发送一个http get请求，返回服务器响应内容。

BeautifulSoup库：

BeautifulSoup 是一个可以从HTML或XML文件中提取数据的Python库。网址：https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/

BeautifulSoup支持Python标准库中的HTML解析器,还支持一些第三方的解析器,其中一个是 lxml。

BeautifulSoup(markup, "html.parser")或者BeautifulSoup(markup, "lxml")，推荐使用lxml作为解析器,因为效率更高。

# #如果需要进行持久化安装, 需要使用持久化路径, 如下方代码示例:
# !mkdir /home/aistudio/external-libraries
# !pip install beautifulsoup4 -t /home/aistudio/external-libraries
# !pip install lxml -t /home/aistudio/external-libraries

# 同时添加如下代码, 这样每次环境(kernel)启动的时候只要运行下方代码即可:
import sys
sys.path.append('/home/aistudio/external-libraries')

一、爬取百度百科中《青春有你2》中所有参赛选手信息，返回页面数据

import json
import re
import requests
import datetime
from bs4 import BeautifulSoup
import os

#获取当天的日期,并进行格式化,用于后面文件命名，格式:20200420
today = datetime.date.today().strftime('%Y%m%d')    

def crawl_wiki_data():
    """
    爬取百度百科中《青春有你2》中参赛选手信息，返回html
    """
    headers = { 
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'
    }
    url='https://baike.baidu.com/item/青春有你第二季'                         

    try:
        response = requests.get(url,headers=headers)
        print(response.status_code)

        #将一段文档传入BeautifulSoup的构造方法,就能得到一个文档的对象, 可以传入一段字符串
        soup = BeautifulSoup(response.text,"lxml")
        
        #返回的是class为table-view log-set-param的<table>所有标签
        tables = soup.find_all('table')
        # print(tables)

        crawl_table_title = "参赛学员"

        for table in  tables:           
            #对当前节点前面的标签和字符串进行查找
            table_titles = table.find_previous('div').find_all('h3')
            for title in table_titles:
                if(crawl_table_title in title):
                    return table       
    except Exception as e:
        print(e)

二、对爬取的页面数据进行解析，并保存为JSON文件

def parse_wiki_data(table_html):
    '''
    从百度百科返回的html中解析得到选手信息，以当前日期作为文件名，存JSON文件,保存到work目录下
    '''
    bs = BeautifulSoup(str(table_html),"lxml")
    all_trs = bs.find_all('tr')
    # print(all_trs)

    error_list = ['\'','\"']

    stars = []

    for tr in all_trs[1:]:
         all_tds = tr.find_all('td')
        #  print(all_tds)

         star = {}

         #姓名
         star["name"]=all_tds[0].text
         #个人百度百科链接
         star["link"]= 'https://baike.baidu.com' + all_tds[0].find('a').get('href')
         #籍贯
         star["zone"]=all_tds[1].text
         #星座
         star["constellation"]=all_tds[2].text

         #花语,去除掉花语中的单引号或双引号
         flower_word = all_tds[3].text
         for c in flower_word:
             if  c in error_list:
                 flower_word=flower_word.replace(c,'')
         star["flower_word"]=flower_word 

         #公司
         if not all_tds[4].find('a') is  None:
             star["company"]= all_tds[4].find('a').text
         else:
             star["company"]= all_tds[4].text  

         stars.append(star)

    json_data = json.loads(str(stars).replace("\'","\""))   
    with open('work/' + today + '.json', 'w', encoding='UTF-8') as f:
        json.dump(json_data, f, ensure_ascii=False)

三、爬取每个选手的百度百科图片，并进行保存

！！！请在以下代码块中补充代码，爬取每个选手的百度百科图片，并保存！！！

def crawl_pic_urls():
    '''
    爬取每个选手的百度百科图片，并保存
    ''' 
    with open('work/'+ today + '.json', 'r', encoding='UTF-8') as file:
         json_array = json.loads(file.read())

    headers = { 
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36' 
     }

    for star in json_array:

        name = star['name']
        link = star['link']

        #！！！请在以下完成对每个选手图片的爬取，将所有图片url存储在一个列表pic_urls中！！！
        
        #向选手个人百度百科发送一个http get请求
        response = requests.get( link, headers=headers)

        #将一段文档传入BeautifulSoup的构造方法,就能得到一个文档的对象
        bs = BeautifulSoup(response.text, "lxml")

        #从个人百度百科页面中解析得到一个链接，该链接指向选手图片列表页面
        if(bs.select( '.summary-pic' )):
            pic_list_url = bs.select( '.summary-pic a' )[0].get( 'href' )
        else:
            continue
        pic_list_url = 'https://baike.baidu.com' + pic_list_url

        #向选手图片列表页面发送http get请求
        pic_list_response = requests.get(pic_list_url,headers=headers)

        #对选手图片列表页面进行解析，获取所有图片链接
        bs = BeautifulSoup(pic_list_response.text, 'lxml')
        pic_list_html=bs.select( '.pic-list img')

        pic_urls = []
        for pic_html in pic_list_html:
            pic_url = pic_html.get( 'src')
            pic_urls.append(pic_url)
        

        #！！！根据图片链接列表pic_urls, 下载所有图片，保存在以name命名的文件夹中！！！
        down_pic(name,pic_urls)

def down_pic(name,pic_urls):
    '''
    根据图片链接列表pic_urls, 下载所有图片，保存在以name命名的文件夹中,
    '''
    path = 'work/'+'pics/'+name+'/'

    if not os.path.exists(path):
      os.makedirs(path)

    for i, pic_url in enumerate(pic_urls):
        try:
            pic = requests.get(pic_url, timeout=15)
            string = str(i + 1) + '.jpg'
            with open(path+string, 'wb') as f:
                f.write(pic.content)
                print('成功下载第%s张图片: %s' % (str(i + 1), str(pic_url)))
        except Exception as e:
            print('下载第%s张图片时失败: %s' % (str(i + 1), str(pic_url)))
            print(e)
            continue

四、打印爬取的所有图片的路径

def show_pic_path(path):
    '''
    遍历所爬取的每张图片，并打印所有图片的绝对路径
    '''
    pic_num = 0
    for (dirpath,dirnames,filenames) in os.walk(path):
        for filename in filenames:
           pic_num += 1
           print("第%d张照片：%s" % (pic_num,os.path.join(dirpath,filename)))           
    print("共爬取《青春有你2》选手的%d照片" % pic_num)

if __name__ == '__main__':

     #爬取百度百科中《青春有你2》中参赛选手信息，返回html
     html = crawl_wiki_data()

     #解析html,得到选手信息，保存为json文件
     parse_wiki_data(html)

     #从每个选手的百度百科页面上爬取图片,并保存
     crawl_pic_urls()

     #打印所爬取的选手图片路径
     show_pic_path('/home/aistudio/work/pics/')

     print("所有信息爬取完成！")

200
成功下载第1张图片: https://bkimg.cdn.bcebos.com/pic/b03533fa828ba61ea8d3fd9ed964800a304e251ff378?x-bce-process=image/resize,m_lfit,h_160,limit_1/format,f_auto
成功下载第2张图片: https://bkimg.cdn.bcebos.com/pic/b812c8fcc3cec3fdfc0388c14ed8c33f8794a4c2897d?x-bce-process=image/resize,m_lfit,h_160,limit_1/format,f_auto
成功下载第3张图片: https://bkimg.cdn.bcebos.com/pic/fd039245d688d43f8794ba46e54ec51b0ef41bd58d7d?x-bce-process=image/resize,m_lfit,h_160,limit_1/format,f_auto
成功下载第4张图片: https://bkimg.cdn.bcebos.com/pic/0ff41bd5ad6eddc451daa74fa18ba1fd5266d016957d?x-bce-process=image/resize,m_lfit,h_160,limit_1/format,f_auto
成功下载第5张图片: https://bkimg.cdn.bcebos.com/pic/eaf81a4c510fd9f9d72af065807dc32a2834349b0e24?x-bce-process=image/resize,m_lfit,h_160,limit_1/format,f_auto
成功下载第6张图片: https://bkimg.cdn.bcebos.com/pic/faf2b2119313b07eca80a7f98785862397dda04426bd?x-bce
.....
第1张照片：/home/aistudio/work/pics/段小薇/1.jpg
第2张照片：/home/aistudio/work/pics/孙美楠/1.jpg
第3张照片：/home/aistudio/work/pics/孙美楠/2.jpg
第4张照片：/home/aistudio/work/pics/申冰/1.jpg
第5张照片：/home/aistudio/work/pics/冯若航/3.jpg
.....
第279张照片：/home/aistudio/work/pics/夏研/4.jpg
第280张照片：/home/aistudio/work/pics/夏研/2.jpg
第281张照片：/home/aistudio/work/pics/林韦希/1.jpg
第282张照片：/home/aistudio/work/pics/林韦希/2.jpg
共爬取《青春有你2》选手的282照片
所有信息爬取完成！

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

CH2python基础

python

爬虫

开发语言

day2作业的相关文章

如何恢复tensorflow inceptions检查点文件（ckpt）？

I have inception resnet v2 2016 08 30 ckpt文件是预先训练的初始模型我想使用恢复这个模型 saver restore sess ckpt filename 但为此我将需要编写训练该模型时使用的变量
使用 MongoDB 作为我们的主数据库，我应该使用单独的图数据库来实现实体之间的关系吗？

我们目前正在为一家专业公司内部实施类似 CRM 的解决方案由于存储信息的性质以及信息的不同值和键我们决定使用文档存储数据库因为它完全适合目的在本例中我们选择 MongoDB 作为此 CRM 解决方案的一部分我们希望存储实体之间的关
如何在 __init__ 中使用await设置类属性

我如何定义一个类await在构造函数或类体中例如我想要的 import asyncio some code class Foo object async def init self settings self settings setti
如何使用 Selenium 和 ChromeDriver 解决 TypeError: 'module' object is not callable 错误 [重复]

这个问题在这里已经有答案了代码试验 from selenium import webdriver from selenium webdriver chrome options import Options as Chromeoptions
从 Powershell 脚本安装 Python

当以管理员身份从 PowerShell 命令行运行以下命令时可以在 Windows 11 上成功安装 Python c temp python 3 11 4 amd64 exe quiet InstallAllUsers 0 Instal
为什么一旦我离开内置的运行服务器，Django 就无法找到我的管理媒体文件？

当我使用内置的简单服务器时一切正常管理界面很漂亮 python manage py runserver 但是当我尝试使用 wsgi 服务器为我的应用程序提供服务时django core handlers wsgi WSGIHandle
未知错误：Chrome 无法启动：异常退出

当我使用 chromedriver 对 Selenium 运行测试时出现此错误 selenium common exceptions WebDriverException Message unknown error Chrome fail
当字段是数字时怎么说...在 mongodb 中匹配？

所以我的结果中有一个名为城市的字段结果已损坏有时它是一个实际名称有时它是一个数字以下代码显示所有记录 db zips aggregate project city substr city 0 1 sort city 1 我需要修
如何将 GAE 中一种 Kind 中的所有实体复制到另一种 Kind 中，而无需显式调用每个属性

我们如何使用function clone entity 如中所述在 Python 中复制 Google App Engine 数据存储中的实体而无需在编译时知道属性名称 https stackoverflow com question
Django REST Framework - CurrentUserDefault 使用

我正在尝试使用CurrentUserDefault一个序列化器的类 user serializers HiddenField default serializers CurrentUserDefault 文档说为了使用它请求必须作为
将 Matlab 的 datenum 格式转换为 Python

我刚刚开始从 Matlab 迁移到 Python 2 7 在读取 mat 文件时遇到一些问题时间信息以 Matlab 的日期数字格式存储对于那些不熟悉它的人日期序列号将日历日期表示为自固定基准日期以来已经过去的天数在 MATLAB
找到一个数字所属的一组范围

我有一个 200k 行的数字范围列表例如开始位置停止位置该列表包括除了非重叠的重叠之外的所有类型的重叠列表看起来像这样 3 5 10 30 15 25 5 15 25 35 我需要找到给定数字所属的范围并对 100k 个数字重复该
Protobuf 如何编码 oneof 消息结构

对于这个 python 程序在编码时运行 protobuf 编码会给出以下输出 0a 10 08 7f8a 0104 08 02 10 0392 0104 08 02 10 03 18 01 我不明白的是为什么8a后面有一个01 为什么9
为什么 csv.DictReader 给我一个无属性错误？

我的 CSV 文件是 200 Service 我放入解释器的代码是 snav csv DictReader open screennavigation csv delimiter print snav fieldnames 200 for
Python：Goslate 翻译请求返回“503：服务不可用”[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我们不允许提出寻求书籍工具软件库等推荐的问题您可以编辑问题以便用事实和引文来回答这个问题似乎不是关于主要由程序员使用的特定编程问
如果 PyPy 快 6.3 倍，为什么我不应该使用 PyPy 而不是 CPython？

我已经听到很多关于PyPy http en wikipedia org wiki PyPy项目他们声称它比现有技术快 6 3 倍CPython http en wikipedia org wiki CPython口译员开启他们的网站 ht
在virtualenv中下载sqlite3

我正在尝试使用命令创建应用程序python3 manage py startapp webapp但我收到一条错误消息 django core exceptions ImproperlyConfigured 加载时出错 pysqlite2 或
如何使用 PrimaryKeyRelatedField 更新多对多关系上的类别

Django Rest 框架有一个主键相关字段 http www django rest framework org api guide relations primarykeyrelatedfield其中列出了我的 IDmany to m
pandas.read_csv 将列名移动一倍

我正在使用位于的 ALL zip 文件here http www fec gov disclosurep PDownload do 我的目标是用它创建一个 pandas DataFrame 但是如果我跑 data pd read csv
如何将Python3设置为Mac上的默认Python版本？

有没有办法将 Python 3 8 3 设置为 macOS Catalina 版本 10 15 2 上的默认 Python 版本我已经完成的步骤看看它安装在哪里 ls l usr local bin python 我得到的输出是这样的

随机推荐

[杂乱笔记]algorithm头文件下的常用函数

使用algorithm头文件需要在头文件加using namespace std 1 常见的函数 max min abs swap int x 98 int y 7 int z 12 printf d d n max x y min y
详细解剖大型H5单页面应用的核心技术点

阐述下项目 Xut js 开发中一个比较核心的优化技术点这是一套平台代码并非某一个插件功能或者框架可以直接拿来使用核心代码大概是6万行左右不包含任何插件这也并非一个开源项目不能商业使用只是为了作者开发方便同步修改代码而上传的源
FISCO-BCOS 八、ubuntu配置Java环境

ubuntu配置Java环境需根据自己的java版本号进行细节修改本文以jdk11 0 18版本为例一安装Java 安装默认Java版本 Java 8或以上 sudo apt install y default jdk 查询Java版
GPFS文件系统分析

什么是GPFS文件系统 GPFS General Parallel File System 是IBM公司开发的高性能集群文件系统从1998年开始首先应用于AIX集群 2001年后应用于Linux集群在集群的环境中 GPFS文件系统允许
关于路由, 我好奇的那些点

最近解锁了一个拯救自我的新技能就是学习之前可以先观察下知识时间线相关人物以及其他背景等让那些规则不再变得辣么无聊什么是路由通俗的讲就是根据不同的url展示不同页面或者内容路由的发展阶段路由的概念最开始是在后端出现的在以前
大牛用十年功力带你彻底理解JVM垃圾回收器：ZGC，回收设计

回收设计 ZGC的并发回收算法采用的也是目的空间不变性的设计关于目的空间不变性的更多内容可以参考第7章在第7章中提到 Shenandoah从JDK 13开始也采用目的空间不变性的设计但是ZGC与Shenandoah相比还是有
前端页面多字段模糊查询

前端页面多字段模糊查询本文主要参考了大佬们的内容整合记录一下具体内容 1 实现代码 arr是前端原有的列表数组后台返回来的数据 var arr id 1 aa asd bb 阿斯顿 cc 123 id 2 aa Awr bb 艾沃瑞
云原生 AI 工程化实践之 FasterTransformer 加速 LLM 推理

01 背景 OpenAI 在 3 月 15 日发布了备受瞩目的 GPT4 它在司法考试和程序编程领域的惊人表现让大家对大语言模型的热情达到了顶点人们纷纷议论我们是否已经跨入通用人工智能的时代与此同时基于大语言模型的应用也如雨后春笋般出
Java-String的用法

Java String的用法文章目录 Java String的用法 1 介绍 2 实例化String的两种方法 3 String内容的比较 3 1使用进行基本数据类型的比较 3 2String中使用比较字符串的内容 3 3使用equa
SpringCloud中ribbon的配置文件和属性配置原理

https blog csdn net hry2015 article details 78357990 作者写的非常详细
Mac下使用命令行 mvn 给Maven打包

使用命令行 mvn 给Maven打包 sudo mvn clean install Dmaven test skip true Dmaven javadoc skip true Dmaven test skip true 跳过单元测试 Dm
wms仓储信息化的应用和发展趋势

随着在线零售市场日益成熟电子商务不断蓬勃发展电商仓储需求也呈现高速增长的态势仓储业也进入到了质的变化阶段 wms仓储信息化的应用和发展趋势在电商供应链中企业尤为关心的是如何把货物更快更准确地送到客户手中以及如何应对随时变化的订
畅购中

项目第七天 ES类型要答出 type版本前和版本后的改变 ES查询方法使用ElasticsearchRestTemplate对象来构建 ES的默认规则 ES能够自动存储未提交创建字段信息的数据目的未指定时ES为了可以更好的支持聚合和
python列表索引超出范围怎么解决_Python的列表怎么用？你会吗？Python每日学习打卡...

Python的列表怎么用你会用吗本文主要介绍了Python中列表 List 的详解操作方法包含创建访问更新删除其它操作等需要的朋友可以参考下 Python列表 1 创建列表只要把逗号分隔的不同的数据项使用方括号括起来即可
MFC CListctrl里面使用编辑框和下拉框

对于需要使用到子控件的单元格就把子控件移动到需要使用的位置就好 1 创建工程添加控件CEdit和CListCtrl到对话框分别添加控件变量 protected CEdit m Edit CListCtrl m ListCtrl int
分布式注册中心 Eureka 与 zookeeper 的区别、原理及各自优缺点

前言在微服务的开发过程中如果使用的是 Dubbo 那就必须使用到 Zookeeper 在使用 Spring Cloud Eureka 时自然其功能更强大得多博主也不得不感叹 Spring Cloud Eureka 后来者居上呀 Du
vue3 使用 vue.config.js 配置使用scss全局变量

vue3 使用 vue config js 配置使用scss全局变量记录学习和开发中遇到的问题或难题刚开始我在网上查找了许多资料都是需要什么安装安装 sass resources loader 和配置什么乱七八糟的我没有尝试过因为
【社区图书馆】《实战大数据—— 分布式大数据分析处理系统开发与应用》书评

实战大数据分布式大数据分析处理系统开发与应用从大数据技术基础概念出发介绍了大数据分析的流程和大数据分析处理系统的组成以及大数据集群的搭建并在此基础上讲解了多种不同技术构成的离线实时数据分析系统实战项目全书共10章包括大数据概
Vue.js 项目查看 vue版本号

vue V或者是vue version查询的是vue cli的版本也就是vue脚手架的版本如果想要查看vue的版本直接去项目中在根目录下找到package json文件夹找 dependencies 然后就可以看到你装的vue的
day2作业

作业说明请在下方提示位置补充代码完成青春有你2 选手图片爬取将爬取图片进行保存保证代码正常运行打印爬取的所有图片的绝对路径以及爬取的图片总数此部分已经给出代码请在提交前一定要保证有打印结果如下图所示深度学习一般过程