如何抓取网络新闻并将段落合并到每篇文章中

2023-12-14

我正在从该网站抓取新文章https://nypost.com/search/China+COVID-19/page/2/?orderby=relevance我使用 for 循环来获取每篇新闻文章的内容，但我无法组合每篇文章的段落。我的目标是将每篇文章存储在一个字符串中，所有字符串都应该存储在我的文章 list.

When I 打印（我的文章[0]），它给了我所有的文章。我希望它应该给我一篇文章。

任何帮助将不胜感激！

            for pagelink in pagelinks:
                #get page text
                page = requests.get(pagelink)
                #parse with BeautifulSoup
                soup = bs(page.text, 'lxml')
                containerr = soup.find("div", class_=['entry-content', 'entry-content-read-more'])
                articletext = containerr.find_all('p')
                for paragraph in articletext:
                    #get the text only
                    text = paragraph.get_text()
                    paragraphtext.append(text)
                    
                #combine all paragraphs into an article
                thearticle.append(paragraphtext)
            # join paragraphs to re-create the article 
            myarticle = [''.join(article) for article in thearticle]
    
    print(myarticle[0])

为了清楚起见，完整代码附在下面

def scrape(url):
    user_agent = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; Touch; rv:11.0) like Gecko'}
    request = 0
    urls = [f"{url}{x}" for x in range(1,2)]
    params = {
       "orderby": "relevance",
    }
    pagelinks = []
    title = []
    thearticle = []
    paragraphtext = []
    for page in urls:
        response = requests.get(url=page,
                                headers=user_agent,
                                params=params) 
        # controlling the crawl-rate
        start_time = time() 
        #pause the loop
        sleep(randint(8,15))
        #monitor the requests
        request += 1
        elapsed_time = time() - start_time
        print('Request:{}; Frequency: {} request/s'.format(request, request/elapsed_time))
        clear_output(wait = True)

        #throw a warning for non-200 status codes
        if response.status_code != 200:
            warn('Request: {}; Status code: {}'.format(request, response.status_code))

        #Break the loop if the number of requests is greater than expected
        if request > 72:
            warn('Number of request was greater than expected.')
            break


        #parse the content
        soup_page = bs(response.text, 'lxml') 
        #select all the articles for a single page
        containers = soup_page.findAll("li", {'class': 'article'})
        
        #scrape the links of the articles
        for i in containers:
            url = i.find('a')
            pagelinks.append(url.get('href'))
        #scrape the titles of the articles
        for i in containers:
            atitle = i.find(class_ = 'entry-heading').find('a')
            thetitle = atitle.get_text()
            title.append(thetitle)
            for pagelink in pagelinks:
                #get page text
                page = requests.get(pagelink)
                #parse with BeautifulSoup
                soup = bs(page.text, 'lxml')
                containerr = soup.find("div", class_=['entry-content', 'entry-content-read-more'])
                articletext = containerr.find_all('p')
                for paragraph in articletext:
                    #get the text only
                    text = paragraph.get_text()
                    paragraphtext.append(text)
                    
                #combine all paragraphs into an article
                thearticle.append(paragraphtext)
            # join paragraphs to re-create the article 
            myarticle = [''.join(article) for article in thearticle]
    
    print(myarticle[0])

print(scrape('https://nypost.com/search/China+COVID-19/page/'))

你不断地追加到现有的列表 [] 中，它不断增长，你需要在每个循环中清除它。

    articletext = containerr.find_all('p')
    for paragraph in articletext:
        #get the text only
        text = paragraph.get_text()
        paragraphtext.append(text)

    #combine all paragraphs into an article
    thearticle.append(paragraphtext)
# join paragraphs to re-create the article 
myarticle = [''.join(article) for article in thearticle]

应该是这样的

    articletext = containerr.find_all('p')
    thearticle = [] # clear from the previous loop
    paragraphtext = [] # clear from the previous loop
    for paragraph in articletext:
        #get the text only
        text = paragraph.get_text()
        paragraphtext.append(text)

    thearticle.append(paragraphtext)
    myarticle.append(thearticle)

但你可以将其进一步简化为：

article = soup.find("div", class_=['entry-content', 'entry-content-read-more'])
myarticle.append(article.get_text())

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

webscraping

beautifulsoup

request

webcrawler

如何抓取网络新闻并将段落合并到每篇文章中的相关文章

尽管极其懒惰，但如何在 Python 中模拟 IMAP 服务器？

我很好奇是否有一种简单的方法来模拟 IMAP 服务器例如imaplib模块在Python中 without做很多工作是否有预先存在的解决方案理想情况下我可以连接到现有的 IMAP 服务器进行转储并让模拟服务器在真实的邮箱电子
Python BigQuery 存储。并行读取多个流

我有以下玩具代码 import pandas as pd from google cloud import bigquery storage v1beta1 import os import google auth os environ G
Django REST序列化器：创建对象而不保存

我已经开始使用 Django REST 框架我想做的是使用一些 JSON 发布请求从中创建一个 Django 模型对象然后使用该对象而不保存它我的 Django 模型称为 SearchRequest 我所拥有的是 api view
Python PAM 模块的安全问题？

我有兴趣编写一个 PAM 模块该模块将利用流行的 Unix 登录身份验证机制我过去的大部分编程经验都是使用 Python 进行的并且我正在交互的系统已经有一个 Python API 我用谷歌搜索发现pam python http pa
Pycharm Python 控制台不打印输出

我有一个从 Pycharm python 控制台调用的函数但没有显示输出 In 2 def problem1 6 for i in range 1 101 2 print i end In 3 problem1 6 In 4 另一方面像
更改自动插入 tkinter 小部件的文本颜色

我有一个文本框小部件其中插入了三条消息一条是开始消息一条是结束消息一条是在单位被摧毁时发出警报的消息我希望开始和结束消息是黑色的但被毁坏的消息参见我在代码中评论的位置插入小部件时颜色为红色我不太确定如何去做这件事我看
Python 多处理示例不起作用

我正在尝试学习如何使用multiprocessing但我无法让它发挥作用这是代码文档 http docs python org 2 library multiprocessing html from multiprocessing imp
pandas 替换多个值

以下是示例数据框 gt gt gt df pd DataFrame a 1 1 1 2 2 b 11 22 33 44 55 gt gt gt df a b 0 1 11 1 1 22 2 1 33 3 2 44 4 3 55 现在我想根据
如何使用包含代码的“asyncio.sleep()”进行单元测试？

我在编写 asyncio sleep 包含的单元测试时遇到问题我要等待实际的睡眠时间吗 I used freezegun到嘲笑时间当我尝试使用普通可调用对象运行测试时这个库非常有用但我找不到运行包含 asyncio sleep 的测
SQL Alchemy 中的 NULL 安全不等式比较？

目前我知道如何表达 NULL 安全的唯一方法 SQL Alchemy 中的比较其中与 NULL 条目的比较计算结果为 True 而不是 NULL 是 or field None field value 有没有办法在 SQL Alchem
__del__ 真的是析构函数吗？

我主要用 C 做事情其中析构函数方法实际上是为了销毁所获取的资源最近我开始使用python 这真的很有趣而且很棒我开始了解到它有像java一样的GC 因此没有过分强调对象所有权构造和销毁据我所知 init 方法对我来说在 py
在 NumPy 中获取 ndarray 的索引和值

我有一个 ndarrayA任意维数N 我想创建一个数组B元组数组或列表其中第一个N每个元组中的元素是索引最后一个元素是该索引的值A 例如 A array 1 2 3 4 5 6 Then B 0 0 1 0 1 2 0 2 3 1 0
Python 中的二进制缓冲区

在Python中你可以使用StringIO https docs python org library struct html用于字符数据的类似文件的缓冲区内存映射文件 https docs python org library mmap
Geopandas 设置几何图形：MultiPolygon“等于 len 键和值”的 ValueError

我有 2 个带有几何列的地理数据框我将一些几何图形从 1 个复制到另一个这对于多边形效果很好但对于任何有效多多边形都会返回 ValueError 请指教如何解决这个问题我不知道是否如何为什么应该更改 MultiPolygon
Nuitka 未使用 nuitka --recurse-all hello.py [错误] 编译 exe

我正在尝试通过 nuitka 创建一个简单的 exe 这样我就可以在我的笔记本电脑上运行它而无需安装 Python 我在 Windows 10 上并使用 Anaconda Python 3 我输入 nuitka recurse all h
如何在 Django 中使用并发进程记录到单个文件而不使用独占锁

给定一个在多个服务器上同时执行的 Django 应用程序该应用程序如何记录到单个共享日志文件在网络共享中而不保持该文件以独占模式永久打开当您想要利用日志流时这种情况适用于 Windows Azure 网站上托管的 Django 应
检查所有值是否作为字典中的键存在

我有一个值列表和一本字典我想确保列表中的每个值都作为字典中的键存在目前我正在使用两组来确定字典中是否存在任何值 unmapped set foo set bar keys 有没有更Pythonic的方法来测试这个感觉有点像黑客您的方
用于运行可执行文件的python多线程进程

我正在尝试将一个在 Windows 上运行可执行文件并管理文本输出文件的 python 脚本升级到使用多线程进程的版本以便我可以利用多个核心我有四个独立版本的可执行文件每个线程都知道要访问它们这部分工作正常我遇到问题的地方是当它们
Spark.read 在 Databricks 中给出 KrbException

我正在尝试从 databricks 笔记本连接到 SQL 数据库以下是我的代码 jdbcDF spark read format com microsoft sqlserver jdbc spark option url jdbc sql
PyAudio ErrNo 输入溢出 -9981

我遇到了与用户相同的错误 Python 使用 Pyaudio 以 16000Hz 录制音频时出错 https stackoverflow com questions 12994981 python error audio recording

随机推荐

带有 FileSystemWatcher 和 Timer 的 Windows 服务 - 确保所有内容都得到处理

我创建了一个 C Windows 服务应用程序来启动FileSystemWatcher监视目录中文件的创建找到文件后我实例化一个自定义类该类解析文件 CSV 并使用其内容调用 Web 服务该服务在某种程度上是异步的并返回一个唯一的
使用 SUDS 时添加 xsi:type 和信封命名空间

我需要与 SOAP 服务交互但这样做遇到了很多麻烦非常感谢对此的任何指示原来的错误信息是 org apache axis2 databinding ADBException Any type element type has not
MySQL Select Query 生成动态列结果

我需要编写一个动态返回列的查询例如我有一个包含列的表 tblTest Id Name Type Amount 1 Receipt Cash 100 2 Receipt Card 200 3 Receipt Cheque 250 4 Re
如何将日期时间列四舍五入到最近的一刻钟

我已将数据文件加载到 Python pandas 数据框中我有一个格式的日期时间列2015 07 18 13 53 33 280 我需要做的是创建一个新列将其四舍五入到最接近的一刻钟因此上面的日期将四舍五入为2015 07 18 1
Gradle应用程序插件：修改workingDir属性

我只是想修改程序运行的目录通常它是从项目根目录运行的这让我有点恼火因为测试程序可能非常烦人因为我的程序在运行时生成文件和文件夹 A JavaExec任务有一个属性称为JavaExec workingDir 这正是我想要修改为我选择
使用数组进行字符串插值

我正在尝试使用 php 创建链接但遇到了一些困难有人可以帮我弄这个吗我希望链接转到 yourteam php 标题为变量 row User ID 的内容 echo tr td a href row User ID a td td b
水平冻结一表列

我有一个活动其中我实现了一个表格视图表格视图有标题和正文表格可以水平和垂直滚动这是活动源代码 public class ReportListActivity extends Activity TableLayout report t
使用来自 PHP 网页的输入参数运行 .exe

我目前正在尝试获取一个可执行文件以在 PHP 网页中运行当前使用exec 从命令行运行时该程序需要两个参数我不确定使用 PHP 运行它的最佳方法是什么特别是可以使用以下语法从命令行运行 exe my program exe inp
在 WooCommerce 我的帐户订单列表上显示产品缩略图

我正在尝试在 WooCommerce 我的帐户 gt 订单列表中的订单号旁边显示产品缩略图 Below is the screenshot of the order 我必须使用什么钩子来显示图像 I tried 将产品图片添加到 Wooco
在 PHP 中删除 JSON 数组元素，然后重新编码为 JSON

function deleteNews selected file file get contents news json true data json decode file true unset file foreach selecte
取消 jquery 可拖动对象或重置

我想加载一个可以拖动到地图 div 上的对象页面但想要有一个清除撤消按钮这可以用 jquery 实现吗你可以在上一个问题中看到代码 jQuery UI droppables 更改删除的图像这可以通过简单的调用来实现 animate
使用 gradle/clojuresq 构建 clojure

我正在尝试使用 gradle Clojuresque 构建 clojure 代码运行它并获取 uberjar 我使用来自的提示http dev clojure org display doc Getting Started with Gr
使用php发送whatsapp消息

你好我想使用 php 发送 Whatsapp 消息我运行这段代码
Inno Setup - 使用通配符注册表项设置 DefaultDir？

我最近开始使用 Inno Setup 尝试创建一个简单的 exe 安装程序来进行游戏修改我的安装程序大部分工作正常但目前还有些基础我真正希望安装程序做的是自动找到该模组设计的游戏的安装目录战争黎明黑暗十字军这样用户就不需要手动浏
XML SAX：在一个示例 XML 文件中解释“qName”和“localName”的结果

我正在测试如何使用SAXParser并了解其组成部分这是我用来测试的 XML 文件
姜戈；连接到 AWS Elastic Bean 上的上游时，44 connect() 失败（111：连接被拒绝）

我想将我的 django 项目上传到 AWS ElasticBean 但我一直在获取502 网关错误 nginx 1 20 0 我在 youtube 上浏览了一些视频但似乎不起作用这是我的项目目录 ebextensions elasti
收到错误：查询输入必须至少包含一个表或查询

我收到此错误查询输入必须至少包含一个表或查询我的代码是 using OleDbConnection myCon new OleDbConnection Provider Microsoft ACE OLEDB 12 0 Data Sou
使用 Overpass API 查找坐标周围的多个标签

鉴于此立交桥查询https overpass turbo eu s Sle 搜索博物馆和画廊我如何引入一种新类型的标签来搜索同一位置例如我还想搜索node amenity cafe bar 同一区域周围500米 lat 500 53
通过 TCP 通过我的公共 IP 连接到我自己

我正在尝试使用我的公共 IP 连接到我自己的计算机如果我使用127 0 0 1连接成功但是使用公网IP会出现以下错误 ConnectionRefusedError WinError 10061 No connection could b
如何抓取网络新闻并将段落合并到每篇文章中

我正在从该网站抓取新文章https nypost com search China COVID 19 page 2 orderby relevance我使用 for 循环来获取每篇新闻文章的内容但我无法组合每篇文章的段落我的目标是将每篇

如何抓取网络新闻并将段落合并到每篇文章中

如何抓取网络新闻并将段落合并到每篇文章中 的相关文章

随机推荐

热门标签

如何抓取网络新闻并将段落合并到每篇文章中的相关文章