使用 Python 和报纸3k lib 进行网页抓取不返回数据

2023-12-24

我已经安装了Newspapper3k我的 Mac 上的 Libsudo pip3 install Newspapper3k。我使用的是Python 3。我想返回 Article 对象支持的数据，即 url、日期、标题、文本、摘要和关键字，但我没有得到任何数据：

import newspaper
from newspaper import Article

#creating website for scraping
cnn_paper = newspaper.build('https://www.euronews.com/', memoize_articles=False)

#I have tried for https://www.euronews.com/, https://edition.cnn.com/, https://www.bbc.com/


for article in cnn_paper.articles:

    article_url = article.url #works

    news_article = Article(article_url)#works

    print("OBJECT:", news_article, '\n')#works
    print("URL:", article_url, '\n')#works
    print("DATE:", news_article.publish_date, '\n')#does not work
    print("TITLE:", news_article.title, '\n')#does not work
    print("TEXT:", news_article.text, '\n')#does not work
    print("SUMMARY:", news_article.summary, '\n')#does not work
    print("KEYWORDS:", news_article.keywords, '\n')#does not work
    print()
    input()

我得到了 Article 对象和 URL，但其他一切都是 ''。我在不同的网站上尝试过，但结果都是一样的。

然后我尝试添加：

    news_article.download()
    news_article.parse()
    news_article.nlp()

我还尝试设置配置并设置标头和超时，但结果是相同的。

当我这样做时，对于每个网站，我只获得 16 篇带有日期、标题和正文值的文章。这对我来说很奇怪，对于每个网站，我都获得相同数量的数据，但对于超过 95% 的新闻文章，我没有获得任何数据。

美丽汤能帮助我吗？

有人可以帮助我理解问题是什么，为什么我得到这么多 Null/Nan/"" 值，以及如何解决这个问题？

这是 lib 的文档：

https://newspaper.readthedocs.io/en/latest/ https://newspaper.readthedocs.io/en/latest/

我建议您查看报纸概述 https://github.com/johnbumgarner/newspaper3_usage_overview我发布的文档GitHub。该文档有多个提取示例和其他可能有用的技术。

关于你的问题...

报纸3K将几乎完美地解析某些网站。但是有很多网站需要检查页面的导航结构以确定如何正确解析文章元素。

例如，https://www.marketwatch.com https://www.marketwatch.com具有存储在页面元标记部分中的单独文章元素，例如标题、发布日期和其他项目。

The 报纸下面的示例将正确解析元素。我注意到您可能需要对关键字或标签输出进行一些数据清理。

import newspaper
from newspaper import Config
from newspaper import Article

USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.15; rv:78.0) Gecko/20100101 Firefox/78.0'

config = Config()
config.browser_user_agent = USER_AGENT
config.request_timeout = 10

base_url = 'https://www.marketwatch.com'
article_urls = set()
marketwatch = newspaper.build(base_url, config=config, memoize_articles=False, language='en')
for sub_article in marketwatch.articles:
article = Article(sub_article.url, config=config, memoize_articles=False, language='en')
article.download()
article.parse()
if article.url not in article_urls:
    article_urls.add(article.url)

    # The majority of the article elements are located
    # within the meta data section of the page's
    # navigational structure
    article_meta_data = article.meta_data

    published_date = {value for (key, value) in article_meta_data.items() if key == 'parsely-pub-date'}
    article_published_date = " ".join(str(x) for x in published_date)

    authors = sorted({value for (key, value) in article_meta_data.items() if key == 'parsely-author'})
    article_author = ', '.join(authors)

    title = {value for (key, value) in article_meta_data.items() if key == 'parsely-title'}
    article_title = " ".join(str(x) for x in title)

    keywords = ''.join({value for (key, value) in article_meta_data.items() if key == 'keywords'})
    keywords_list = sorted(keywords.lower().split(','))
    article_keywords = ', '.join(keywords_list)

    tags = ''.join({value for (key, value) in article_meta_data.items() if key == 'parsely-tags'})
    tag_list = sorted(tags.lower().split(','))
    article_tags = ', '.join(tag_list)

    summary = {value for (key, value) in article_meta_data.items() if key == 'description'}
    article_summary = " ".join(str(x) for x in summary)

    # the replace is used to remove newlines
    article_text = article.text.replace('\n', '')
    print(article_text)

https://www.euronews.com https://www.euronews.com类似于https://www.marketwatch.com https://www.marketwatch.com, 除了一些文章元素位于主体中，其他项目位于元标记部分内。

import newspaper
from newspaper import Config
from newspaper import Article

USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.15; rv:78.0) Gecko/20100101 Firefox/78.0'

config = Config()
config.browser_user_agent = USER_AGENT
config.request_timeout = 10

base_url = 'https://www.euronews.com'
article_urls = set()
euronews = newspaper.build(base_url, config=config, memoize_articles=False, language='en')
for sub_article in euronews.articles:
   if sub_article.url not in article_urls:
     article_urls.add(sub_article.url)
     article = Article(sub_article.url, config=config, memoize_articles=False, language='en')
     article.download()
     article.parse()

     # The majority of the article elements are located
     # within the meta data section of the page's
     # navigational structure
     article_meta_data = article.meta_data
    
     published_date = {value for (key, value) in article_meta_data.items() if key == 'date.created'}
     article_published_date = " ".join(str(x) for x in published_date)
    
     article_title = article.title

     summary = {value for (key, value) in article_meta_data.items() if key == 'description'}
     article_summary = " ".join(str(x) for x in summary)

     keywords = ''.join({value for (key, value) in article_meta_data.items() if key == 'keywords'})
     keywords_list = sorted(keywords.lower().split(','))
     article_keywords = ', '.join(keywords_list).strip()

     # the replace is used to remove newlines
     article_text = article.text.replace('\n', '')

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 Python 和报纸3k lib 进行网页抓取不返回数据的相关文章

使用Python开发Web应用程序

我一直在用 python 做一些工作但这都是针对独立应用程序的我很想知道 python 的任何分支是否支持 Web 开发有人还会建议一个好的教程或网站吗我可以从中学习一些使用 python 进行 Web 开发的基础知识既然大家都说
下载 PyQt6 的 Qt Designer 并使用 pyuic6 将 .ui 文件转换为 .py 文件

如何下载 PyQt6 的 QtDesigner 如果没有适用于 PyQt6 的 QtDesigner 我也可以使用 PyQt5 的 QtDesigner 但是如何将此 ui 文件转换为使用 PyQt6 库而不是 PyQt5 的 py 文件
Django REST序列化器：创建对象而不保存

我已经开始使用 Django REST 框架我想做的是使用一些 JSON 发布请求从中创建一个 Django 模型对象然后使用该对象而不保存它我的 Django 模型称为 SearchRequest 我所拥有的是 api view
将字符串转换为带有毫秒和时区的日期时间 - Python

我有以下 python 片段 from datetime import datetime timestamp 05 Jan 2015 17 47 59 000 0800 datetime object datetime strptime t
如何在android上的python kivy中关闭应用程序后使服务继续工作

我希望我的服务在关闭应用程序后继续工作但我做不到我听说我应该使用startForeground 但如何在Python中做到这一点呢应用程序代码 from kivy app import App from kivy uix floatl
导入错误：没有名为 _ssl 的模块

带 Python 2 7 的 Ubuntu Maverick 我不知道如何解决以下导入错误 gt gt gt import ssl Traceback most recent call last File
更改自动插入 tkinter 小部件的文本颜色

我有一个文本框小部件其中插入了三条消息一条是开始消息一条是结束消息一条是在单位被摧毁时发出警报的消息我希望开始和结束消息是黑色的但被毁坏的消息参见我在代码中评论的位置插入小部件时颜色为红色我不太确定如何去做这件事我看
如何使用 Scrapy 从网站获取所有纯文本？

我希望在 HTML 呈现后可以从网站上看到所有文本我正在使用 Scrapy 框架使用 Python 工作和xpath body text 我能够获取它但是带有 HTML 标签而且我只想要文本有什么解决办法吗最简单的选择是ext
打破嵌套循环[重复]

这个问题在这里已经有答案了有没有比抛出异常更简单的方法来打破嵌套循环在Perl https en wikipedia org wiki Perl 您可以为每个循环指定标签并且至少继续一个外循环 for x in range 10 fo
为 pandas 数据透视表中的每个值列定义 aggfunc

试图生成具有多个值列的数据透视表我知道我可以使用 aggfunc 按照我想要的方式聚合值但是如果我不想对两列求和或求平均值而是想要一列的总和同时求另一列的平均值该怎么办那么使用 pandas 可以做到这一点吗 df pd D
keras加载模型错误尝试将包含17层的权重文件加载到0层的模型中

我目前正在使用 keras 开发 vgg16 模型我用我的一些图层微调 vgg 模型拟合我的模型训练后我保存我的模型model save name h5 可以毫无问题地保存但是当我尝试使用以下命令重新加载模型时load mod
feedparser 在脚本运行期间失败，但无法在交互式 python 控制台中重现

当我运行 eclipse 或在 iPython 中运行脚本时它失败了 ascii codec can t decode byte 0xe2 in position 32 ordinal not in range 128 我不知道为什么但
ExpectedFailure 被计为错误而不是通过

我在用着expectedFailure因为有一个我想记录的错误我现在无法修复但想将来再回来解决我的理解expectedFailure是它会将测试计为通过但在摘要中表示预期失败的数量为 x 类似于它如何处理跳过的 tets 但是当我
Python：尝试检查有效的电话号码

我正在尝试编写一个接受以下格式的电话号码的程序XXX XXX XXXX并将条目中的任何字母翻译为其相应的数字现在我有了这个如果启动不正确它将允许您重新输入正确的数字然后它会翻译输入的原始数字我该如何解决 def main phon
Python - 在窗口最小化或隐藏时使用 pywinauto 控制窗口

我正在尝试做的事情我正在尝试使用 pywinauto 在 python 中创建一个脚本以在后台自动安装 notepad 隐藏或最小化 notepad 只是一个示例因为我将编辑它以与其他软件一起使用 Problem 问题是我想在安装程序
Numpy 优化

我有一个根据条件分配值的函数我的数据集大小通常在 30 50k 范围内我不确定这是否是使用 numpy 的正确方法但是当数字超过 5k 时它会变得非常慢有没有更好的方法让它更快 import numpy as np N 5000
Python：计算字典的重复值

我有一本字典如下 dictA unit1 test1 alpha unit1 test2 beta unit2 test1 alpha unit2 test2 gamma unit3 test1 delta unit3 test2 gamm
VSCode：调试配置中的 Python 路径无效

对 Python 和 VSCode 以及 stackoverflow 非常陌生直到最近我已经使用了大约 3 个月一切都很好当尝试在调试器中运行任何基本的 Python 程序时弹出窗口The Python path in your
Python：元类属性有时会覆盖类属性？

下面代码的结果让我感到困惑 class MyClass type property def a self return 1 class MyObject object metaclass MyClass a 2 print MyObject
改变字典的哈希函数

按照此question https stackoverflow com questions 37100390 towards understanding dictionaries 我们知道两个不同的字典 dict 1 and dict 2例

随机推荐

在 unix/linux shell 中进行模式匹配时如何使用反通配符或负通配符？

假设我想复制目录的内容不包括名称中包含音乐一词的文件和文件夹 cp exclude matches Music target directory 应该用什么来代替 exclude matches 来实现此目的在 Bash 中您可以
git 嵌套存储库 - 子模块、符号链接、其他

我正在尝试使用 git 设置我的 Zend Framework 开发环境或更重要的是我的目录结构然而我的根本问题实际上与所涉及的特定库无关但更重要的是如何让 git 完成我想要的事情我的项目根目录是 home jsuggs pro
如何在应用后获取 BitmapImage 字节

这个 BitmapSource originalImage byte originalPixels originalPixels new byte int originalImage Width int originalImage Heig
在python中通过xml.etree.ElementTree生成的xml文件中插入换行符

我在 python 中使用 xml etree ElementTree 创建了一个 xml 文件然后我用 tree write filename UTF 8 将文档写出到文件中但是当我使用文本编辑器打开文件名时标签之间没有换行符一切
经纬度转为时区

有谁知道是否有任何现有的解决方案可以从一个点经度纬度确定时区我可以对这个项目所需的一些内容进行硬编码但最好使用预先构建的解决方案 thanks 使用 Web 服务例如由geonames http www geonames org
在 RowSort 操作后执行操作

我有一个JTable and a TableRowSorter我想在排序完成后执行操作我一直在浏览网络但到目前为止我还没有什么运气最初我以为只是一个RowSorterListener可以解决这个问题但不幸的是它在排序完成后不会执行该
在 JAVA 中验证 JSON 字符串对象格式的最佳方法是什么

我想验证字符串对象是否是有效的 json 对象无论其数据正确性如何换句话说这个 json 字符串的格式正确吗例如我得到 abc 123 cba 233 该过程应返回格式异常 abc 123 cba 233 应该给予相同的您可能认
MSIL检查

我有一些字节格式的 MSIL 反射的 GetMethodBody 的结果我想对其进行一些分析我想在 MSIL 中找到使用 new 运算符创建的所有类关于如何以编程方式做到这一点有什么想法吗我最终在这里使用了 MSIL 解析器 htt
在Linux上编写多线程TCP服务器

在工作中我的任务是实现 TCP 服务器作为 Modbus 从设备的一部分我在堆栈交换和互联网上读了很多书包括优秀的http beej us guide bgnet http beej us guide bgnet 但我正在努力解决设计
如何通过 JavaScript 设置浏览器选项卡的锚点目标名称？

当从外部超链接调用我的网站时如果它已经打开它将在同一浏览器选项卡中重新打开这可以通过在超链接的 HTML 中指定适当的目标属性来实现 a href http my website org target self a 但是如果在未指定
ASP.NET Core 2.2（发布）产生错误并停止 w3wp

刚刚将我们的 ASP NET Core 2 1 5 项目之一升级到今天发布的 v 2 2 部署到生产服务器后它会失败并关闭工作进程项目在 Windows 10 1803 17134 441 上本地运行良好但在生产服务器上运行不佳 Wi
与 2013 年相比，initializer_list 中的双重删除

今天我的项目中遇到了内存问题其中一个类使用 c 11 初始化器列表系统发出内存问题信号 dbgdel cpp 中的表达式 BLOCK TYPE IS VALID pHead gt nBlockUse 我将代码简化为一个简单的示例它不
Angular 2 Web Worker - UI 未运行

我有一个 angular2 应用程序在网络工作者中运行从表面上看一切都按我的预期运行但 DOM 似乎没有发生任何事情例如我在应用程序加载时显示预加载器但它永远不会被实际应用程序 UI 替换
来自守护程序的错误响应：连接到网络失败，请确保您的网络选项正确并检查管理器日志：超出上下文期限

我正在尝试使用覆盖网络设置 docker swarm 我在 aws 上有一些主机而其他主机是运行 Ubuntu 的笔记本电脑与 aws 上相同每个节点都有一个静态公共IP 我创建了一个覆盖网络 docker network creat
为什么 Javascript 返回不正确的 UTC 月份值？

好吧首先让我说我已经这样做了一千次了我只是想在 JavaScript 中打印 utc 时间但是我得到的值是错误的 JavaScript 将在 8 月返回 8 而不是 9 月 9 因为今天是 2014 年 9 月 2 日 UTC 时
initState 中的 Flutter 提供程序

我目前正在尝试将 Provider 作为状态管理解决方案并且我知道它不能在 initState 函数内部使用我见过的所有示例都调用派生类中的方法ChangeNotifier根据用户操作例如用户单击按钮进行类但是如果我需要在初始化
如何使用查询性能计数器？

我最近决定需要将 Timer 类的使用毫秒改为微秒经过一番研究后我认为 QueryPerformanceCounter 可能是我最安全的选择警告Boost Posix它可能无法在 Win32 API 上运行这让我有点失望但是我不
在运行嵌套查询的嵌套对象上使用 firebase 云函数搜索数据时未指定索引

我正在使用 fire base 检索用户节点的嵌套数据在运行查询时我面临着从 fire base 数据库获取数据的问题考虑添加 indexOn userId users YJdwgRO08nOmC5HdEokr1NqcATx1 fol
如何从 type="button" 的表单元素获取值

我在表单中有以下代码
使用 Python 和报纸3k lib 进行网页抓取不返回数据

我已经安装了Newspapper3k我的 Mac 上的 Libsudo pip3 install Newspapper3k 我使用的是Python 3 我想返回 Article 对象支持的数据即 url 日期标题文本摘要和关键字但

使用 Python 和报纸3k lib 进行网页抓取不返回数据

使用 Python 和报纸3k lib 进行网页抓取不返回数据 的相关文章

随机推荐

热门标签

使用 Python 和报纸3k lib 进行网页抓取不返回数据的相关文章