如何使用 Python 抓取类别维基百科页面的子类别和页面

2023-12-13

因此，我尝试抓取类别页面的类别标题下的所有子类别和页面：“类别：基于类的编程语言”，位于：

https://en.wikipedia.org/wiki/Category:基于类的编程语言

我已经找到了一种使用 url 和 mediawiki API 来做到这一点的方法：Categorymembers。这样做的方法是：

base: en.wikipedia.org/w/api.php?action=query&list=categorymembers&cmtitle=Category:Class-based%20programming%20languages&format=json&cmlimit=500
base: en.wikipedia.org/w/api.php?action=query&list=categorymembers&cmtitle=Category:Class-based%20programming%20languages&format=json&cmlimit=500&cmtype=subcat

但是，我找不到使用 Python 来完成此任务的方法。有人可以帮我从这里出去吗？

这是为了独立研究，我花了很多时间在这上面，但似乎无法弄清楚。此外，禁止使用 Beautifulsoup。感谢您的所有帮助！

好吧，经过更多的研究和学习，我找到了自己问题的答案。使用库urllib.request and json，我以 json 格式导入了 wikipedia url 文件，并以这种方式简单地打印了其类别。这是我用来获取子类别的代码：

pages = urllib.request.urlopen("https://en.wikipedia.org/w/api.php?action=query&list=categorymembers&cmtitle=Category:Class-based%20programming%20languages&format=json&cmlimit=500&cmtype=subcat")
data = json.load(pages)
query = data['query']
category = query['categorymembers']
for x in category:
    print (x['title'])

您可以对类别中的页面执行相同的操作。感谢尼莫试图帮助我！

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

json

webscraping

wikipedia

如何使用 Python 抓取类别维基百科页面的子类别和页面的相关文章

使用带有关键字参数的 map() 函数

这是我尝试使用的循环map功能于 volume ids 1 2 3 4 5 ip 172 12 13 122 for volume id in volume ids my function volume id ip ip 我有办法做到这一点
如何使用Conda下载python包并随后离线安装？

我知道通过 pip 我可以使用以下命令下载 Python 包但 pip install 破坏了我的内部包依赖关系当我做 pip download
Ajax 调用诸如 'for (;;); 之类的响应是什么？ { json 数据 }' 是什么意思？ [复制]

这个问题在这里已经有答案了可能的重复为什么人们会写这样的代码 throw 1 和 for 在 json 响应前面 https stackoverflow com questions 3146798 why do people put c
python 相当于 R 中的 get() （= 使用字符串检索符号的值）

在 R 中 get s 函数检索名称存储在字符变量向量中的符号的值s e g X lt 10 r lt XVI s lt substr r 1 1 X get s 10 取罗马数字的第一个符号r并将其转换为其等效整数尽管花了一些时间翻
根据列值突出显示数据框中的行？

假设我有这样的数据框 col1 col2 col3 col4 0 A A 1 pass 2 1 A A 2 pass 4 2 A A 1 fail 4 3 A A 1 fail 5 4 A A 1 pass 3 5 A A 2 fail 2
如何从网页中嵌入的 Tableau 图表中抓取工具提示值

我试图弄清楚是否有一种方法以及如何使用 python 从网页中的 Tableau 嵌入图形中抓取工具提示值以下是当用户将鼠标悬停在条形上时带有工具提示的图表示例我从要从中抓取的原始网页中获取了此网址 https covid19 colo
如何加速Python中的N维区间树？

考虑以下问题给定一组n间隔和一组m浮点数对于每个浮点数确定包含该浮点数的区间子集这个问题已经通过构建一个解决区间树 https en wikipedia org wiki Interval tree 或称为范围树或线段树已经针对一
绘制方程

我正在尝试创建一个函数它将绘制我告诉它的任何公式 import numpy as np import matplotlib pyplot as plt def graph formula x range x np array x rang
从 Flask 访问 Heroku 变量

我已经使用以下命令在 Heroku 配置中设置了数据库变量 heroku config add server xxx xxx xxx xxx heroku config add user userName heroku config add
如何使用Python创建历史时间线

So I ve seen a few answers on here that helped a bit but my dataset is larger than the ones that have been answered prev
在f字符串中转义字符[重复]

这个问题在这里已经有答案了我遇到了以下问题f string gt gt gt a hello how to print hello gt gt gt f a a gt gt gt f a File
对年龄列进行分组/分类

我有一个数据框说df有一个柱子 Ages gt gt gt df Age 0 22 1 38 2 26 3 35 4 35 5 1 6 54 我想对这个年龄段进行分组并创建一个像这样的新专栏 If age gt 0 age lt 2 the
有没有办法检测正在运行的代码是否正在上下文管理器内执行？

正如标题所述有没有办法做到这样的事情 def call back if called inside context print running in context else print called outside context 这将
有人用过 Dabo 做过中型项目吗？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我们正处于一个新的 ERP 风格的客户端服务器应用程序的开始阶段该应用程序是作为 Python 富客户端开发的我们目前正在评估 Dabo
Conda SafetyError：文件大小不正确

使用创建 Conda 环境时conda create n env name python 3 6 我收到以下警告 Preparing transaction done Verifying transaction SafetyError Th
使用 Python 的 matplotlib 选择在屏幕上显示哪些图形以及将哪些图形保存到文件中

我想用Python创建不同的图形matplotlib pyplot 然后我想将其中一些保存到文件中而另一些则应使用show 命令然而 show 显示all创建的数字我可以通过调用来避免这种情况close 创建我不想在屏幕上显示的绘图
导入错误：没有名为 site 的模块 - mac

我已经有这个问题几个月了每次我想获取一个新的 python 包并使用它时我都会在终端中收到此错误 ImportError No module named site 我不知道为什么会出现这个错误实际上我无法使用任何新软件包因为每次我
将 List 转换为 JSON

Hi guys 有人可以帮助我如何将我的 HQL 查询结果转换为带有对象列表的 JSON 并通过休息服务获取它这是我的服务方法它返回查询结果列表 Override public List
Python Selenium：如何在文本文件中打印网站上的值？

我正在尝试编写一个脚本该脚本将从 tulsaspca org 网站获取以下 6 个值并将其打印在 txt 文件中最终输出应该是 905 4896 7105 23194 1004 42000 放置的动物的 HTML span class
如何使用 Pycharm 安装 tkinter？ [复制]

这个问题在这里已经有答案了 I used sudo apt get install python3 6 tk而且效果很好如果我在终端中打开 python Tkinter 就可以工作但我无法将其安装在我的 Pycharm 项目上 pip

随机推荐

关于多组件依赖的uipickerview的实现

我无法理解多组件 uipickerviews 的概念我真的很想拥有这个主题我想制作一个 4 组件选择器视图其中的组件相互依赖第一个组件是从我的数据库中的数组填充的并且显示得很好我在数组中拥有所有可用的其他信息但我只是对我的 p
Python 为 os.listdir 返回的文件名引发 FileNotFoundError [重复]

这个问题在这里已经有答案了我试图迭代目录中的文件如下所示 import os path r E somedir for filename in os listdir path f open filename r process the
查找数组的最大递增子集（不连续）

如何找到数组的最大递增非连续子集例如如果 A array 50 1 4 9 2 18 6 3 7 10 最大递增非连续子集是 1 4 6 7 10 或 1 2 6 7 10 我可以直观地看到如何找到子集但我不知道如何设计算法维基
VBA LastRow 计算不起作用

我有一个工作表其中包含从单元格开始的自动过滤范围B3 柱子A包含一些宏按钮但实际上是空白的前两行包含有关主范围中的数据的信息在 VBA 中我使用我认为是确定工作表中最后一行的标准方法在这种情况下我不能依赖 End单列方法 La
NSTableView 中的鼠标悬停

我在使用 NSTableView 创建鼠标悬停功能时遇到问题这个想法是如果在首选项中选择了该功能将鼠标指针放置在 NSTabelView 中的特定行上方将显示一个小的弹出窗口其中包含有关该特定行中的条目的附加信息效果不应立即出现
Hashmap是按字母顺序排列的吗？

我有一个 HashMap 定义如下 private final Map
如何在同一目录中的多个工作簿中循环遍历 Excel 工作表，同时将数据复制到新工作簿中？

该代码本身将循环遍历目录中的工作簿并将数据从第一张工作表上的特定单元格复制到新工作簿我想让它这样做但也要浏览每个工作簿中的每个工作表以获取所需的数据 Sub GatherData Dim wkbkorigin As Workbook
将 JSON 文件导入/索引到 Elasticsearch

我是 Elasticsearch 的新手到目前为止一直在手动输入数据例如我做了这样的事情 curl XPUT http localhost 9200 twitter tweet 1 d user kimchy post date 200
如何处理动态sql参数

处理动态sql参数的好方法是什么我有一个搜索表单其中包含一大堆不同的搜索参数如果参数为空并且我在 sql 字符串中有参数它会搞砸或减慢查询速度吗根据具体的实现我们有两种通用的方法来解决这个问题 1 在代码中动态构建 SQL 查询
连接两个具有不同列的不同条件的表

tbl User ID mobileno dateofregistration registrationstate 44 1674174925 2011 04 18 10 17 30 670 0 45 1677864168 2011 03
Django 2.0 与关键字参数 uidb64 的 NoReverseMatch

我不明白为什么我的代码不起作用在它工作之前但是现在当我运行服务器并测试时代码不起作用当用户注册时我向他发送激活电子邮件如下所示 def send activation email serializer request user
匹配正则表达式中的可选子字符串

我正在开发一种算法来解析一系列短字符串中的数字这些字符串有些规则但有一些不同的一般形式和一些例外我正在尝试构建一组正则表达式来处理各种形式和异常我会一个接一个地应用它们看看是否能匹配其中一种形式如下 X Y Z Where X是
或
标记视频播放错误处理程序 - JavaScript
我尝试通过将 YouTube 和其他视频嵌入到 HTML 源中来播放 YouTube 和其他视频以便在 iOS 中显示它们 Both and 技术有效但是当视频无法播放或传递给它的 URL 错误时它们都无法调用回调函数因此它无法播放

量角器配置文件没有获取黄瓜步骤定义

我是量角器和黄瓜框架的新手我按照量角器网站和此处的步骤进行操作https semaphoreci com community tutorials getting started with protractor and cucumber 我

如何在 XSLT 中将空白序列替换为一个空格但不进行修剪？

功能normalize space删除前导和尾随空白并将空白字符序列替换为单个空格我怎么能够only在 XSLT 1 0 中用单个空格替换空白字符序列例如 x y n t z 为了便于阅读空格被点替换应该变成 x y z 使用此 X

Google 应用内结算导致异常

在我的一个 Android 应用程序中我试图从 Google 的应用内计费中实现简单的库存抓取但它总是在 mHelper queryInventoryAsync mGotInventoryListener 消息称未设置 IabHelp

Qt：在数字字符串上使用 QSortFilterProxyModel 并获取错误的列文本时排序错误

我有简单的模型视图树视图带有 QSortFilterProxyModel 代理来对列进行排序并使用 QStandardItemModel 作为模型在每列中都有字符串排序良好但在包含数字作为字符串的列中排序错误假设我有 9 12

在 Selenium WebDriver 中按 Ctrl + A

Is there a way to press the Ctrl A keys using Selenium WebDriver 我检查了 Selenium 库发现 Selenium 允许按下特殊和功能键 only 另一种解决方案在 J

使用spark dataFrame从HDFS加载数据

我们可以在从 HDFS 读取数据时使用 DataFrame 吗我在 HDFS 中有一个制表符分隔数据我用谷歌搜索但发现它可以与 NoSQL 数据一起使用 DataFrame 当然不限于NoSQL 数据源 1 4 到 1 6 1 原生提

如何使用 Python 抓取类别维基百科页面的子类别和页面

因此我尝试抓取类别页面的类别标题下的所有子类别和页面类别基于类的编程语言位于 https en wikipedia org wiki Category 基于类的编程语言我已经找到了一种使用 url 和 mediawiki API
热门标签

离散仿真引擎基础

井字棋

3D游戏编程与设计

win7常用命令

win10常用命令

Windows命令

新黑马 STL

uinty日常小问题

csdn 精细文章

无监督

web api

小白开发微信小程序

双多指针法

副本

Dapp开发

asch

vue问题

并发编程及源码分析

java中的date

基础工具
Powered by Hwhale

如何使用 Python 抓取类别维基百科页面的子类别和页面

如何使用 Python 抓取类别维基百科页面的子类别和页面 的相关文章

随机推荐

热门标签

如何使用 Python 抓取类别维基百科页面的子类别和页面的相关文章