转储中的维基百科类别层次结构

2024-04-24

我想使用维基百科的转储为其类别构建一个层次结构。我已经下载了主转储 (enwiki-latest-pages-articles) 和类别 SQL 转储 (enwiki-latest-category)。但我找不到层次结构信息。

例如,SQL 类别的转储包含每个类别的条目,但我找不到有关它们如何相互关联的任何信息。

另一个转储(最新页面文章)以无序的方式表示每个页面的父类别。它只是说明了所有的父母。

我看过 wikiprep 的类别层次结构(http://www.cs.technion.ac.il/~gabr/resources/code/wikiprep/ http://www.cs.technion.ac.il/~gabr/resources/code/wikiprep/)...那是如何构造的? Wikiprep 列出了类别 ID,而不是其名称。有没有办法获取每个ID的名称?


MediaWiki中的类别层次结构信息存储在categorylinks table https://www.mediawiki.org/wiki/Manual:Categorylinks_table,所以你需要categorylinks dump.

您还需要page (not pages-articles) 转储页面 id 到标题的映射。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

转储中的维基百科类别层次结构 的相关文章

  • 如何从维基百科文章中提取数据?

    我有一个关于为我的 Android 应用程序解析维基百科数据的问题 我有一个脚本 可以通过读取源代码来下载 XMLhttp en wikipedia org w api php action parse prop text format x
  • 如何通过 MediaWiki API 从 Wikipedia 文章中获取信息框? [复制]

    这个问题在这里已经有答案了 维基百科文章可能有信息框模板 通过以下调用 我可以获得包含信息框的文章的第一部分 http en wikipedia org w api php action parse pageid 568801 sectio
  • 在 MediaWiki 中,有没有办法可以将 [[Image:]] 样式调整大小应用于外部图像?

    MediaWiki 有一个很好的内置方法来处理图像的显示 例如从http www mediawiki org wiki Help 图像 http www mediawiki org wiki Help Images File MediaWi
  • Woocommerce 单一产品页面按钮仅适用于特定类别

    我添加了代码以在 woocommerce 页面上显示 查看产品示例 按钮 按钮功能正常 但是我希望该按钮仅针对特定类别显示 我们的类别是 电子课程 这是我用于该按钮的代码 add action woocommerce after add t
  • 如何从 MediaWiki API 获取主图像?

    您好 我正在使用 Curl 从维基百科获取信息 我只想接收有关主图像的信息 我不想接收文章的所有图像 例如 如果我想获取有关英语语言的所有图像的信息 http en wikipedia org wiki English language h
  • mongodump 失败'locale::facet::_S_create_c_locale 名称无效'

    当我尝试使用以下命令创建 mongodb 转储时 mongodump d mydb it fails terminate called after throwing an instance of std runtime error what
  • Doxygen 和 Objective-C 类别

    尽管 Doxygen 的最新版本声称可以更好地处理 Objective C 类别 http www doxygen nl manual changelog html 它似乎仍然对我的源代码中的类别感到窒息 我想知道是否有人已经让它正确地记录
  • 转储中的维基百科类别层次结构

    我想使用维基百科的转储为其类别构建一个层次结构 我已经下载了主转储 enwiki latest pages articles 和类别 SQL 转储 enwiki latest category 但我找不到层次结构信息 例如 SQL 类别的转
  • 在 Magento 中显示产品所属的所有类别

    我正在构思一个新的 Magento 网站 该网站将包含多个类别的产品 我想知道是否可以在产品详细信息页面上显示产品所属的所有类别 我知道有可能得到the类别 但是否可以显示列表all产品属于哪些类别 例如 衬衫可以包含在Shirts类别 以
  • 破译vtable转储

    我正在 玩 C 中的虚拟继承 我想知道类对象是如何布局的 我有这三个课程 class A private int a public A this gt a 47 virtual void setInt int x this gt a x v
  • 维基百科与 Python

    我有这个非常简单的 python 代码来读取 wikipedia api 的 xml import urllib from xml dom import minidom usock urllib urlopen http en wikipe
  • MYSQL插入GB大小的巨大SQL文件

    我正在尝试创建 Wikipedia DB 副本 大约 50GB 但在处理最大的 SQL 文件时遇到问题 我使用 linux split 实用程序将 GB 大小的文件拆分为 300 MB 的块 例如 split d l 50 enwiki 2
  • 如何添加带有外部链接的自定义选项卡按钮?

    使用 Mediawiki 1 19 并希望在选项卡按钮 页面 和 讨论 旁边添加带有外部链接的选项卡 怎么做 Extension DynamicTabs 不起作用 因为它在矢量皮肤方面存在问题 步入常见问题解答 如何在我的 wiki 中添加
  • 如何在 WordPress 中获取帖子中的类别标题?

    假设我在 WordPress 中有一篇名为 Hello World 的帖子 并且我直接查看此页面 我将如何找到 Hello World 类别并显示它 Use get the category http codex wordpress org
  • Python 中维基百科 API 中的 DisambiguationError 和 GuessedAtParserWarning

    我想获得维基百科与搜索词相关的可能且可接受的名称列表 在这种情况下是 电晕 当输入以下内容时 print wikipedia summary Corona 这给出了以下输出 home virej local lib python3 8 si
  • Wikipedia API:如何获取页面的修订次数?

    有人知道如何使用 mediawiki API 获取维基百科页面的修订次数吗 我已经阅读了这个API文档 但找不到相关的API 修订API http www mediawiki org wiki API Properties revision
  • 无法登录 mediawiki:为了防止会话劫持而取消?

    我多年来一直使用托管在 AWS EC2 实例上的私有 mediawiki 我认为某些扩展出了问题 特别是在数学渲染过程中停止了 所以我尝试使用 Google Chrome 浏览器重新加载页面 缓存全部被删除 之后 我无法登录并看到此消息 您
  • 你使用什么样的类别方法来使Cocoa编程变得更容易?

    我使用 Cocoa 内置类的一系列类别方法来让我的生活更轻松 我将发布一些示例 但我真的很想看看其他编码人员想出了什么 有哪些方便的分类方法you using 示例 1 implementation NSColor MyCategories
  • 从帖子 ID 获取类别名称

    是否可以获取给定帖子 ID 的类别的类别名称 以下代码可以获取类别 Id 但如何获取名称 Thank 干得好get the category post gt ID 将返回您需要循环遍历该帖子的类别数组 category detail get
  • Nodejs 进程挂起,我该如何调试它或收集转储?

    我的nodejs进程在Linux上运行 现在挂起并且CPU为100 无论如何我可以调试它并找到原因吗 我需要收集转储吗 如何收集 谢谢 有一个 npm 模块叫做节点为何运行 https www npmjs com package why i

随机推荐