导出维基百科翻译标题的简单方法

2024-05-19

有没有一种简单的方法可以导出维基百科的翻译标题以获得这样的集合:
russian_title -> english_title?

我试图从ruwiki-最新-页面-meta-current.xml.bz2 and ruwiki-最新-pages-articles.xml.bz2 http://dumps.wikimedia.org/ruwiki/latest/然而,翻译数量还不到 25k。

我发现有些不存在。例如。人们可以看到英文维基的链接here http://ru.wikipedia.org/wiki/Yandex,但是没有链接[[en:Yandex]]在垃圾场里。

也许我应该尝试解析英语维基百科,但我确信有更好的解决方案。

顺便说一句,我正在使用wikixmlj http://code.google.com/p/wikixmlj/+试图找到en:Yandex with grep.

UPD:链接到@svick的解决方案数据:http://dumps.wikimedia.org/ http://dumps.wikimedia.org/[语言代码] wiki/latest/ 例如http://dumps.wikimedia.org/ruwiki/latest/ http://dumps.wikimedia.org/ruwiki/latest/


各种语言的维基百科文章之间的大多数链接现已打开Wikidata https://www.wikidata.org/。因此,如果您想获取源代码,您可以下载 Wikidata 的转储并解析它(它是 JSON 格式)。

但我认为更好的方法是使用转储the langlinks table https://www.mediawiki.org/wiki/Manual%3aLanglinks_table。其中包含您想要的信息,包括来自维基数据的链接和仍处于旧形式的链接。

此转储采用 SQL 格式。您可以将该转储导入 MySQL 数据库,也可以直接解析它(我已经写过一个 .Net 库可以做到这一点 https://github.com/svick/Wikipedia-SQl-dump-parser).

该表包含从 wiki 的页面 ID(在您的例子中是俄语维基百科)到其他 wiki 中的页面标题的映射。这意味着您将需要您感兴趣的页面的页面 ID。对于少量页面,您可以使用以下命令手动查找它们,或者您可以使用 API。但如果您需要大量页面,则应该下载该文件的转储page表,其中包含此映射。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

导出维基百科翻译标题的简单方法 的相关文章

  • 为什么我无法使用 LWP::Simple 获取维基百科页面?

    我正在尝试使用获取维基百科页面LWP 简单 但他们不会回来了 这段代码 usr bin perl use strict use LWP Simple print get http en wikipedia org wiki Stack ov
  • 检索维基百科页面的另一种语言

    任务 我们有维基百科英文页面 需要检索俄语的相同页面地址 我知道语义网解决方案 使用 DbPedia 的简单查询 但我很好奇是否有传统的解决方案 我在中问过同样的问题语义溢出网站Toby Inkster 建议解析的地方http en wik
  • 使用python的urllib2和Beautifulsoup爬取维基百科时删除html标签

    我正在尝试抓取维基百科以获取一些用于文本挖掘的数据 我正在使用 python 的 urllib2 和 Beautifulsoup 我的问题是 有没有一种简单的方法可以从我阅读的文本中删除不必要的标签 例如链接 a 或 span 对于这种情况
  • 维基百科信息框需要正则表达式

    好的 这就是我需要的 我们有维基百科文章的完整 XML 我们只需要信息框部分 我尝试过各种方法 但我的主要问题似乎是无法匹配 内部 花括号 有什么想法 或者您已经设法完成此任务的任何正则表达式吗 对于那些不知道我在说什么的人 这是我试图解析
  • dbpedia 获取英语以外语言的实体

    我正在尝试使用 sparql 从 dbpedia 中提取包含人名等的实体字典 PREFIX owl
  • 如何使用 Python 抓取类别维基百科页面的子类别和页面

    因此 我尝试抓取类别页面的类别标题下的所有子类别和页面 类别 基于类的编程语言 位于 https en wikipedia org wiki Category 基于类的编程语言 我已经找到了一种使用 url 和 mediawiki API
  • 检索任意日期之前/之后最后更新的属性

    我有兴趣检索 WikiData 项目的属性 但前提是该属性是在某个日期之前或之后添加或修改的 所以我有这个SPARQL查询获取 Q24 的所有属性 SELECT itemLabel propLabel statement property
  • Antlrworks - 无关输入

    我是这方面的新手 因此我需要你的帮助 我正在尝试解析 Wikipedia Dump 我的第一步是将它们定义的每个规则映射到 ANTLR 不幸的是我遇到了第一个障碍 第 1 行 8 外部输入 需要 我不明白发生了什么事 请帮助我 My cod
  • 如何获取维基百科页面的所有链接及其维基数据 ID?

    什么时候 以下的事情可能实现 在单个查询 API 调用中获取维基百科页面上的所有链接及其各自的维基数据 ID 的列表 通过查询接收各个维基数据项的附加信息 例如属性值 要获取您必须使用的所有维基百科页面链接维基百科API https en
  • 从 mediawiki api ios 过滤数据

    我使用 action query prop revisions rvprop content keywords format json redirects API 来获取有关 Anil Ambani 的详细信息 作为回应 我得到了以下内容字
  • 有没有API可以从wiki页面获取图像

    我想从维基百科页面获取主图像 我有所有维基百科实体名称 我从中创建维基链接并从该页面获取主图像 我尝试过 https github com richardasaurus wiki api https github com richardas
  • 以编程方式检索所有维基百科语言的列表

    我需要检索某个 wiki 项目的所有现有语言的列表 例如 所有维基导游 https www wikivoyage org or all 维基百科 https www wikipedia org语言 就像他们的登陆页面一样 我更喜欢通过这样做
  • 如何从维基百科文章中提取数据?

    我有一个关于为我的 Android 应用程序解析维基百科数据的问题 我有一个脚本 可以通过读取源代码来下载 XMLhttp en wikipedia org w api php action parse prop text format x
  • 解析维基百科的出生和死亡日期?

    我正在尝试编写一个 python 程序 可以在维基百科中搜索人们的出生和死亡日期 例如 阿尔伯特 爱因斯坦出生于 1879 年 3 月 14 日 逝世日期 1955 年 4 月 18 日 我开始于使用 Python 获取维基百科文章 htt
  • 从 Wikipedia XML 转储获取静态 HTML 文件

    我希望能够从巨大的 即使是压缩的 英语维基百科 XML 转储文件中获取相对最新的静态 HTML 文件enwiki 最新 pages articles xml bz2 http download wikimedia org enwiki la
  • Python 中维基百科 API 中的 DisambiguationError 和 GuessedAtParserWarning

    我想获得维基百科与搜索词相关的可能且可接受的名称列表 在这种情况下是 电晕 当输入以下内容时 print wikipedia summary Corona 这给出了以下输出 home virej local lib python3 8 si
  • 维基百科模板参数中的等号无法正确显示

    我注意到使用带有等号的链接似乎无法正常工作 当链接放置在 missing information 模板 有什么方法可以解决此限制 以便可以将带有等号的链接包含在 MediaWiki 模板中 missing information https
  • 用于检索名人信息的 API [关闭]

    就目前情况而言 这个问题不太适合我们的问答形式 我们希望答案得到事实 参考资料或专业知识的支持 但这个问题可能会引发辩论 争论 民意调查或扩展讨论 如果您觉得这个问题可以改进并可能重新开放 访问帮助中心 help reopen questi
  • TripleDES 密钥大小 - .NET 与 Wikipedia

    根据维基百科 http en wikipedia org wiki Triple DES TripleDES 支持 56 112 和 168 位密钥长度 但 System Cryptography TripleDESCryptoServic
  • 如何从 DBPedia 文章中获取 Wikipedia 文章的摘要和缩略图?

    我是 SPARQL 新手 通过这个查询 我可以获得欧内斯特 海明威的出生姓名 select distinct birthName where person a dbpedia owl Person person dbpprop birthN

随机推荐

  • 加载位图图像至特定尺寸

    我正在尝试使用 allegro 将位图加载到特定大小 al crate bitmap x y 创建特定大小的位图 al load bitmap filename 加载我需要的图像 但为其原始大小 我需要将位图加载到我设置的大小 有任何想法吗
  • 通过 C# SqlCommand 执行合并语句不起作用

    我正在第一次尝试使用临时表和MERGE语句通过更新 SQL 表SqlCommandC 中的对象 我正在开发的程序旨在首先将大量记录 最多 20k 导出到 Excel 电子表格中 然后 用户可以搜索并替换特定值 并根据需要更新任意多记录中的任
  • 如何配置database.yml以部署到Heroku

    我最近升级到了最新版本的Rails 并且不明白如何将应用程序部署到Heroku 这是我的database yml file default default adapter postgresql pool 5 timeout 5000 dev
  • maven 构建错误:创建阴影 jar 时出错(访问被拒绝)

    我尝试使用 Maven 制作 uberjar 时遇到以下错误 您知道可能发生什么情况吗 INFO ERROR BUILD ERROR INFO INFO Error creating shaded jar C Projects info b
  • npmjs.org - 找不到自述文件

    我是 npm 包的主要作者scramjet 一个月以来 我遇到了关于可视性的问题README md在 npmjs 中 The npm 中的超燃冲压发动机包 https www npmjs com package scramjet shows
  • 如何使用 pyDicom 替换同一 DICOM 文件中的像素数据,以便使用任何 DICOM 查看器再次读取它?

    我想读取一些 DICOM 文件 所以我正在测试pydicom对于我的工作来说 我认为这非常有用 现在我想加载现有的 DICOM 文件 用另一个像素数组替换像素数据数组 例如预处理或实际上另一个 DICOM 像素数组 最重要的是 我想使用任何
  • Java 编程错误:java.util.ConcurrentModificationException

    我正在编写一个程序作为 Java 初学者教程的一部分 我有以下方法 每当我运行它时 它都会给出以下异常 java util ConcurrentModificationException at java util AbstractList
  • .htaccess 强制“www”。除子域外的所有内容并删除尾随斜杠

    这是我到目前为止所拥有的 Force www RewriteCond HTTPS on RewriteCond HTTP HOST www NC RewriteRule http www HTTP HOST REQUEST URI R 30
  • 以下代码使用 std::set “合法”吗?

    我有这个代码 set
  • 使用 phpdocx 下载损坏的 .docx

    我有一个项目 我们使用 phpdocx pro 在模板中生成 docx 文件 我可以很容易地将数据输入到模板中 但是当下载文件并在 MS Word 2010 中打开时 程序报告无法打开文件 因为内容存在问题 详细信息是 文件已损坏 并且无法
  • 在java库中找不到源

    I m new to java and facing this problem while debugging code 我在使用外部文件时发现了 rt jar 但不起作用 这是否意味着该文件已损坏还是什么 您需要附加 src zip 作为
  • Java Mail - 以字符串形式读取附件

    我开始使用 Java Mail 我有一些关于附件处理的问题 如果我们的内容是Multipart即有一个附件 在哪个索引处是实际的附件 在哪个索引处我们可以找到邮件内容 我只想处理附件 这是正确的做法吗 如果我想将给定的附件转换为字符串 只需
  • gnuplot 中的块注释

    我有一个很长的 gnuplot 脚本 出于调试目的 我希望能够阻止该脚本的注释部分或使用 goto 语句 这可能吗 我知道我可以使用if陈述 if 1 2 commented out code else non commented out
  • Mathematica 和 MouseListener - 使用 Mma 开发交互式图形

    我想为 Mathematica 3D 图形添加交互性 除了 Manipulate 之外 Manipulate 很酷但有其局限性 考虑 Mathematica 中四个立方体问题的演示的四个示例 单击其中一个立方体即可旋转一个立方体 问题 是否
  • Javascript:删除字符串标点符号并拆分成单词?

    抱歉 如果之前有人问过这个问题 但我正在尝试从这样的字符串中获取单词数组 Exclamation Question Quotes Apostrophe Wasn t Couldn t Didn t 该数组应该看起来像这样 exclamati
  • 如何舍入、取整、取整、截断

    如何对 jq jq 1 5 1 a5b5cbe 中的数字进行舍入 取整 取整和截断 例如 与 mass 188 72 我想 mass 188 有地板 mass 189 与天花板和圆形 舍入示例 5 52 gt 6 5 50 gt 5 or
  • 同步获取已解决 Promise 的值

    如果我们知道一个Promise肯定已经解决了 我们如何访问该值 如果不能 为什么不呢 let a Promise resolve 123 console log a value 以下不起作用 它打印 First Last 123 conso
  • 什么是内容语言和接受语言?

    我已经看到了 HTTP 标头Content Language and Accept Language 有人可以解释一下它们的用途以及它们之间的区别吗 我有一个多语言网站 想知道我是否应该将这两个网站设置为用户当前选择的语言 Content
  • 在 Java EE 中手动启动新线程安全吗?

    对于在会话范围内的 JSF 托管 bean 中生成线程是否安全 我找不到明确的答案 线程需要调用无状态 EJB 实例 依赖注入到托管 bean 上的方法 背景是我们有一份需要很长时间才能生成的报告 由于我们无法更改服务器设置 这导致 HTT
  • 导出维基百科翻译标题的简单方法

    有没有一种简单的方法可以导出维基百科的翻译标题以获得这样的集合 russian title gt english title 我试图从ruwiki 最新 页面 meta current xml bz2 and ruwiki 最新 pages