如何从 R 访问维基百科?

2023-11-27

R 是否有任何包允许查询维基百科(最有可能使用 Mediawiki API)来获取与此类查询相关的可用文章列表,以及导入选定的文章以进行文本挖掘?


WikipediR, 'R 中的 MediaWiki API 包装器'

library(devtools)
install_github("Ironholds/WikipediR")
library(WikipediR)

它包括以下功能:

ls("package:WikipediR")
 [1] "wiki_catpages"      "wiki_con"           "wiki_diff"          "wiki_page"         
 [5] "wiki_pagecats"      "wiki_recentchanges" "wiki_revision"      "wiki_timestamp"    
 [9] "wiki_usercontribs"  "wiki_userinfo"  

这里正在使用它,获取一堆用户的贡献详细信息和用户详细信息:

library(RCurl)
library(XML)

# scrape page to get usernames of users with highest numbers of edits
top_editors_page <- "http://en.wikipedia.org/wiki/Wikipedia:List_of_Wikipedians_by_number_of_edits"
top_editors_table <- readHTMLTable(top_editors_page)
very_top_editors <- as.character(top_editors_table[[3]][1:5,]$User)

# setup connection to wikimedia project 
con <- wiki_con("en", project = c("wikipedia"))

# connect to API and get last 50 edits per user
user_data <- lapply(very_top_editors,  function(i) wiki_usercontribs(con, i) )
# and get information about the users (registration date, gender, editcount, etc)
user_info <- lapply(very_top_editors,  function(i) wiki_userinfo(con, i) )
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何从 R 访问维基百科? 的相关文章

  • 查找数据帧列表中同一列中的所有重复值并将其转换为 NULL

    我有一个清单BELGIAN COAST list包含数百个数据帧 df1 df2 15 列 X 1000 行 每个数据帧的最后一列称为Chemicals并包含一些字符 例如Sulfate or Ammonia 但是这一列有很多行Chemic
  • 从 R 环境中删除对象

    我正在阅读 Hadley 的 Advanced R 在第 8 章中 他说我们可以使用以下方法从环境中删除对象 rm 但是 移除该物体后我仍然可以看到该物体 这是我的代码 e lt new env e a lt 1 e b lt 2 e a
  • 将 VLMC 拟合到很长的序列

    我正在尝试将 VLMC 拟合到最长序列为 296 个状态的数据集 我这样做如下所示 Load libraries library PST library RCurl library TraMineR Load and transform d
  • 将 sf voronoi 多边形裁剪到边界框时出错

    我正在尝试将 voronoi polygons 使用 sf package 创建 剪辑 到边界框 但它引发了我无法定义的错误 我对 R 的空间世界不太有经验 感谢所有帮助 样本数据 stations lt structure list ST
  • 解析,用三点参数替换

    让我们考虑一个典型的deparse substitute R call f1 lt function u x y print deparse substitute x varU vu varX vx varY vy f1 u varU x
  • fread 将空导入为 NA

    我正在尝试导入带有空白的 csv 读取为 不幸的是他们都读作 NA now 为了更好地演示问题 我还展示了如何NA NA and 都映射到同一事物 除了最底部的示例 这将妨碍简单的解决方法dt is na dt lt gt write cs
  • 为什么这些数字不相等?

    下面的代码显然是错误的 有什么问题 i lt 0 1 i lt i 0 05 i 1 0 15 if i 0 15 cat i equals 0 15 else cat i does not equal 0 15 i does not eq
  • 表单提交时出现 rvest 错误

    我想从以下网页中抓取数据 https swgoh gg u zozo collection 180 emperor palpatine https swgoh gg u zozo collection 180 emperor palpati
  • 如何在R中同时对三个字段进行网络分析

    如何在 R 中同时对三个字段进行网络分析 下面是示例数据以及desired output在最后一栏中 df lt data frame stringsAsFactors FALSE id 1 c ABC ABC BCD CDE DEF EF
  • 使用predictNLS围绕R中的拟合值创建置信区间?

    我想使用 R 中 propogate 包中的 PredictNLS 围绕一大组拟合值构建置信区间 作为示例 我将使用它们在函数描述中引用的数据集 https rdrr io github anspiess propagate man pre
  • R 中的 Websocket

    我设法在 R 中建立到 Mtgox websocket 的连接 规格如下 url https socketio mtgox com mtgox Currency USD https socketio mtgox com mtgox Curr
  • 如何从shiny中将数据下载到多张纸上?

    我们如何将数据从 Shiny 下载到多个工作表并命名每个工作表 例如下面 ginberg将mtcars数据保存在sheet1中 我们可以将头部 mtcars 保存在sheet2中吗 另外 我们可以对这些工作表进行不同的命名吗 例如sheet
  • 如何根据两个数据框中最近的日期进行匹配?

    假设我有两个数据框 例如 set seed 123 df1 lt data frame bmi rnorm 20 25 5 date1 sample seq Date as Date 2014 01 01 as Date 2014 02 2
  • 如何从R arrow中的feather文件中读取列名和元数据?

    现已取代 独立R 的羽毛库 https github com wesm feather有一个函数叫做feather metadata 允许从磁盘上的羽毛文件中读取列名称和类型 而无需打开它们 当在 R 中加载羽毛文件时 这对于仅选择特定列很
  • 为什么 \K 似乎消耗了基本 R 的 gsub 中的一个字符

    这是一个示例字符串 bcadefgh 我希望我能匹配除了 cad 具有以下模式 wa w K w 如果我想替换所有不是的东西 cad 我可以用gsub 像这样gsub wa w K w bcadefgh perl TRUE 但是这输出 ca
  • ggplot2 可视化/显示中的地图错误?

    正如您在下面看到的 我使用 ggplots 制作的地图上存在一个奇怪的显示问题 任何投影似乎都会发生同样的问题 这是代码 仅包maps and ggplot2需要 mapWorld lt borders world colour gray5
  • R 包与 Rcpp 的链接错误:“未定义符号:LAPACKE_dgels”

    我正在创建一个 R 包 lapacker 以使用 R API 头文件 R ext Lapack h 为 R 提供和使用的内部 LAPACK 库 仅具有双精度和双复数 提供 C 接口 源代码 https github com ypan1988
  • 在 Ubuntu Lucid 中从二进制安装 R 包

    我已经使用以下命令在 Ubuntu Lucid 中安装了 R sudo aptitude 安装 r base 当我尝试 install packages 时 它似乎会下载源代码 然后花费很长时间来编译它 我怎样才能像我在 Windows 上
  • 如何一次导入多个 .csv 文件?

    假设我们有一个包含多个 data csv 文件的文件夹 每个文件包含相同数量的变量 但每个文件来自不同的时间 R 中有没有办法同时导入它们 而不必单独导入它们 我的问题是 我有大约 2000 个数据文件需要导入 并且必须使用以下代码单独导入
  • 使用 purrr、broom 从许多单变量模型中获得整洁的输出

    我有一个由二进制结果列组成的数据框 y 和多个独立的预测列 x1 x2 x3 我想运行许多单变量逻辑回归模型 例如y x1 y x2 y x3 并将每个模型的指数系数 比值比 95 置信区间和 p 值提取到数据框 标题的行中 在我看来 使用

随机推荐

  • 在键盘顶部添加完成按钮

    我正在制作一个具有 UITextView 的通用应用程序 当应用程序在 iPad 上运行时 右下角有一个按钮 可以让我关闭键盘 iPhone版本没有这样的按钮 我在一些 iPhone 应用程序上看到键盘顶部有一个栏 上面有一个 完成 选项
  • VS2008.NET:获取引用项目的依赖项以复制到主项目的 bin 文件夹

    假设我有一个 C Winforms 项目 MainGUI 它引用同一解决方案中的另一个项目 ControlsLib ControlsLib 引用第三方控件套件 例如 Infragistics 或 Telerik 控件 并公开一组在 Main
  • 如何在android中解析这个嵌套的JSON数组

    我必须将下面嵌套的 Json 数组的数据解析到我的应用程序中 我很困惑如何从中获取价值观 prodCat list prods cat id 9 position 1 sku wwww345
  • 为什么 `($ 4) (> 3)` 等于 `4 > 3`?

    我今天在玩 Haskell 时注意到可以做类似的事情 4 gt 3 这产生True 这里发生了什么 如果有一些直觉就好了 我猜 它看起来像 4 是一个不完整的功能应用程序 但我感到困惑的是 是一个中缀运算符 所以它不应该看起来像 4 这不能
  • Ember.js:观察所有对象属性

    我想观察对象属性的所有变化 在下面的示例中 如果名字或姓氏发生更改 我希望由 personChanged 观察者通知 但我希望对所有对象属性应用一些通用的东西 使用 Ember keys 如何用更通用的内容替换 名字 姓氏 在我的例子中 p
  • react-google-maps 如何获取标记位置?

    我阅读了文档 它方便地概述了可用的道具和方法 敬请期待here 我的问题是 给出这里的示例组件 import withScriptjs withGoogleMap GoogleMap Marker from react google map
  • (opencv) 将轮廓合并在一起

    我正在做一个实时运动检测程序 我发现使用背景减法后 我的不同图像中出现了很多轮廓 我想问是否有任何方法可以将这些轮廓合并在一起或使更大的矩形包含所有轮廓 现在我的案子已经完成了 http singhgaganpreet files word
  • 触摸事件触发两次

    我在移动设备 平板电脑上遇到问题 事件触发两次 当我单击以下功能时 应该下拉的菜单将下拉然后立即向上滑动 这只是触摸设备的问题 document on touchend click lines button function e e sto
  • 如何构造 Apache Commons Lang Range 对象?

    如何创建 Apache Commons Lang 3 1Range
  • Alamofire 请求的多种编码类型

    我需要做一个POST带有 HTTP Body 的请求JSON对象 但我还需要在同一请求中使用 url 查询参数 POST http www example com api create param1 value param2 value H
  • 在angerouslySetInnerHTML中从onclick调用React组件函数

    在这里反应新手 我有一个contenteditablediv 其中有dangerouslySetInnerHTML作为孩子 因为我需要在运行时格式化用户输入的任何内容 在特定范围内单击 HTML 内 我想要setState包含组件的变量之一
  • PyCharm Python 控制台 - 在同一行上打印未按预期工作

    我的目标是通过用当前进度覆盖前一行来在控制台中显示加载进度 我找到了很多针对 Python 3 版本的解决方案 但这些都不起作用 例如 import time for i in range 10 print i end flush True
  • 限制在平板电脑中安装应用程序

    我有一个 Android 应用程序 我想要停止在平板电脑中安装此应用程序 我搜索了很多网站 我得到了一些想法并遵循了 但这不是限制 以下是我访问过的一些网站 Android 清单限制平板电脑 http android developers
  • 从 C# 读取 Gmail 帐户的 Atom feed

    我有一个项目 它将向 Gmail 帐户发送一封包含某些数据的电子邮件 我认为阅读 Atom feed 可能比通过 POP 连接更容易 根据谷歌我应该使用的网址是 https gmail google com gmail feed atom
  • android.app.Application 无法转换为 com.facebook.react.ReactApplication

    我在我的项目中使用了这个命令 react native upgrade 当我尝试构建应用程序时出现错误 android app Application 无法转换为 com facebook react ReactApplication 我真
  • 从深度图像生成点云

    我正在尝试将深度图像 RGBD 转换为 3d 点云 我目前使用的解决方案取自这个帖子 where cx 图像中心高度 cy 图像中心宽度 fx and fy 250 通过迭代几个选项来选择 深度测量是通过针孔相机进行的 点云远离中心投影 示
  • iOS SDK:通过代码将按钮移动到屏幕中央

    我想通过代码将按钮移动到屏幕中央 我在某个地方看到它只是几行代码 但找不到它们 这会将按钮置于其超级视图的中心 CGRect bounds button superview bounds button center CGPointMake
  • CSRF 与 Spring Security 集成时,会话超时导致 Spring MVC 中的访问被拒绝

    我在 Spring MVC 项目中将 CSRF 令牌与 Spring Security 集成 使用 CSRF 令牌一切正常 令牌将从客户端发送到服务器端 我已经改变了我的logout制作过程POST发送 CSRF 令牌的方法及其工作正常 当
  • 调整图像类型“Mat”的大小 opencv C++

    我想调整图像大小 当图像是 IplImage 时 下面的代码可以工作 但是当我将其更改为 Mat 时 我收到以下错误 无法将 cv Mat 深度 从 int cv Mat const 类型转换为 int 类型 无法将参数 1 的 cv Ma
  • 如何从 R 访问维基百科?

    R 是否有任何包允许查询维基百科 最有可能使用 Mediawiki API 来获取与此类查询相关的可用文章列表 以及导入选定的文章以进行文本挖掘 有WikipediR R 中的 MediaWiki API 包装器 library devto