如何使用 R 从 Excel 中提取 URL 并将其与显示的文本进行匹配？

2024-01-02

我有一个包含大量超链接的 Excel 文件，我想编写一个程序来提取 URL 并将其与显示的文本进行匹配。我可以将包含解决方案的 URL 导入到上一个问题 https://stackoverflow.com/questions/24149821/extract-hyperlink-from-excel-file-in-r，它使用以下代码：

library(XML)

# rename file to .zip
my.zip.file <- sub("xlsx", "zip", my.excel.file)
file.copy(from = my.excel.file, to = my.zip.file)

# unzip the file
unzip(my.zip.file)

# unzipping produces a bunch of files which we can read using the XML package
# assume sheet1 has our data
xml <- xmlParse("xl/worksheets/sheet1.xml")

# finally grab the hyperlinks
hyperlinks <- xpathApply(xml, "//x:hyperlink/@display", namespaces="x")

但是，这会忽略没有任何链接的行，因此导入的数据集比应有的长度短了数千行。我可以得到显示的文本read.xlsx，但我不知道如何将其与网址匹配。我尝试寻找方法来找出哪些行有链接，或者更改代码以便在正确的位置添加 NA，但我没有取得任何成功。

今天有相同的用例，我进行了一些挖掘，得到了一个 R 函数来提取单元格/文本下方的所有超链接。我的代码片段发布在这里，从 R 中的 Excel 文件中提取超链接 https://stackoverflow.com/questions/24149821/extract-hyperlink-from-excel-file-in-r，我认为这是一个类似的主题：

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何使用 R 从 Excel 中提取 URL 并将其与显示的文本进行匹配？的相关文章

如何更新条件公式？

让我直接进入示例考虑以下等式 frml lt formula y a b x z 使用这样的公式规范例如和AER ivreg 我想更新这个公式使其显示为 frml2 lt y a b c x z w 但是我不确定如何更新条件标志之前
使用 dplyr:group_by 将数据帧分成多个子集？

有没有办法根据 group by 组使用 dplyr 将一个数据帧拆分为数据帧的子集 mtcars gt group by cyl gear gt codes 非常感谢好吧并不是你真的想要但你可以这样做tidyr 即nearly一样的
如何在 R 中为传单中的数值变量设置不对称颜色渐变

我想让传单调色板以零为中心红白绿发散我已经尝试过中所说的这个帖子 https stackoverflow com questions 29262824 r center color palette on 0 当我尝试手动创建颜色时我得
R 中的发散积分可在 Wolfram 中求解

我知道我以前问过同样的问题但由于我是新来的这个问题问得不好而且不可重现因此我在这里尝试做得更好如果我只编辑旧的可能没有人会读它我有一个想要积分的二重积分 ff lt function g t exp 16 g exp 8 t t
没有 Unicode 字节顺序标记。无法切换到 Unicode

我正在使用 XSD 编写 XML 验证器下面是我所做的但是当验证器到达该线时while list Read 它给了我错误没有 Unicode 字节顺序标记无法切换到 Unicode 有人可以帮我解决吗 public class Va
将 sf voronoi 多边形裁剪到边界框时出错

我正在尝试将 voronoi polygons 使用 sf package 创建剪辑到边界框但它引发了我无法定义的错误我对 R 的空间世界不太有经验感谢所有帮助样本数据 stations lt structure list ST
如何获取活跃的Excel实例？

我有一个 C 应用程序该应用程序根据用户需求将信息粘贴到 excel 背后的逻辑是这样的如果没有正在运行的 excel 实例它会创建一个实例并粘贴到该实例如果只有一个实例在运行它会尝试获取该实例并使用它这是我用来执行此操作的代码
比较 R 中的两个字符向量

我有两个 ID 字符向量我想比较这两个字符向量特别是我对以下数字感兴趣 A和B各有多少个ID 有多少个ID在A中但不在B中有多少个ID在B但不在A 我还想画维恩图以下是一些可以尝试的基础知识 gt A c Dog Cat Mouse
为绘图制作 2D 图例 - 双变量分区统计图

我一直在玩双变量 choropleth 地图并且一直在如何创建类似于 2d 图例的问题上陷入困境约书亚史蒂文斯 http www joshuastevens net cartography make a bivariate chorop
如何将此“for”循环转换为向量解

这个问题与将嵌入其他文本的长州名称转换为两个字母的州缩写 https stackoverflow com questions 25582518 convert long state names embedded with other te
CDATA 真的有必要吗？

我经常使用内联 Javascript 通常是在我制作的 WordPress 主题中我没有听说过将内联 Javascript 包装在直到几个月前几年来我一直在以相当的能力水平做这些事情我用谷歌搜索了一下听说人们使用它是因为他们的 J
使用outer代替expand.grid

我正在寻找尽可能快的速度并留在基地做该做的事expand grid做我用过outer为过去类似的目的创建一个向量像这样的东西 v lt outer letters LETTERS paste0 unlist v lower tri v
r 中的 5 维图

我正在尝试在 R 中绘制 5 维图我目前正在使用rgl包以 4 个维度绘制数据使用 3 个变量作为 x y z 坐标另一个变量作为颜色我想知道是否可以使用这个包添加第五个变量例如空间中点的大小或形状这是我的数据和当前代码的示例
如何计算嵌套函数中的粘合表达式？

我正在尝试嵌套一个函数该函数将两个字符串粘合在一起该函数使用组合字符串来命名数据帧的列然而问题似乎是粘合表达式没有足够早地评估为字符串我可以并且应该强制在将表达式作为参数传递给另一个函数之前对其进行求值吗 library ti
Excel VSTO 工作簿新活动

在 Excel 2007 的一个 Excel 插件项目中我需要检查创建新工作簿的事件我还需要捕捉 Workbook Open 事件我很容易做到这一点在我在互联网上的研究中我发现了以下内容打开任何工作簿时都会引发 Applicat
为什么 geom_boxplot 比基本箱线图识别更多异常值？

这是一个可重复的示例与基本箱线图相比最后一个治疗组又发现了一个异常值 dta lt structure list Treatment c A A A A A A A A A A A A A A A A B B B B B B B B B
Python - 如何确定解析的 XML 元素的层次结构级别？

我正在尝试使用 Python 解析 XML 文件中具有特定标记的元素并生成输出 excel 文档该文档将包含元素并保留其层次结构我的问题是我无法弄清楚每个元素解析器在其上迭代的嵌套深度 XML 示例摘录 3 个元素它们可以任意嵌套
GGPLOT2：如何在 ggplot() 脚本中绘制特定选择

这是一个名为的大型数据集的峰值P 其中有 10 个优惠 CS 有不同的商店 SHP 具有多个数值数据集列出了按周排序的它们 WK 2 tm 52 它创建一个大文件仅前 6 行出现峰值 WK MND CS SHP RevCY RevLY
如何将 ggrough 图表另存为 .png

说我正在使用R包裹ggrough https xvrdm github io ggrough https xvrdm github io ggrough 我有这个代码取自该网页 library ggplot2 library ggroug
从 Excel 应用程序对象中查找位数（32 位/64 位）？

是否可以从 Microsoft Office Interop Excel ApplicationClass 确定 Excel 是以 32 位还是 64 位运行 Edit该解决方案应该适用于 Excel 2010 和 Excel 2007 此

随机推荐

为现有 GitHub 存储库创建 CocoaPod

最近我创建了一个小型 iOS 类我想将它与 CocoaPods 一起使用现在我已经将它添加到GitHub https github com cloverstudio CSGrowingTextView我已经关注了本教程 http nss
Eclipse 随机停止启动

我最近经常使用Eclipse 并且没有遇到任何问题昨晚我的工作非常顺利然而今天早上每当我加载它时程序都会在加载初始屏幕的一半位置停止工作在实际工作区打开之前该信息显示正在加载工作台并且永远留在那里当我多次单击它时我收
pyqtgraph：缩放时保持 TextItem 的恒定位置

我想要一个在缩放 y 轴时在图表上保持恒定位置的 TextItem 其功能与图例基本相同只是作为 TextItem 我可以根据需要更改文本我不知道该怎么做欢迎任何建议这个例子说明了问题在左侧图表中缩放 y 轴会导致文本移动而在
Python3.5.2 bdist_wininst：需要Python版本-32，在注册表中找不到

我在 Windows 7 上使用 Python 3 5 2 32 位创建的包出现问题我通常使用以下命令在 Windows 上部署 Python 包bdist wininst设置工具的选项这样我的同事只需启动 Windows 安装程序
连接两个 mp4 视频后视频中出现奇怪的“暂停”

我正在连接两个 mp4 视频问题是第一个视频 intro mp4 持续 5 秒第二个视频 output mp4 持续 2 秒连接它们创建的视频持续 9 秒应该持续 5 2 7 秒在 Final mp4 视频中第一个视频 intr
在 WooCommerce 中获取并显示相关产品

我已将 WooCommerce 相关产品包含在主题中内容如下这已被复制到我的模板中并正在执行然而尽管我对该产品添加了各种追加销售 related products变量在循环中使用为 NULL 为了开始展示这些相关产品是否还有其
ARKit：查找屏幕上SCNNode的坐标

我有一个简单的 Swift ARKit 设置其中有一个 SCNNode 和一个在 ARSCNView 中可见的 3D 对象我想确定该对象在 ARSCNView 上的 2D 坐标我的意思是对象被绘制到屏幕上时的 x 和 y 坐标 I h
运行较少的服务器端与客户端

与服务器端相比在客户端运行 LESS 框架有哪些优点缺点如果在客户端运行页面加载时间会受到影响吗在服务器上您必须更加小心缓存控制标头并且会牺牲一点 CPU 能力在客户端如果 JS 不可用它就会中断对于您的生产系统在构建
代码辅助 (ctrl+space) 在 Eclipse Kepler 上不起作用 [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案 Code assist ctrl space doesn t work on Eclipse Kepler This happened t
事件 - 命名约定和风格

我正在学习 C 中的事件委托我可以询问您对我选择的命名编码风格摘自 Head First C 一书的看法吗明天我要教一个朋友这个问题并试图想出最优雅的方式来解释这些概念认为理解一门学科的最好方法就是尝试并教授它 class
SELECT 命令计算百分比

我试图根据每个视频相对于所有其他视频的观看次数来获取数据库中每个视频的百分比然后我尝试显示从最高观看次数到最低观看次数的所有视频并在一个漂亮的 HTML 页面内的侧面显示其百分比显然百分比范围为 0 100 且不会超过我认为最受
为什么 AutoHotkey 会响应“系统找不到文件”错误？

我是 AutoHotkey 的新手无法理解为什么这个脚本给我这个错误 Failed to launch program or document Action
如何使用Gtk.events_pending？

我有这个基本的测试应用程序我想在其中显示一个旋转器而它正在长时间运行发射进程带有数据库请求的函数让用户知道它不是在调试而是正在启动我在其他帖子中读到可以这样做Gtk events pending 功能但我不知道如何在哪里使
Jquery ajax 表单提交包含文件

我有一个很长的表格其中包含文件附件这就是我的表格的样子表单将提交至此操作 HttpPost public ActionResult AddReceivingConfirm DTOreceiving entry IEnumerable
如何在 Mongoose Schema 中存储 URL 值？

我正在将图像从 IOS 应用程序上传到 Firebase Firebase 返回元数据包括 type 的 URLURL 我应该存储它的类型String在数据库中像下面的代码一样或者有特定类型URLs var schema new Sch
自定义流程 - 委托

我想知道是否可以实施openiddict与实施的授权类型类似的授权授权类型here https identityserver4 readthedocs io en latest topics extension grants html wi
Java Web 服务和 SOAP - 更改元素名称

我正在编写一个返回自定义类型的 java Web 服务一切工作正常除了当我查看 SOAP 响应时它不使用名称 myType 它使用 return 这是我的 SOAP 响应基本上它说 return 我希望它说 mytype S Enve
UnicodeEncodeError：“ascii”编解码器无法对位置 35 中的字符 u'\xc5' 进行编码：序号不在范围内（128）

我目前正在使用姜戈国家 https github com SmileyChris django countries获取表单字段的 ISO 国家地区名称列表它在我的网站上显示没有错误但在 Django 的管理网站上由于存在非 ASCI
如何为登录和注销用户显示不同的链接？

当用户未登录时我试图显示 Support Log In 当他们注销时它应该说 Support Log Out 这是我试图用来让它工作的代码 div class fr ul class rss li a href Support a li
如何使用 R 从 Excel 中提取 URL 并将其与显示的文本进行匹配？

我有一个包含大量超链接的 Excel 文件我想编写一个程序来提取 URL 并将其与显示的文本进行匹配我可以将包含解决方案的 URL 导入到上一个问题 https stackoverflow com questions 24149821

如何使用 R 从 Excel 中提取 URL 并将其与显示的文本进行匹配？

如何使用 R 从 Excel 中提取 URL 并将其与显示的文本进行匹配？ 的相关文章

随机推荐

热门标签

如何使用 R 从 Excel 中提取 URL 并将其与显示的文本进行匹配？的相关文章