在 R SF 中交叉大型空间数据集

2024-02-18

我有两个空间数据集。一个数据集包含许多多边形（总共超过 150k），指定不同的特征，如河流、植被。另一个数据集包含更少的指定不同区域的多边形 (500)。我需要将这两个数据集相交以获得不同区域的特征。我可以根据不同的特征对第一个数据集进行子集化。如果我使用小要素（2,500 个多边形）的子集，与区域的相交速度相当快（5 分钟）。但如果我想要更大的特征子集（20,000 个多边形），计算会运行很长时间（我在两个小时后终止了它）。这甚至不是我需要相交的最大特征（50,000 个多边形）。

这是我运行的代码片段：

    clean_intersect_save = function(geo_features, areas) {

  # make geometries valid
  data_valid_geoms = st_parallel(sf_df = st_geometry(geo_features), 
                                 sf_func = st_make_valid, 
                                 n_cores = 4)

  # remove unnecessary columns
  data_valid = st_drop_geometry(x) %>% select("feature")
  data_valid = st_sf(data_clean, geometry = data_valid_geoms)

  # intersect the geo-features and areas
  data_valid_split = st_parallel(sf_df = bezirke, 
                                 sf_func = st_intersection, 
                                 n_cores = 4,
                                 data_clean)

  # save shp file
  st_write(data_valid_split, "data_valid_splir.shp")

  return(data_valid_split)
}

其中两个输入都是 sf 数据帧。 st_parallel是我发现的一个函数here https://www.spatialanalytics.co.nz/post/2017/09/11/a-parallel-function-for-spatial-analysis-in-r/.

我的问题是：经验丰富的空间数据人员通常如何解决这样的任务？我只需要更多的核心和/或更耐心吗？我用sf错了吗？ R/sf 是错误的工具吗？

谢谢你的帮助。这是我的第一个空间数据分析项目，如果我监督了一些明显的想法，我很抱歉。

由于这个模糊的问题可能不会有真正的答案，我会自己回答。

感谢@Chris 和@TimSalabim 的帮助。我最终结合了这两种想法。

我最终使用了 PostGIS，根据我的经验，这是一种处理空间数据的非常直观的方式。对我来说加快交集计算速度的三件事是：

在我的追逐中，从 shapefile 加载时，空间数据存储在 MULTIPOLYGONS 中。我使用 ST_DUMP 将它们扩展为 POLYGONS：https://postgis.net/docs/ST_Dump.html https://postgis.net/docs/ST_Dump.html
我在多边形上创建了一个空间索引：https://postgis.net/workshops/postgis-intro/indexing.html https://postgis.net/workshops/postgis-intro/indexing.html
我使用 ST_Intersection 和 ST_Intersects 的组合，仅在真正需要时调用昂贵的 ST_Intersection （正如 @TimSalabim 建议的那样，这种方法也可以加快 R 中的速度......但我目前没有时间测试这种方法）：https://postgis.net/2014/03/14/tip_intersection_faster/ https://postgis.net/2014/03/14/tip_intersection_faster/

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

在 R SF 中交叉大型空间数据集的相关文章

计算一列中正数和负数的数量

我想计算数据帧的一列中正值和负值的数量我在 R 中该怎么做例如这里是数据框 logFC logCPM LR PValue FDR Bra15066 5 630822 5 184586 73 79927 8 647868e 18 4 0
将循环转换为并行计算的函数

我正在使用 R 编程语言我遇到这个问题我试图找出两个 shapefile 之间的成对交集即第一个 shapefile 中的每个多边形与第二个 shapefile 中的所有多边形相交的百分比我想我找到了解决这个问题的基本方法 Load
R 根据事件更新值

我最近发布了这个问题该问题已经与我在笔记本电脑上本地使用的 Mysql 数据库相关由于我在 Mysql 中没有找到问题的解决方案其他人似乎也没有找到解决方案所以我想再次发布它但现在与 R 相关我使用带有 RMysql 包的数据库
将命名参数列表传递给函数？

我想编写一个小函数来从适当的分布生成样本例如 makeSample lt function n dist params values lt makeSample 100 unif list min 0 max 10 values lt m
R::bigmemory - 如何创建角色big.matrix？

我尝试使用bigmemory封装在R我一开始就陷入困境我愿意 temp lt matrix paste a 1 10 5 2 并得到一个字符矩阵没关系但后来我尝试 x lt as big matrix temp type char 我
返回数据帧 R 中的下一行

我有一个看起来像这样的数据框 kind datetime book 2016 04 23 04 23 00 pen 2016 04 23 04 30 00 toy 2016 04 23 06 45 00 我想为数据集中的每一行返回下一行的日
ggplot2可以在一个图例中分别控制点大小和线大小（线宽）吗？

一个使用的例子ggplot2绘制数据点组和连接每组均值的线并使用相同的映射aes for shape并为linetype p lt ggplot mtcars aes gear mpg shape factor cyl linetype
将 Instagram/youtube 嵌入 Shiny R 应用程序

我想通过点击图表来播放 Instagram 或 Youtube 视频例如显示异常值等到目前为止明确告诉 Shiny 视频内容是有效的 require shiny require ggplot2 data df lt data fram
.wav 文件长度/持续时间，无需读入文件

有没有办法提取有关 wav 文件长度持续时间的信息而无需在 R 中读取文件我有数千个这样的文件如果我必须阅读每个文件才能找到其持续时间那将需要很长时间 Windows 文件资源管理器为您提供了打开长度字段的选项并且您可以查看
如何在 ggplot 中保持配色方案，同时删除每个图中未使用的级别？

我想比较一个图中的数据的一些子组和另一图中的一些其他子组如果我绘制一个图其中绘制了所有子组那么这个数字将是巨大的并且每个单独的比较都会变得困难我认为如果给定的子组在所有图中都具有相同的颜色这对读者来说会更有意义这是我尝试过的两
LDA with topicmodels，如何查看不同文档属于哪些主题？

我正在使用 topicmodels 包中的 LDA 我已经在大约 30 000 个文档上运行它获取了 30 个主题并获得了主题的前 10 个单词它们看起来非常好但我想看看哪些文档属于哪个主题的概率最高我该怎么做 myCorpus
kableExtra 中的 row_spec() 函数不会在 html 输出中创建水平线

我想在 kableextra 表中的某一行下方添加一条水平线 row spec 函数的参数 hline after 应该在行下方添加水平线 row spec 文档 https www rdocumentation org packages
使用 broom 和 tidyverse 总结 r 平方游戏

我发布了一个问题here https stackoverflow com questions 48627287 getting adjusted r squared value for each line in a geom smooth
在 R 中向散点图添加线条

如何向图表添加线条我做了以下 dat lt data frame xvar 1 20 rnorm 20 sd 10 yvar 1 20 rnorm 20 sd 10 zvar 1 20 rnorm 20 sd 10 plot dat 1
如何计算R中移动窗口内的平均斜率

我的数据集包含2个变量y 和 t 05s y 每 05 秒测量一次我正在尝试计算移动中的平均坡度20秒窗口即计算第一个 20 秒斜率值后窗口向前移动一个时间单位 05 秒并计算下一个 20 秒窗口在以下位置生成连续 20 秒斜率值
通过间接引用列来修改数据框中的某些值

我正在整理一些数据我们将失败的数据分类到垃圾箱中并按批次计算每个分类箱的有限产量我有一个描述排序箱的元表这些行按升序测试顺序排列一些排序标签带有非语法名称 sort tbl lt tibble tribble weight lab
为什么 dplyr filter() 不能在函数内工作（即使用变量作为列名）？

使用 dplyr 函数对数据进行过滤分组和变异的函数基本管道序列在函数之外工作得很好这就是我使用真实列名称的地方将其放入一个函数中其中列名称是一个变量并且某些函数可以工作但有些函数则不能尤其是 dplyr filter 例如
在 R 格子包中微调点图

我正在尝试为不同的数据集和不同的算法绘制一堆 ROC 区域我有三个变量方案指定所使用的算法数据集是正在测试算法的数据集以及 Area under ROC 我正在 R 中使用lattice库命令如下点图方案 Area und
相当于 min() 的 rowMeans()

我在 R 邮件列表上多次看到这个问题但仍然找不到满意的答案假设我有一个矩阵m m lt matrix rnorm 10000000 ncol 10 我可以通过以下方式获得每行的平均值 system time rowMeans m use
文本挖掘 pdf 文件/词频问题

我正在尝试挖掘一篇具有丰富 pdf 编码和图表的文章的 pdf 我注意到当我挖掘一些 pdf 文档时我得到的高频词是 phi taeoe toe sigma gamma 等它与某些 pdf 文档配合良好但与其他文档配合使用时却得到这

随机推荐

Map[..] 上的 Scala map() 比 mapValues() 慢得多

在我编写的 Scala 程序中我有一个scala collection Map将字符串映射到一些计算值详细来说是Map String Double immutable Map String Double Double 我知道这很丑应该
如何修复此错误：“ImportError：DLL 加载失败：找不到指定的模块。”使用 PyQt5

我目前使用 Python 3 6 8 和 PyQt5 我的程序运行良好但在 Windows 更新后一切都停止运行这是错误 Traceback most recent call last File main py line 10 in
从 Zingchart 中的 CSV 数据获取系列和值

While creating mixed chart in Zingchart we can pass the type attribute values with values array But I m not sure when re
Ruby 中的时间范围？

我想知道某个时间是否属于schedule或其他就我而言用于计算time is in 夜间时间表 or 正常时间表我已经找到了这个解决方案 NIGHT 21 00 06 00 def night date date str date s
如何在 Visual Studio Code 中将 python 作为主模块运行

如何在 Visual Studio Code 中运行 python主模块从命令行我会使用 m开关比如 python m program py 我需要这个才能使相对导入工作有什么我可以添加到的launch json file 如果这是不
git svn fetch '运行上下文时出错：软件导致连接中止...'

几个月前我 GIT 克隆了一个大型 SVN 存储库 6GB 大约 10 个分支 3 年的每日日志克隆花了很多小时才完成多次停止不得不继续git svn fetch 与此同时由于其他项目变得更加优先 SVN 到 Git 的迁移被搁置
协议映射器在 Keycloak 中如何工作？

我正在尝试一个示例来将用户属性添加到声明中我正在按照这个例子here https www baeldung com keycloak custom user attributes 我正在尝试访问过滤器中的声明但没有成功我想了解协议映射
spring - 使用谷歌番石榴缓存

我试图在我的 Spring 应用程序中使用谷歌番石榴缓存但结果永远不会缓存这是我的步骤在conf文件中 EnableCaching Configuration public class myConfiguration Bean nam
如何解释“grid-template-rows: auto auto 1fr auto”？

最近我使用创建了一个布局CSS grid https www w3 org TR css grid 1 虽然这很有效但我对它的工作原理感到困惑具体来说我对这条线感到困惑grid template rows auto auto 1fr
使用 Logback MDC 进行 Spring Boot ErrorController 日志记录

更新我的问题似乎与this one https stackoverflow com q 55146885 4506703 但没有有效的答案我正在尝试登录 Spring BootErrorController 但它的日志没有 MDC 值
Swift 可变字典被视为不可变

我正在尝试实施应用内购买并且正在跟踪用户通过哪些购买进行了购买NSUserDefaults 我有一个设置每次购买的值的函数但是当它运行时我收到一条错误消息指出我正在改变购买值的字典即使该字典是用var代替let并且是一个NSMut
Windows Phone中如何设置TextBlock的背景图片？

我在 Windows Phone 中设置文本块背景时遇到问题
Java 中双精度值的四舍五入

目前我正在使用 DecimalFormat 类来舍入双精度值 double d 42 405 DecimalFormat f new DecimalFormat 00 System out println f format d output
Swagger 编辑器如何指定请求正文（POST）中的哪些字段是必需的？

我正在尝试在在线 Swagger 编辑器中的用户类上定义 POST 方法我希望能够在请求正文中指定多个字段并且我希望生成的文档能够反映只有 2 个字段是必需的其他是可选的我必须做什么改变才能做到这一点我已经尝试过使用 requi
管理 mnesia DBMS 中的增量计数器？

我意识到 mnesia 不像 MySQL 或其他 RDBMS 那样支持自动增量功能 mnesia 文档中谈到的计数器并没有得到很好的解释例如到目前为止我在整个文档中发现了一个操作计数器的函数 mnesia dirty update c
检查 Python 列表中是否存在某个键

假设我有一个可以包含一个或两个元素的列表 mylist important comment or mylist important 然后我想要一个变量作为标志具体取决于第二个值是否存在检查第二个元素是否存在的最佳方法是什么我已经使用了
流式操作符与延迟执行有何不同？

In LINQ Where是一个流媒体运营商然而OrderByDescending是一个非流操作符 AFAIK 流媒体运营商仅收集下一个必要的项目非流式运算符立即评估整个数据流我看不出定义流操作符的相关性对我来说延迟执行是多余的
如何将 autoconf/automake 指向非标准包

我正在尝试在 RedHat Linux 机器上构建 ZooKeeper ZooKeeper 到底是什么可能并不重要当我按照包装说明进行操作时我得到 autoreconf if aclocal configure ac 33 warnin
使用RabbitMQ（Java客户端），有没有办法确定消费期间网络连接是否关闭？

我在 RHEL 5 3 上使用 Java 客户端使用 RabbitMQ 我有 2 个节点机器 Node1 正在使用 Java 帮助器类 QueueingConsumer 消费 Node2 上队列中的消息 QueueingConsumer
在 R SF 中交叉大型空间数据集

我有两个空间数据集一个数据集包含许多多边形总共超过 150k 指定不同的特征如河流植被另一个数据集包含更少的指定不同区域的多边形 500 我需要将这两个数据集相交以获得不同区域的特征我可以根据不同的特征对第一个数据集进行子集化

在 R SF 中交叉大型空间数据集

在 R SF 中交叉大型空间数据集 的相关文章

随机推荐

热门标签

在 R SF 中交叉大型空间数据集的相关文章