R中的距离计算优化

2024-04-09

我想知道是否有任何方法可以优化下面的距离计算过程。我在下面留下了一个小例子，但是我正在处理一个超过 6000 行的电子表格，计算变量 d 需要相当长的时间。可以通过某种方式调整它以获得相同的结果，但以优化的方式。

library(rdist)
library(tictoc)
library(geosphere)

time<-tic()

df<-structure(list(Industries=c(1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19), Latitude = c(-23.8, -23.8, -23.9, -23.9, -23.9,  -23.9, -23.9, -23.9, -23.9, -23.9, -23.9, -23.9, -23.9, -23.9, 
+ + -23.9, -23.9, -23.9, -23.9, -23.9), Longitude = c(-49.6, -49.6, -49.6, -49.6, -49.6, -49.6, -49.6, -49.6, -49.6, -49.6, -49.7, 
+ + -49.7, -49.7, -49.7, -49.7, -49.6, -49.6, -49.6, -49.6)), class = "data.frame", row.names = c(NA, -19L))

k=3 
#clusters
coordinates<-df[c("Latitude","Longitude")]
d<-as.dist(distm(coordinates[,2:1]))
fit.average<-hclust(d,method="average") 
clusters<-cutree(fit.average, k) 
nclusters<-matrix(table(clusters))  
df$cluster <- clusters 

time<-toc()

1.54 sec elapsed

d
          1        2        3        4        5        6        7        8
2      0.00                                                               
3  11075.61 11075.61                                                      
4  11075.61 11075.61     0.00                                             
5  11075.61 11075.61     0.00     0.00                                    
6  11075.61 11075.61     0.00     0.00     0.00                           
7  11075.61 11075.61     0.00     0.00     0.00     0.00                  
8  11075.61 11075.61     0.00     0.00     0.00     0.00     0.00         
9  11075.61 11075.61     0.00     0.00     0.00     0.00     0.00     0.00
10 11075.61 11075.61     0.00     0.00     0.00     0.00     0.00     0.00
11 15048.01 15048.01 10183.02 10183.02 10183.02 10183.02 10183.02 10183.02
12 15048.01 15048.01 10183.02 10183.02 10183.02 10183.02 10183.02 10183.02
13 15048.01 15048.01 10183.02 10183.02 10183.02 10183.02 10183.02 10183.02
14 15048.01 15048.01 10183.02 10183.02 10183.02 10183.02 10183.02 10183.02
15 15048.01 15048.01 10183.02 10183.02 10183.02 10183.02 10183.02 10183.02
16 11075.61 11075.61     0.00     0.00     0.00     0.00     0.00     0.00
17 11075.61 11075.61     0.00     0.00     0.00     0.00     0.00     0.00
18 11075.61 11075.61     0.00     0.00     0.00     0.00     0.00     0.00
19 11075.61 11075.61     0.00     0.00     0.00     0.00     0.00     0.00
          9       10       11       12       13       14       15       16
2                                                                         
3                                                                         
4                                                                         
5                                                                         
6                                                                         
7                                                                         
8                                                                         
9                                                                         
10     0.00                                                               
11 10183.02 10183.02                                                      
12 10183.02 10183.02     0.00                                             
13 10183.02 10183.02     0.00     0.00                                    
14 10183.02 10183.02     0.00     0.00     0.00                           
15 10183.02 10183.02     0.00     0.00     0.00     0.00                  
16     0.00     0.00 10183.02 10183.02 10183.02 10183.02 10183.02         
17     0.00     0.00 10183.02 10183.02 10183.02 10183.02 10183.02     0.00
18     0.00     0.00 10183.02 10183.02 10183.02 10183.02 10183.02     0.00
19     0.00     0.00 10183.02 10183.02 10183.02 10183.02 10183.02     0.00
         17       18
2                   
3                   
4                   
5                   
6                   
7                   
8                   
9                   
10                  
11                  
12                  
13                  
14                  
15                  
16                  
17                  
18     0.00         
19     0.00     0.00

比较

> df$cluster <- clusters 
> df
   Industries Latitude Longitude cluster
1           1    -23.8     -49.6       1
2           2    -23.8     -49.6       1
3           3    -23.9     -49.6       2
4           4    -23.9     -49.6       2
5           5    -23.9     -49.6       2
6           6    -23.9     -49.6       2
7           7    -23.9     -49.6       2
8           8    -23.9     -49.6       2
9           9    -23.9     -49.6       2
10         10    -23.9     -49.6       2
11         11    -23.9     -49.7       3
12         12    -23.9     -49.7       3
13         13    -23.9     -49.7       3
14         14    -23.9     -49.7       3
15         15    -23.9     -49.7       3
16         16    -23.9     -49.6       2
17         17    -23.9     -49.6       2
18         18    -23.9     -49.6       2
19         19    -23.9     -49.6       2

> clustered_df
   Industries Latitude Longitude cluster     Dist Cluster
1          11    -23.9     -49.7       3     0.00       1
2          12    -23.9     -49.7       3     0.00       1
3          13    -23.9     -49.7       3     0.00       1
4          14    -23.9     -49.7       3     0.00       1
5          15    -23.9     -49.7       3     0.00       1
6           3    -23.9     -49.6       2 10183.02       2
7           4    -23.9     -49.6       2     0.00       2
8           5    -23.9     -49.6       2     0.00       2
9           6    -23.9     -49.6       2     0.00       2
10          7    -23.9     -49.6       2     0.00       2
11          8    -23.9     -49.6       2     0.00       2
12          9    -23.9     -49.6       2     0.00       2
13         10    -23.9     -49.6       2     0.00       2
14         16    -23.9     -49.6       2     0.00       2
15         17    -23.9     -49.6       2     0.00       2
16         18    -23.9     -49.6       2     0.00       2
17         19    -23.9     -49.6       2     0.00       2
18          1    -23.8     -49.6       1 11075.61       3
19          2    -23.8     -49.6       1     0.00       3

@Jose也许在数学上不那么合理（就聚类而言），但（通常）更好地测量大圆距离（文森蒂公式）。并且实现速度提高了约 8 倍（我认为这是您想要的结果）-（仅使用您的示例数据）。

# Order the dataframe by Lon and Lat: ordered_df => data.frame
ordered_df <- 
  df %>% 
  arrange(., Longitude, Latitude)  

# Scalar valued at how many clusters we are expecting => integer vector
k = 3

# Matrix of co-ordinates: coordinates => matrix
coordinates <-   
  ordered_df %>% 
  select(Longitude, Latitude) %>% 
  as.matrix()

# Generate great circle distances between points and Long-Lat Matrix: d => data.frame
d <- data.frame(Dist = c(0, distVincentyEllipsoid(coordinates)))

# Segment the distances into groups: cluster => factor 
d$Cluster <- factor(cumsum(d$Dist > (quantile(d$Dist, 1/k))) + 1)

# Merge with base data: clustered_df => data.frame
clustered_df <- cbind(ordered_df, d)

库和示例数据：

library(geosphere)
library(dplyr)

df <- structure(list(Industries=c(1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19), 
Latitude = c(-23.8, -23.8, -23.9, -23.9, -23.9,  -23.9, -23.9, -23.9, -23.9, -23.9, -23.9, -23.9, -23.9, -23.9, -23.9, -23.9, -23.9, -23.9, -23.9),
Longitude = c(-49.6, -49.6, -49.6, -49.6, -49.6, -49.6, -49.6, -49.6, -49.6, -49.6, -49.7,-49.7, -49.7, -49.7, -49.7, -49.6, -49.6, -49.6, -49.6)),
class = "data.frame", row.names = c(NA, -19L))
start_time <- Sys.time()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

Distance

geosphere

R中的距离计算优化的相关文章

如何获得 STAN 中最大似然估计的标准误差？

我在 Stan 中使用最大似然优化但不幸的是optimizing 函数不报告标准错误 gt MLb4c lt optimizing get stanmodel fitb4c data win data init inits STAN OP
par(mfrow=c(1,2)) 不显示并排密度图[重复]

这个问题在这里已经有答案了 par mfrow c 1 2 plot 1 12 log y plot 1 2 xaxs i 然而当我尝试做并排密度图时图会单独输出 load the stud recs dataset library U
使用 R Shiny 从 XLConnect 下载 Excel 文件

有没有人尝试过使用 R Shiny 中的下载处理程序通过 XLConnect 下载新创建的 Excel 文件在 ui R 中有一行不起眼的行 downloadButton downloadData Download 在 server R
如何在R中计算文本中的句子数？

我使用 R 将文本读入readChar 功能我的目的是测试文本句子中字母 a 出现次数与字母 b 出现次数一样多的假设我最近发现了 stringr 包它帮助我对文本做很多有用的事情例如计算字符数以及整个文本中每个字母出现的总数现在
计算例如具有多列 data.frames 的列表中的平均值

我有几个 data frames 的列表每个 data frame 有几列通过使用mean mylist first dataframe a我可以得到这个 data frame 中 a 的平均值但是我不知道如何计算列表中存储的所有 d
LDA with topicmodels，如何查看不同文档属于哪些主题？

我正在使用 topicmodels 包中的 LDA 我已经在大约 30 000 个文档上运行它获取了 30 个主题并获得了主题的前 10 个单词它们看起来非常好但我想看看哪些文档属于哪个主题的概率最高我该怎么做 myCorpus
使用 broom 和 tidyverse 总结 r 平方游戏

我发布了一个问题here https stackoverflow com questions 48627287 getting adjusted r squared value for each line in a geom smooth
R中的一元加/减是什么？

来自 R 的详细信息部分Syntax http stat ethz ch R manual R patched library base html Syntax html帮助页面定义了以下一元和二元运算符他们被列出在优先级组中从最高
通过间接引用列来修改数据框中的某些值

我正在整理一些数据我们将失败的数据分类到垃圾箱中并按批次计算每个分类箱的有限产量我有一个描述排序箱的元表这些行按升序测试顺序排列一些排序标签带有非语法名称 sort tbl lt tibble tribble weight lab
将数据框中的每个 x 个字符拆分为字符串

我知道这里有一些关于每隔一段时间分割一个字符串的答案nth字符例如this one https stackoverflow com questions 23208490 split each character in r and this
kernlab 中 SVM 训练之外的核矩阵计算

我正在开发一种新算法该算法可以生成修改后的核矩阵以用于 SVM 训练但遇到了一个奇怪的问题出于测试目的我比较了使用 kernelMatrix 接口和普通内核接口学习的 SVM 模型例如 Model with kernelMatri
pyomo + 网状错误 6 句柄无效

我正在尝试运行pyomo优化我收到错误消息 Error 6 The handle is invalid 不知道如何解释它环顾四周似乎与特权有关但我不太明白在下面找到完整的错误跟踪以及重现它的玩具示例完整的错误跟踪 py run f
在 R 中创建虚拟变量，排除某些情况为 NA

我的数据看起来像这样 V1 V2 A 0 B 1 C 2 D 3 E 4 F 5 G 9 我想创建一个虚拟变量R where 0 1 1 2 3 4 and NA 0 5 9 应该很简单有人可以帮忙吗我们可以转换V2 into a fa
MySQL PHP邮政编码比较具体距离

我试图找出比较一个邮政编码用户提供的和一大堆其他邮政编码现在大约有 200 个邮政编码之间的距离的最有效方法相对于加载时间但它会随着时间的推移而增加我不需要任何精确的东西只是在球场上我下载了整个美国的邮政编码 csv 文件
将每列的值乘以 R 中另一个 data.frame 中的权重

我有两个data frames df and weights 代码如下 df看起来像这样 id a b d EE f 1 this 0 23421153 0 02324956 0 5457353 0 73068586 0 5642554 2
r 中训练和测试数据的最小最大缩放/归一化

我正在创建一个函数它将训练集和测试集作为其参数最小最大缩放标准化并返回训练集并使用这些same最小值和最小最大范围的值标准化并返回测试集到目前为止这是我想出的功能 min max scaling lt function tr
在 R 中使用 lapply 绘制多个数据帧

我正在尝试使用 lapply 函数绘制多个数据帧每个数据帧一个图但是尽管有关此主题的所有帖子我都找不到答案因为我不断收到错误图的输出列表为空我的数据结构如下 df1 lt mtcars gt group by cyl gt tal
只读取选定的列

谁能告诉我如何仅读取下面每年数据的前 6 个月 7 列例如使用read table Year Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec 2009 41 27 25 31 31 39 2
使用 Shiny 发布平行坐标图表时出现“错误：路径[1]="”：没有这样的文件或目录”

我有一个似乎很常见但我还没有找到解决方案的问题当尝试使用 rCharts Parcoords 发布 Web 应用程序时出现以下错误错误路径 1 没有这样的文件或目录奇怪的是该应用程序在我的笔记本电脑上运行得很好下面是我正在使用
相当于 min() 的 rowMeans()

我在 R 邮件列表上多次看到这个问题但仍然找不到满意的答案假设我有一个矩阵m m lt matrix rnorm 10000000 ncol 10 我可以通过以下方式获得每行的平均值 system time rowMeans m use

随机推荐

列表活动中的上下文菜单

我有带有自定义数组适配器的列表活动当长按列表项时我无法获取上下文菜单
如何使用 vue-cli 3 创建两个单独的包？

我想构建两个独立的 vue 应用程序它们将在 Express 应用程序中的两条不同路径上提供服务公共 vue 应用程序和管理 vue 应用程序这两个应用程序有自己的路由器和商店但它们共享许多自定义组件如何编辑默认的 webpac
Distcp 源长度不匹配

我在执行时遇到问题distcp两个不同的命令之间hadoop簇引起原因 java io IOException 长度不匹配来源 hdfs ip1 xxxxxxxxxxx xxxxx 和目标 hdfs nameservice1 xxxx
Rails 使用 puma，将 localhost:3000 更改为 localhost:3000/example

我开发了一个 Rails 5 应用程序可以很好地运行http 本地主机 3000 http localhost 3000 现在我需要该应用程序在 localhost 3000 example 中启动并且该链接通过这个新主机例如 lo
源 bashrc 在 cron 中不起作用

我们都知道 cron 会忽略 bashrc 和 bash profile 中定义的变量因此我们必须在 cron 中定义它我经常做类似问题中写的同样的事情https unix stackexchange com questions 679
如何替换数据帧每行中大于某个阈值的前 n 个元素

我有一个巨大的数据框仅包含数字下面显示的数据框仅用于演示目的我的目标是替换数据帧的每一行中的第一行n大于某个值的数字val by 0 举个例子我的数据框可能如下所示 c1 c2 c3 c4 0 38 10 1 8 1 44 12 1
使用 GraphViz 理解 -fdump-tree 输出 gcc

我创建了一个树转储如下所述如何将 gcc 生成的抽象语法树转储到 dot 文件中 https stackoverflow com questions 15800230 how can i dump an abstract syntax
Django：按日期范围过滤对象

我的对象模型是 class Event models Model start models DateTimeField end models DateTimeField 我需要过滤今天的所有对象我有一个对象开始日期为 2014 03 0
Haskell抽象语法表达式的动态加载

我们可以使用 GHC API 或其他东西来加载 AST 表达式而不是文本源模块类似于haskell src extsExp type http hackage haskell org packages archive haskell sr
Scala 2.10.0 RC2 和可选参数

我正在尝试Scala 宏 http scalamacros org 它们是 Scala 2 10 的一部分但当我尝试编译使用 sbt 时出现以下错误 error API scala 9 not enough arguments for
Javascript 原型与通用函数 - 性能/可读性

所以我编写了这些测试来看看使用原型会快多少 function User return name Dave setName function n this name n getName function return this name fu
通过引用传递数组与传递指针的函数参数绑定规则

为了防止任何混淆我非常了解数组和指针之间的区别衰减到指针的概念以及通过传递数组的概念参考在C 等中我的问题是具体来说关于编译器从一组函数中选择一个函数所使用的规则overload候选者当一个重载采用数组引用而另一个重载采用指针时
同一数据库中的实体框架核心多个 DbContext 迁移

在 Entity Framework 6 中您可以为 DbContext 指定 ContextKey 以便在将一个数据库用于多个 DbContext 时迁移表知道哪个迁移针对哪个 DbContext 在过去的几个小时里我一直在尝试弄清
适用于 Linux 的 NUMA 感知命名共享内存

Windows API 提供了 CreateFileMappingNuma 函数 http msdn microsoft com en us library windows desktop aa366539 v vs 85 aspx htt
Ruby win32ole - 如何传递 VARIANT 参数？

我正在尝试使用 Ruby 自动化 Windows 任务计划程序我在 Windows Vista 下使用 Ruby 1 8 TaskFolder 对象的 RegisterTaskDefintion 方法采用两个 VARIANT 参数作为用户
Git 推送到错误的分支

使用 git 进行一些提交和几次推送之后我意识到我使用了错误的分支现在我必须以某种方式删除我的更改wrong branch并提交并推送更改right branch 最好的而且简单的方法是什么切换到该分支检查git log
“LazyCorpusLoader”对象不可迭代

以下示例创建一个字谜词典然而它抛出一个TypeError LazyCorpusLoader object is not an iterator import nltk from nltk corpus import words anag
使用 jQuery 将单个事件处理程序绑定到多个事件

我有以下 div 具有不同的 onblur onmousedown onmouseup 和 onfocus 功能我想最小化代码并且在 div 内只有一个函数调用来处理所有函数状态我想用 jquery 来做到这一点所以换句话说我想创
用 Python 表示网络

我有一个顶点例如dic a 0 b 1 c 2 d 3 e 4 f 5 n 6 m 7 g 8 我有两列如下代表顶点之间的关系 a a b d e f c f n f m g 我想通过一条边将第一列中的每个顶点与第二列中的相应顶点关联起来
R中的距离计算优化

我想知道是否有任何方法可以优化下面的距离计算过程我在下面留下了一个小例子但是我正在处理一个超过 6000 行的电子表格计算变量 d 需要相当长的时间可以通过某种方式调整它以获得相同的结果但以优化的方式 library rdist

R中的距离计算优化

比较

R中的距离计算优化 的相关文章

随机推荐

热门标签

R中的距离计算优化的相关文章