将向量分割成块，使得每个块的总和近似恒定

2023-11-24

我有一个包含超过 100 000 条记录的大型数据框，其中的值已排序

例如，考虑以下虚拟数据集

df <- data.frame(values = c(1,1,2,2,3,4,5,6,6,7))

我想创建 3 组上述值（仅按顺序），以便每组的总和或多或少相同

所以对于上面的组，如果我决定划分排序的df分为以下 3 组，其总和为

1. 1 + 1 + 2 +2 + 3 + 4 = 13
2. 5 + 6 = 11
3. 6 + 7 = 13

如何在 R 中创建这种优化？有什么逻辑吗？

那么，让我们使用修剪。我认为其他解决方案提供了一个很好的解决方案，但不是最好的解决方案。

首先，我们要最小化

其中 S_n 是前 n 个元素的累积和。

computeD <- function(p, q, S) {
  n <- length(S)
  S.star <- S[n] / 3
  if (all(p < q)) {
    (S[p] - S.star)^2 + (S[q] - S[p] - S.star)^2 + (S[n] - S[q] - S.star)^2
  } else {
    stop("You shouldn't be here!")
  }
}

我认为其他解决方案独立地优化 p 和 q ，这不会给出全局最小值（预计在某些特定情况下）。

optiCut <- function(v) {
  S <- cumsum(v)
  n <- length(v)
  S_star <- S[n] / 3
  # good starting values
  p_star <- which.min((S - S_star)^2)
  q_star <- which.min((S - 2*S_star)^2)
  print(min <- computeD(p_star, q_star, S))
  
  count <- 0
  for (q in 2:(n-1)) {
    S3 <- S[n] - S[q] - S_star
    if (S3*S3 < min) {
      count <- count + 1
      D <- computeD(seq_len(q - 1), q, S)
      ind = which.min(D);
      if (D[ind] < min) {
        # Update optimal values
        p_star = ind;
        q_star = q;
        min = D[ind];
      }
    }
  }
  c(p_star, q_star, computeD(p_star, q_star, S), count)
}

这与其他解决方案一样快，因为它根据条件修剪了大量迭代S3*S3 < min。但是，它给出了最佳解决方案，请参阅optiCut(c(1, 2, 3, 3, 5, 10)).

对于 K >= 3 的解决方案，我基本上用嵌套的 tibbles 重新实现了树，这很有趣！

optiCut_K <- function(v, K) {
  
  S <- cumsum(v)
  n <- length(v)
  S_star <- S[n] / K
  # good starting values
  p_vec_first <- sapply(seq_len(K - 1), function(i) which.min((S - i*S_star)^2))
  min_first <- sum((diff(c(0, S[c(p_vec_first, n)])) - S_star)^2)
  
  compute_children <- function(level, ind, val) {
    
    # leaf
    if (level == 1) {
      val <- val + (S[ind] - S_star)^2
      if (val > min_first) {
        return(NULL)
      } else {
        return(val)
      } 
    } 
    
    P_all <- val + (S[ind] - S[seq_len(ind - 1)] - S_star)^2
    inds <- which(P_all < min_first)
    if (length(inds) == 0) return(NULL)
    
    node <- tibble::tibble(
      level = level - 1,
      ind = inds,
      val = P_all[inds]
    )
    node$children <- purrr::pmap(node, compute_children)
    
    node <- dplyr::filter(node, !purrr::map_lgl(children, is.null))
    `if`(nrow(node) == 0, NULL, node)
  }
  
  compute_children(K, n, 0)
}

这为您提供了比贪婪解决方案效果最差的所有解决方案：

v <- sort(sample(1:1000, 1e5, replace = TRUE))
test <- optiCut_K(v, 9)

你需要解除这个：

full_unnest <- function(tbl) {
  tmp <- try(tidyr::unnest(tbl), silent = TRUE)
  `if`(identical(class(tmp), "try-error"), tbl, full_unnest(tmp))
}
print(test <- full_unnest(test))

最后，为了获得最佳解决方案：

test[which.min(test$children), ]

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

Optimization

mathematicaloptimization

将向量分割成块，使得每个块的总和近似恒定的相关文章

将密度曲线拟合到 R 中的直方图

R中有没有可以将曲线拟合到直方图的函数假设您有以下直方图 hist c rep 65 times 5 rep 25 times 5 rep 35 times 10 rep 45 times 4 看上去很正常但其实是歪曲的我想拟合一条倾
将summary()写入as.data.frame以在ggplot / R中使用

请查找 af 数据样本t below 我正在使用以下方法进行竞争风险分析etmCIF来自etm package 产生以下结果这很好但需要更好的图形曾经有一个ggtrans etm函数将数据导入ggplot 然而这个功能显然被删除了
dplyr 中的 Summarize 是否可以不删除数据框中的其他列？

我有一个包含三列的数据框我正在尝试进行简单的总结以查找数据框中每个城市的最高温度但同时保留每个最高温度列出的日期这是数据框我们称之为 maxT new ID Date Max TemperatureF 1 TUS 1960 04 0
在 mac (iMac OSX ) 终端中远程运行脚本（r 脚本）到其他计算机

我有一个小示例脚本 script p r 如下所示打算在终端中运行 usr bin Rscript sink output capture txt mn lt mean 1 10 and so on much longer list of
如何在不循环的情况下添加组ID？

我有数据框例如 productid ordernum p1 10 p2 20 p3 30 p4 5 p5 20 p6 8 我想添加另一列称为 groupid 它将产品按顺序分组在一起一旦 sum ordernum 达到 30 分配一个
在函数内部调用 clusterApply 时，性能会下降

我遇到了一个奇怪的问题clusterApply 我已经能够尽可能地隔离它如下所示首先我从全局环境运行以下代码 require parallel cl lt makeCluster rep localhost 20 SOCK xl lt
将列表中的列转换为 R 中的数据框

我有使用 R 创建的以下列表 set seed 326581 X1 rnorm 10 0 1 Y1 rnorm 10 0 2 data data frame X1 Y1 lst lt replicate 100 df smpl lt dat
生成尽可能最快的可执行文件

我有一个非常大的程序我一直在 Visual Studio 下编译 v6 然后迁移到 2008 我需要可执行文件尽可能快地运行该程序大部分时间都花在处理各种大小的整数上并且执行很少的 IO 显然我会选择最大优化但似乎可以做很多不属于
如何更改 Shiny 中 navbarPage 折叠的断点

我想用shiny navbarPage collapsible TRUE 当在小屏幕上查看我的 Shiny 应用程序时将导航元素折叠到菜单中默认情况下当浏览器宽度小于 940 像素时会触发折叠有什么方法可以改变这一点以便在稍大的浏
仅保留百分比的尾随零

给出以下示例 library pander tableAbs lt Titanic 1 1 tablePct lt round prop table tableAbs 100 2 table lt cbind tableAbs tableP
将数据从 R 导出到 Excel

我试图将从 R 获得的一些结果导出到 Excel 中但未成功我尝试过以下代码 write table ALBERTA1 D ALBERTA1 txt sep t write csv ALBERTA1 ALBERTA1 csv your
解析，用三点参数替换

让我们考虑一个典型的deparse substitute R call f1 lt function u x y print deparse substitute x varU vu varX vx varY vy f1 u varU x
错误优化器参数在 Keras 函数中不合法

我使用以下代码来计算数据生成质量指标的拟合优度研究的概率标签 from sklearn model selection import StratifiedKFold from sklearn model selection import K
如何以最低的价格优化购物车？

我有一个我想买的物品清单这些商品由不同的商店提供价格也不同商店有单独的送货费用我正在寻找一种最佳的购物策略以及支持它的java库以最低的总价购买所有商品 Example 商品 1 在 Shop1 的售价为 100 美元在 Sh
R - 通过覆盖和递归合并列表

假设我有两个带有名字的列表 a list a 1 b 2 c list d 1 e 2 d list a 1 b 2 b list a 2 c list e 1 f 2 d 3 e 2 我想递归地合并这些列表如果第二个参数包含冲突的值则
R：将 JSON 时间格式转换为 POSIX

我有一个 JSON 字符串并将其放入数据框中我能够做到这一点但我在使用 apply 函数之一将所有时间字符串转换为 POSIX 格式时遇到问题 See here https stackoverflow com questions 90
ggplot散点图中的图例问题

我想使用 ggplot 创建显示方法比较数据的散点图绘图应包含原始数据理想线和带误差的拟合线图例应显示理想线和拟合线的线型线宽线颜色我可以获得大部分我想要的东西但是图例存在以下问题图例显示每种线型有 2 条线为什么如何解
打印数字时添加千位分隔符[重复]

这个问题在这里已经有答案了我真的不知道这个问题的名称所以它可能是一个不正确的标题但问题很简单如果我有一个数字例如 number 23543 second 68471243 我想要它使print 像这样 23 54368 471
使用predictNLS围绕R中的拟合值创建置信区间？

我想使用 R 中 propogate 包中的 PredictNLS 围绕一大组拟合值构建置信区间作为示例我将使用它们在函数描述中引用的数据集 https rdrr io github anspiess propagate man pre
R 中的 Websocket

我设法在 R 中建立到 Mtgox websocket 的连接规格如下 url https socketio mtgox com mtgox Currency USD https socketio mtgox com mtgox Curr

随机推荐

MS Access 中的透视查询

我在 Access 表中有以下数据 ID Name CAT 1 Bill Red 1 Bill Yellow 1 Bill Green 1 Bill Orange 2 Ted Purple 2 Ted White 3 Alice Indig
最大数组长度配额

我正在编写一个小型 WCF WPF 应用程序来调整图像大小但当我尝试从客户端向我的服务发送大小为 28K 的图像时 WCF 给我带来了痛苦当我发送较小的图像时该服务工作正常我立即认为这是一个配置问题并且我在网上搜索了有关我的绑定配
将替换为 Spring 注解

有没有办法用注释替换构造函数参数我有这个构造函数 public GenericDAOImpl Class
C 中的 switch 语句：变量的情况？

include
如何在 GitHub Actions 表达式语法中引用上下文值？

我想在其中设置一个环境变量env GitHub Action 的部分并利用GitHub Actions 的上下文和表达式语法我试过这个 jobs build runs on ubuntu latest env MYVAR format 0
在 Ruby 中使用方法名称从字符串调用方法

我怎样才能做到他们所说的here 但是在 Ruby 中呢您将如何在对象上执行该功能以及你将如何执行全局函数请参阅 jetxee 的answer在提到的帖子上示例代码 event name load def load puts loa
如何重新渲染平面列表？

与 ListView 不同的是我们可以更新 this state datasource 有没有任何方法或示例来更新 FlatList 或重新渲染它我的目标是当用户按下按钮时更新文本值 renderEntries item index r
如何在 Visual Studio 代码中调试时扩展数组

这是我的代码它是一个简单的排列代码块 void arrange char c int N int start if start N print c N return for int i start i lt N i swap c star
iframe 滚动 iOS 8

我有一个 iframe 我需要它有滚动溢出它似乎可以在桌面上运行我使用了一种解决方法使其可以在 iOS 中运行现在它可以在 Android 和 iOS 上运行然而 iOS8却失败了
以编程方式映射 servlet，而不是使用 web.xml 或注释

如何在没有 web xml 或注释的情况下以编程方式实现此映射任务不是使用任何框架如 spring 或其他框架
使用 r 从字符串中提取电子邮件地址

这是 5 个 Twitter 用户描述这个想法是从每个字符串中提取电子邮件这是我尝试过的代码它有效但可能有更好的东西我宁愿避免使用 unlist 并使用正则表达式一次性完成它我见过其他类似的 python perl php 问题
Spring MVC 类型转换：PropertyEditor 还是 Converter？

我正在寻找在 Spring MVC 中绑定和转换数据的最简单的方法如果可能的话不做任何xml配置到目前为止我一直在使用属性编辑器像这样 public class CategoryEditor extends PropertyEdito
PowerShell函数不会返回DataTable

我在 PowerShell v4 0 Windows 7 x64 SP1 上有一个 PowerShell 脚本它创建了一个非常复杂的数据表我希望能够轻松地将 DataTable 代码放置在任何地方因此我决定将其包装在一个简单的函数中
数组通过 ajax post 被截断。 Ajax 发帖限制？

我有一个多维数组它由 426 个较小的数组组成还包含 4 个属性下面是 426 个数组之一的示例 array Main array 0 gt array 1 of 426 arrays name gt Danny email gt e
twitter-bootstrap 关闭警报不起作用

我无法让它工作当我单击关闭按钮时什么也没有发生这是代码 div class alert alert error alert block style width 200px div
如何从另一个日期选择器中设置日期选择器中的最小日期？

我目前正在向我的日期选择器添加验证并且在设置最短日期时遇到问题to日期选择器是在中选择的任何内容from日期选择器即如果选择 12 3 15 则日期选择器中的最小日期为 12 3 15 这是我正在使用的代码 from datepick
有时间限制的计算

我正在尝试编写一个构造它允许我在给定的时间窗口内运行计算就像是 def expensiveComputation Double some intensive math val result Option Double timeLimit
通过赋值运算符插入到 std::vector 的索引处

我是 C 新手很好奇这是否是插入 std vector 的首选方式 std vector
在 OSX 上静态链接 gfortran 库的正确方法

我有一个要分发的 Fortran 程序因此我想静态链接到 gfortran 库如果我使用以下标志编译程序 gfortran o myprog static libgfortran static libgcc myprog f otool
将向量分割成块，使得每个块的总和近似恒定

我有一个包含超过 100 000 条记录的大型数据框其中的值已排序例如考虑以下虚拟数据集 df lt data frame values c 1 1 2 2 3 4 5 6 6 7 我想创建 3 组上述值仅按顺序以便每组的总和或多

将向量分割成块，使得每个块的总和近似恒定

将向量分割成块，使得每个块的总和近似恒定 的相关文章

随机推荐

热门标签

将向量分割成块，使得每个块的总和近似恒定的相关文章