面试题 : Top-k问题

对于Top-K问题，能想到的最简单直接的方式就是排序，但是：如果数据量非常大，排序就不太可取了(可能数据都不能一下子全部加载到内存中)。最佳的方式就是用堆来解决
1. 用数据集合中前K个元素来建堆

前k个最大的元素，则建小堆

前k个最小的元素，则建大堆

2. 用剩余的N-K个元素依次与堆顶元素来比较，不满足则替换堆顶元素
将剩余N-K个元素依次与堆顶元素比完之后，堆中剩余的K个元素就是所求的前K个最小或者最大的元素

题目

设计一个算法，找出数组中最小的k个数。以任意顺序返回这k个数均可。

示例

输入： arr = [1,3,5,7,2,4,6,8], k = 4
输出： [1,2,3,4]

提示

0 <= len(arr) <= 100000
0 <= k <= min(100000, len(arr))

开始解题

1.思路

建立小根堆,遍历这个数组把数组中的元素都放到小根堆中

定义一个数组ret作为返回值,,取k次堆顶元素放到数组中,返回ret

2.解题代码

public class Solution {
    /*
     * 这样写的话效率不是很高
     * */
    public int[] smallestK(int[] arr, int k) {
        int[] ret= new int[k];
        if(arr==null||k==0){
            return null;
        }
        //向上调整来建堆,时间复杂度为 O(N*logN)
        Queue<Integer> minHeap = new PriorityQueue<>();
        for (int i : arr) {
            minHeap.offer(i);
        }
        //poll() 移除优先级最高的元素并返回，如果优先级队列为空，返回null
        //每一次移除堆顶元素,都必须进行向下调整这棵二叉树,假设树的高度为h,时间复杂度log(h)
        //再加上循环k次,这段代码的时间复杂度为O(K * logH)
        for (int i = 0; i < k; i++) {
            ret[i]=minHeap.poll();
        }
        return ret;
    }
}

3.时间复杂度

//向上调整来建堆,时间复杂度为 O(N*logN)
Queue<Integer> minHeap = new PriorityQueue<>();
for (int i : arr) {
minHeap.offer(i);
}
//poll() 移除优先级最高的元素并返回，如果优先级队列为空，返回null
//每一次移除堆顶元素,都必须进行向下调整这棵二叉树,假设树的高度为h,时间复杂度log(h)
//再加上循环k次,这段代码的时间复杂度为O(K * logH)
for (int i = 0; i < k; i++) {
ret[i]=minHeap.poll();
}

所以上述解法的时间复杂度为:O(N*logN+K * logH)

4.运行结果

目前问题

代码运行效率不高,时间复杂度不行,太高了

主要原因

//向上调整来建堆,时间复杂度为 O(N*logN)
Queue<Integer> minHeap = new PriorityQueue<>();
for (int i : arr) {
minHeap.offer(i);
}
//poll() 移除优先级最高的元素并返回，如果优先级队列为空，返回null
//每一次移除堆顶元素,都必须进行向下调整这棵二叉树,假设树的高度为H,由节点总数与树的高度关系可得:N=2^H-1=>H=log(N+1)
//再加上循环k次,这段代码的时间复杂度为O(K*logN)
for (int i = 0; i < k; i++) {
ret[i]=minHeap.poll();
}

真正的解法

TOP-K问题：即求数据集合中前K个最大的元素或者最小的元素

TOP-K问题并不是将全部数据建立成堆,因为TOP-K问题一般情况下数据量都比较大。

真正的解法:是拿前K个建堆;找前K个最小的元素,建一个大根堆;找前K个最大的元素,建一个小根堆

TOP-K主要指的是在很大的一组数据的背景下进行,前K个元素仅仅只占很小的一部分,所以建堆和调整堆的时间复杂度也就变得很小了

1.以找前K个最大的元素为例

输入： arr = [27,15,19,18,28], k = 3

2.代码执行过程&&时间复杂度的计算

1.建立一个大小为K的小根堆(构造器默认的),没放元素,本质上是建立了一个大小为K的数组

2.遍历数组的前K个,放到小根堆minHeap当中 => 向上调整建堆
时间复杂度: K*logK

3.遍历剩下的K-1个,每次和堆顶元素进行比较
(1)如果该元素比堆顶元素小说明该元素一定不是前K个最大元素中的值，就不入堆;
(2)如果该元素比堆顶元素大堆,则该元素与堆中最后个元素交换,再移除最后一个元素再把该元素入堆,
入到最后一个先素的位置,调整该完全二叉树,使其再次成为个小根堆;
时间复杂度:(N-K)*H=>(N-K)logK 注:(H为树的高度,K=2^H-1,H=log(K+1))
(N-K)*H=>(N-K)*log(K+1)=>(N-K)logK

4.将堆中的元素放到ret里面,每次poll都是弹出堆中的最小值
时间复杂度: K*logK

所以时间复杂度: K*logK+(N-K)*logK+ K*logK => N*logK + K*logK
取近似值:O(N*logK) 注:K为常数,可忽略不计

3.画图演示代码执行过程

注:

小根堆中是前K个最大的值
堆顶元素是这K个最大的值里面最小的
最后的堆顶元素就是第K大的元素(牢记,面试官可能会问到!!!)
当遍历到数组元素大于堆顶的时候，说明此时堆顶的元素一定不是前K个最大的值

4.解题代码

    /*
    * 前k个最大的元素
    * 时间复杂度:K*logK
    * */
    public static int[] largestK(int[] arr, int k) {
        int[] ret = new int[k];
        if (arr==null||k==0){
            return null;
        }
        //1.建立一个大小为K的小根堆(构造器默认的),没放元素,本质上是建立了一个大小为K的数组

        Queue<Integer> minHeap = new PriorityQueue<>(k);
        //2.遍历数组的前K个,放到小根堆minHeap当中
        //时间复杂度: K*logK+(N-K)logK+ K*logK
        //取近似值:O(N*logK)
        for (int i = 0; i < k; i++) {
            minHeap.offer(arr[i]);
        }
      /* 3.遍历剩下的K-1个,每次和堆顶元素进行比较
        (1)如果该元素比堆顶元素小说明该元素一定不是前K个最大元素中的值，就不入堆;
        (2)如果该元素比堆顶元素大堆,则该元素与堆中最后个元素交换,再移除最后一个元素再把该元素入堆,
        入到最后一个先素的位置,调整该完全二叉树,使其再次成为个小根堆*/
        //时间复杂度:(N-K)*H=>(N-K)logK
        //注:(H为树的高度)K=2^H-1,H=log(K+1)
        //(N-K)*H=>(N-K)*log(K+1)=>(N-K)logK
        for (int i = k; i <arr.length ; i++) {
            int heapTop = minHeap.peek();
            if (arr[i]>heapTop){
                minHeap.poll();
                minHeap.offer(arr[i]);
            }
        }
        //4.将堆中的元素放到ret里面,每次poll都是弹出堆中的最小值
        //时间复杂度: K*logK
        for (int i = 0; i < k; i++) {
            ret[i]=minHeap.poll();
        }
        return ret;
    }

两种解法的比较

第一种解法时间复杂度为:O(N*logN+K * logN)

第二种解法时间复杂度为:O(N*logK)

注:K是常数,且数值与N相比极小

第二种解法远远优于第一种解法,面试官看到会给你竖起大拇指的

完结撒花✿✿ヽ(°▽°)ノ✿✿

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

刷题专栏

Java

数据结构

算法

学习方法

面试题 : Top-k问题的相关文章

如何将本机库链接到 IntelliJ 中的 jar？

我正在尝试在 IntelliJ 中设置 OpenCV 但是我一直在弄清楚如何告诉 IntelliJ 在哪里可以找到本机库位置在 Eclipse 中添加 jar 后您可以在 Build Config 屏幕中设置 Native 库的位置
如何使用assertEquals 和 Epsilon 在 JUnit 中断言两个双精度数？

不推荐使用双打的assertEquals 我发现应该使用带有Epsilon的形式这是因为双打不可能100 严格但无论如何我需要比较两个双打预期结果和实际结果但我不知道该怎么做目前我的测试如下 Test public void te
Spring AspectJ 在双代理接口时失败：无法生成类的 CGLIB 子类

我正在使用Spring的
如何获取之前的URL？

我需要调用我的网络应用程序的 URL 例如如果有一个从 stackoverflow com 到我的网站 foo com 的链接我需要 Web 应用程序托管 bean 中的 stackoverflow 链接感谢所有帮助谢谢并不总是
在接口中使用默认方法是否违反接口隔离原则？

我正在学习 SOLID 原则 ISP 指出客户端不应被迫依赖于他们所使用的接口不使用在接口中使用默认方法是否违反了这个原则我见过类似的问题但我在这里发布了一个示例以便更清楚地了解我的示例是否违反了 ISP 假设我有这个例子 pu
没有 Spring 的自定义 Prometheus 指标

我需要为 Web 应用程序提供自定义指标问题是我不能使用 Spring 但我必须使用 jax rs 端点要求非常简单想象一下您有一个包含键值对的映射其中键是指标名称值是一个简单的整数它是一个计数器代码会是这样的 public
java.lang.IllegalStateException：提交响应后无法调用 sendRedirect()

这两天我一直在尝试找出问题所在我在这里读到我应该在代码中添加一个返回我做到了但我仍然得到 java lang IllegalStateException Cannot call sendRedirect after the respo
在 junit 测试中获取 javax.lang.model.element.Element 类

我想测试我的实用程序类 ElementUtils 但我不知道如何将类作为元素获取在 AnnotationProcessors 中我使用以下代码获取元素 Set
Eclipse Maven Spring 项目 - 错误

I need help with an error which make me crazy I started to study Java EE and I am going through tutorial on youtube Ever
帮助将图像从 Servlet 获取到 JSP 页面 [重复]

这个问题在这里已经有答案了我目前必须生成一个显示字符串文本的图像我需要在 Servlet 上制作此图像然后以某种方式将图像传递到 JSP 页面以便它可以显示它我试图避免保存图像而是以某种方式将图像流式传输到 JSP 自从我开始寻
Spring Boot Data JPA 从存储过程接收多个输出参数

我尝试通过 Spring Boot Data JPA v2 2 6 调用具有多个输出参数的存储过程但收到错误 DEBUG http nio 8080 exec 1 org hibernate engine jdbc spi SqlStat
Java ResultSet 如何检查是否有结果

结果集 http java sun com j2se 1 4 2 docs api java sql ResultSet html没有 hasNext 方法我想检查 resultSet 是否有任何值这是正确的方法吗 if resultS
Eclipse 选项卡宽度不变

我浏览了一些与此相关的帖子但它们似乎并不能帮助我解决我的问题我有一个项目其中 java 文件以 2 个空格的宽度缩进我想将所有内容更改为 4 空格宽度我尝试了正确的缩进选项但当我将几行修改为 4 空格缩进时它只是将所有内容
使用 AsyncTask 传递值

我一直在努力解决这个问题但我已经到了不知道该怎么办的地步我想做的是使用一个类下载文件并将其解析为字符串然后将该字符串发送到另一个类来解析 JSON 内容所有部件都可以单独工作并且我已经单独测试了所有部件我只是不知道如何将值发送到
关键字“table”附近的语法不正确，无法提取结果集

我使用 SQL Server 创建了一个项目其中包含以下文件 UserDAO java public class UserDAO private static SessionFactory sessionFactory static se
Cucumber 0.4.3 (cuke4duke) 与 java + maven gem 问题

我最近开始为 Cucumber 安装一个示例项目并尝试使用 maven java 运行它我遵循了这个指南 http www goodercode com wp using cucumber tests with maven and ja
Android：无法使用 DbHelper 和 Contract 类将数据插入 SQLite

public class Main2Activity extends AppCompatActivity private EditText editText1 editText2 editText3 editText4 private Bu
包 javax.el 不存在

我正在使用 jre6 eclipse 并导入 javax el 错误包 javax el 不存在 javac 导入 javax el 过来这不应该是java的一部分吗谁能告诉我为什么会这样谢谢米 EL 统一表达语言是 Java
如果没有抽象成员，基类是否应该标记为抽象？

如果一个类没有抽象成员可以将其标记为抽象吗即使没有实际理由直接实例化它除了单元测试是的将不应该实例化的基类显式标记为抽象是合理且有益的即使在没有抽象方法的情况下也是如此它强制执行通用准则来使非叶类抽象它阻止其他程序员创建该类
如何防止在Spring Boot单元测试中执行import.sql

我的类路径中有一个 import sql 文件其中包含一些 INSERT 语句当使用 profile devel 运行我的应用程序时它的数据被加载到 postgres 数据库中到目前为止一切正常当使用测试配置文件执行测试时 imp

随机推荐

8k Byte , 8bit的ROM存储器，其地址线和数据线各需要多少根？

总共容量为810248bits 2 16bits 因此其地址线需要16根因为是8bit的ROM存储器因此数据线需要8根
使用ggplot2包在R语言中抑制数据轴上的科学计数法

使用ggplot2包在R语言中抑制数据轴上的科学计数法在数据可视化领域 ggplot2是R语言中最流行和强大的包之一它提供了丰富的功能和灵活性使我们能够创建出美观清晰的图形来展示数据其中一个常见的问题是当我们使用ggplot2绘
【自然语言处理】隐马尔可夫模型【Ⅵ】精度问题

有任何的书写错误排版错误概念错误等希望大家包含指正由于字数限制分成六篇博客自然语言处理隐马尔可夫模型马尔可夫模型自然语言处理隐马尔可夫模型隐马尔科夫模型概述自然语言处理隐马尔可夫模型估计问题自然语言处理隐马尔
非递减排列和非递增排列的定义

递增排列 1 2 3 4 5 6 7 8 递减排列 8 7 6 5 4 3 2 1 非递减排列 1 2 3 4 5 6 6 7 8 8 非递增排列 9 8 8 7 6 5 2 2 1
小白学python-数据清洗

数据清洗赔率公路堵车模型的概念及应用主成分分析PCA 新的的特征组合车辆数据描述 one hot编码会使特征值大量增加维度变高视情况而定 Logistic回归 AUC 曲线下的面积求取素数以及赔率的代码 import opera
web service概念、架构及相关知识

一 WebService的定义 WebService有好几种定义 W3C组织对其定义 WebService是一个软件系统为了支持跨网络的机器间互操作交互而设计 WebService通常被定义为一组模块化的API 我们可以通过网络进行调用
太原理工大学19年Java试题复习笔计

19年Java复习题 1 为使一个名为Example的public类成功编译需至少满足以下哪个条件 2 0分 A Example类中必须定义一个正确的main函数 B Example类中必须定义在 Example java源文件中 C E
sklearn 神经网络

sklearn 神经网络 url https blog csdn net luanpeng825485697 article details 79064657 url sklearn 神经网络多层感知器的优点可以学习得到非线性模型使用
雷军发布会刚结束，就能写出上万字原创文章！

前言看完雷军演讲会之后你有没有看到过很多文章成千上万个字的原创文章瞬间就出现了这是一个一个字敲的吗当然不是是AI 话不多说直接上教程把雷军的演讲整理到笔记中可以是md格式 word格式等等复制粘贴即可打开网站 smart
vmware workstation14连网

记录一下手残的过程 1 选择NAT形式的连接 2 在桌面的右上角有个圆圈右击这个图标会显示一个有线连接默认是关闭的 3 所以设置成连接状态 4 右击有线连接进行网络配置 5 所有都配置成自动获取
MybatisPlus多表连接查询

mybatis plus作为mybatis的增强工具它的出现极大的简化了开发中的数据库操作但是长久以来它的联表查询能力一直被大家所诟病一旦遇到left join或right join的左右连接你还是得老老实实的打开xml文件手写
mybatis与数据库连接过程

菜鸟发文请大神多多指导 1 准被一个maven项目 2 先导入jar包 3 配置mybatis核心文件 4 把连接数据库的配置项抽离出来 5 编写实体类 6 编写接口 7 编写mapper映射文件 8 把相同SQL session 方法抽
TCP三次握手-backlog队列问题

TCP三次握手 backlog队列问题 md 概述之前有同事做压力测试时发现无论如何都无法突破128并发的问题经排查发现该服务器ACCEPT QUEUE队列都为128 限制了网络的并发 TCP三次握手 Linux内核协议栈为一个TCP
初识-常见浏览器兼容性问题与解决方案

浏览器兼容问题一不同浏览器的标签默认的外补丁和内补丁不同问题症状随便写几个标签不加样式控制的情况下各自的margin 和padding差异较大碰到频率 100 解决方案 CSS里 margin 0 padding 0 备注这个
前后端利用accessToken与refreshToken无感刷新

项目初衷以jwt 由header payload和signature组成为例用户登录成功后端返回accessToken 前端保存请求接口携带一切都是水到渠成的可是在acessToken失效时你正好请求一次接口接口就挂了可
SpringBoot集成ShedLock分布式定时任务

文章目录前言一背景二 ShedLock是什么三落地实现 1 1 引入依赖包 1 2 配置数据库连接信息 1 3 创建Mysql数据表 1 4 配置LockProvider 1 5 创建定时Job 四结果分析前言一背景在
【性能测试】Jmeter —— jmeter计数器

jmeter计数器如果需要引用的数据量较大且要求不能重复或者需要递增那么可以使用计数器来实现如新增功能要求名称不能重复 1 新增计数器计数器允许用户创建一个在线程组之内都可以被引用的计数器计数器允许用户配置一个起点一个最
《Go语言在微服务中的崛起：为什么Go是下一个后端之星？》

博主猫头虎带您进入 Golang 语言的新世界博客首页猫头虎的博客面试题大全专栏文章图文并茂生动形象简单易学欢迎大家来踩踩 IDEA开发秘籍专栏学会IDEA常用操作工作效率翻倍 100天精通Golang 基础入门篇学会
c语言常量表达式,Constant expressions（常量表达）

几种表达式被称为常量表达式预处理器常量表达式 if 或 elif 后面的表达式必须扩展为除赋值增量减量函数调用或逗号之外的其他操作符其参数是预处理常量表达式整数常量字符常量特殊的预处理器操作员 defined 当在 if表
面试题 : Top-k问题

目录简介题目示例提示开始解题 1 思路 2 解题代码 3 时间复杂度 4 运行结果编辑目前问题真正的解法 1 以找前K个最大的元素为例 2 代码执行过程时间复杂度的计算 3 画图演示代码执行过程 4 解题代码两种解法的比