top k算法讲解

2023-11-15

在实际工作中,我们时常会有寻找长度为n的数组中,排在前k的元素,对于top k的问题,最暴力的处理方式就是直接对数组进行排序,然后再去截取前k个数字,从而达到自己的目的,这种算法的实现复杂度为O(nlogn),其实有O(n)的算法或者是O(nlogk)时间复杂度的算法。

  • 基于快排的top k算法

    如果我们了解快速排序算法的话,知道其原理是每次寻找一个数值,将数组中所有小于这个数的值放在其左侧,所有大于其数值的数放在其右侧。因此调用一次partion之后,设其返回值为p,则比第p个数字小的所有数字在数组的左侧,比第p个数字大的所有数字都在数组的右侧。我们可以基于快排的原理用其实现寻找top k的元素。我们看下代码,其时间复杂度为O(n)。

    private static int partion(int[] array, int low, int high) {

        int mid = array[low];
        while (low < high) {
            while (low < high && array[high] >= mid)
                high--;
            array[low] = array[high];
            while (low < high && array[low] <= mid)
                low++;
            array[high] = array[low];
        }
        array[low] = mid;
        return low;
    }

    private static int top_k(int[] array, int k) {

        if (array == null || array.length == 0)
            return -1;
        if (k < 0 || k > array.length - 1)
            return -1;
        int low = 0, high = array.length - 1;
        int index = partion(array, low, high);
        while (index != k) {
            if (index > k) {
                high = index - 1;
                index = partion(array, low, high);

            } else {
                low = index + 1;
                index = partion(array, low, high);
            }
        }
        return array[index];
    }
  • 基于大顶堆的top k算法
    这种算法适合海量数据的情况下,比如我们待查找的数据很大,甚至不可以一次全部读入内存,这种方法就比较适合。下面简单说一下其原理。
    我们先创建一个大小为k的数组来存储最小的k个数字,接下来我们从输入的n个数中读取一个数,如果容器还没有满则直接插入容器;若容器已经满了,则我们此时需要将容器中最大的数字和待插入的数字做比较,如果待插入的数值小于容器中的最大值,则需要将容器中的最大值删除,将新值插入,否则不做任何处理。
    我们通过需求分析可以发现,大顶堆可以满足我们的需求,因此我们通过大顶堆来实现我们的容器,其代码如下,时间复杂度为O(nlogk)。
    private final int MAXSIZE = 10 + 1;
    private int currentSize = 1;

    private void heap_insert(int[] array, int value) {

        if (currentSize < MAXSIZE) {
            array[currentSize++] = value;
            if (currentSize == MAXSIZE) {
                for (int i = currentSize / 2; i > 0; i--) {
                    heap_adjust(array, i, currentSize);
                }
            }
        } else {
            int max = array[1];
            if (value < max) {
                array[1] = value;
                heap_adjust(array, 1, currentSize);
            }
        }
    }

    // 堆调整
    private void heap_adjust(int[] array, int s, int len) {
        int temp = array[s];
        for (int i = 2 * s; i < len; i *= 2) {
            if (i < len - 1 && array[i] < array[i + 1])
                i++;
            if (array[i] <= temp)
                break;
            array[s] = array[i];
            s = i;
        }
        array[s] = temp;

    }

我们可以注意到数组的第0个元素并没有使用,因为大顶堆是基于完全二叉树的原理实现,因此角标0不可以存储元素,具体说明可见排序算法文章中的堆排序部分:http://blog.csdn.net/dingpiao190/article/details/72674199

另外补充一点,这个大顶堆的数据结构是我们自己来维护的,对于Java而言,其实可以直接借助于JDK中的TreeSet集合来实现,因为TreeSet是有序的集合,其基于红黑树来实现。同理,对于C++来讲,可以借助set集合实现。Java基于TreeSet实现的代码如下:

private static TreeSet<Integer> topk(int[] array, int n) {

        TreeSet<Integer> set = new TreeSet<Integer>();
        for (int i = 0; i < array.length; i++) {

            int value = array[i];
            if (set.size() < n)
                set.add(value);
            else {
                Iterator<Integer> it = set.descendingIterator();
                int setMax = it.next();
                if (setMax > value ) {
                    it.remove();
                    set.add(value);
                }
            }
        }
        return set;

    }

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

top k算法讲解 的相关文章

  • [新人向]MySQL和Navicat下载、安装及使用详细教程

    MySQL和Navicat下载和安装及使用详细教程 因为这些软件的安装很多都是纯英文 作为新手安装真的需要摸索好久 包括我自己 所以Pipi酱就把自己的经验分享给大家 MySQL的安装教程 一 下载安装包链接 1 下载MySQL https

随机推荐

  • 广东电信:故障是外力强加导致 警方介入调查

    昨日下午5时50分开始 广东省内电信网络出现故障 省内多个地区均出现网络宽带无法连接 浏览器无法打开网页等现象 消息发布后 不少外省网友跟帖也表示网络塞车 涉及湖北 湖南 广西 海南和上海等省市区 广东本地不少市民在拨打电信 10000 热
  • 第4章(下)基于前馈神经网络完成鸢尾花分类任务

    文章目录 4 5 实践 基于前馈神经网络完成鸢尾花分类 4 5 1 小批量梯度下降法 4 5 1 1 数据分组 4 5 2 数据处理 4 5 2 2 用DataLoader进行封装 4 5 3 模型构建 4 5 4 完善Runner类 4
  • mac 安装打包工具fastlane

    mark ruby gem工具升级相关 查看gem版本 gem version 查看vgem 版本 ruby vgem version ruby版本管理工具更新 gem update system 查看ruby版本 ruby v 查看rub
  • vue3的provide

    provide 和 inject 通常成对一起使用 使一个祖先组件作为其后代组件的依赖注入方 无论这个组件的层级有多深都可以注入成功 只要他们处于同一条组件链上 provide 提供一个值 可以被后代组件注入 inject 注入一个由祖先组
  • fib

    费氏阵列并不是使用递回来解一定不好 事实上单就执行次数上来说 有一个使用递回的演算法可以更快 big o 是以2为底的Logn值 但是要使用到乘法运算 所以实际上要看所使用的机器而定 Procedure FIB N IF n lt 1 RE
  • redis 击穿、穿透、雪崩

    缓存击穿 单个key在缓存中查询不到 转而去查数据库 如果数据量大 或 并发高 则可能会对数据库造成巨大压力 从而导致数据库崩溃 注意 这里的是 单个key 发生高并发 场景 刚好某个时间点 某单个key缓存过期了 恰好这个时间点 针对于这
  • 笔记本重装系统后蓝屏记录

    大白菜制作U盘启动盘 刚好公司有个纯净版的系统iso镜像 然而重装系统的时候手贱勾选了USB3 0的驱动 导致安装后出现蓝屏 原因是驱动与设备不兼容导致 还以为是系统的问题 原先都是安装雨木林风的ghost版本 到没遇到这个问题 今天可把我
  • MySQL笔记(1)安装MySQL5.6

    知识来源 PHP与MySQL程序设计 第四版 yum 安装MySQL 禁用selinux sudo sed i s SELINUX enforcing SELINUX disabled etc selinux config 重启服务器后 查
  • saltstack的配置管理与数据系统

    saltstack的配置管理与数据系统 1 YAML语言 1 1 YAML的基本规则 2 使用SaltStack配置一个apache实例 2 1 在Master上部署sls配置文件并执行 3 使用SaltStack在minion02上配置n
  • 一小时学会js-b站笔记

    Javascript中代理的代码示例 Proxy 代理 const obj name 吴昊 age 18 const container document getElementById const p1 new Proxy obj get
  • 启动roketMq 错误: 找不到或无法加载主类 Files\Java\jdk1.8.0_291\jre\lib\ext

    安装roketMQ出现报错 检查mq的环境变量配置无误 最后锁定到Java环境变量 测试java javac java version都正常 那就蛋疼了 最后一看jdk是安装在Program Files目录下的 问题就出在这里 卸载JDK
  • 在Linux系统里使用Apache搭建Web网站服务器

    使用Apache搭建Web网站服务器 Apache服务 Apache被研发于1995年 是纯开源软件 用于HTTP协议提供web浏览服务 可在Unix Linux Windows上运行 1 配置静态IP vim etc sysconfig
  • 多线程(同步)

    一 为什么要使用线程同步 1 什么是同步 同步就是协同步调 按预定的先后次序进行运行 如 你用完 其它人才能用 同 字从字面上容易理解为一起 其实不是 同 字应是指协同 协助 互相配合 当有一个线程在对内存进行操作时 其他线程都不可以对这个
  • Java学习笔记9——封装

    封装 什么是封装 封装的原则 private关键字的使用 this关键字 this的内存原理 什么是封装 封装是面向对象的三大特征之一 封装 继承 多态 是面向对象编程语言对客观世界的模拟 客观世界的成员变量都是隐藏在对象内部的 外部无法直
  • python: openpyxl写入文件打开后显示文件损坏

    最近在将字典数据写入excel时 运用了openpyxl 点击运行 代码运行正常 但是跑了一晚上数据 打开文件时 居然显示 部分内容有问题 文件已损坏 经过多次测试 上网搜索无结果后 更改代码中的wb active为wb ws Sheet1
  • ESP32引脚参考

    原文链接 ESP32引脚参考 您应该使用哪个GPIO引脚 360doc个人图书馆 总结的相当全面 ESP32简单易懂的GPIO使用注意事项 首先上图 GPIO建议列表 特别的在硬件上要注意使用外接模块时不能将GPIO12拉高 否则将导致ES
  • 依托 axios 实现全局请求防抖

    更新 该方法已过时 此 API 自 v0 22 0 起已弃用 传送门 新的代替方案是 AbortController 并且 前端取消请求无法真实取消 原因在于请求发送到服务器后服务器或许已经做了处理 但是前端只是关闭了返回通道 可是实际上服
  • wr720n刷成网络打印_OPENWRT for TP-LINK TL-WR720N 4M-8M固件,含NAS、3G、Printer,支持3070和8187网卡 20120906 - V2EX...

    还记得好久以前很多朋友团购的WR720N吗 一直等着OPENWRT出patch好让703N的固件能支持720N的硬件开关 很遗憾到现在还没有 今天看到antclan修改的固件 觉得基本上可以刷了 转贴来自 http www right co
  • 基于javaweb+mysql的情缘图书馆管理系统(java+SSM+Tomcat+Maven+mysql)

    基于SSM的情缘图书馆管理系统 SSM框架 适合java初学者 主要功能包括 图书编目管理 图书编目 编目维护 图书信息管理 图书录入 图书信息 图书借阅管理 借阅图书 借阅信息 归还 续借 读者管理 办证 读者信息 读者类别 证件操作 系
  • top k算法讲解

    在实际工作中 我们时常会有寻找长度为n的数组中 排在前k的元素 对于top k的问题 最暴力的处理方式就是直接对数组进行排序 然后再去截取前k个数字 从而达到自己的目的 这种算法的实现复杂度为O nlogn 其实有O n 的算法或者是O n