无需构建树即可预测霍夫曼压缩比

2024-05-14

我有一个二进制文件，我知道其中每个符号出现的次数。如果我要使用霍夫曼算法压缩它，我需要预测压缩文件的长度。我只对假设的输出长度感兴趣，而不对单个符号的代码感兴趣，因此构建霍夫曼树似乎是多余的。
作为一个例子，我需要得到类似的东西
“包含 4 个 a、5 个 b 和 10 个 c 的 38 位二进制字符串可以压缩到 28 位。”，但文件和字母表大小都大得多。

基本问题是：是否可以在不构建树的情况下完成？

看看贪心算法：http://www.siggraph.org/education/materials/HyperGraph/video/mpeg/mpegfaq/huffman_tutorial.html http://www.siggraph.org/education/materials/HyperGraph/video/mpeg/mpegfaq/huffman_tutorial.html
看来树可以在 n*log(n) 时间内构建，其中 n 是文件中不同符号的数量。这渐进地不错，但需要为树节点分配内存，并且做了很多工作，在我的例子中这些工作都被浪费了。

压缩文件中每个符号的平均位数的下限只不过是熵H = -sum(p(x)*log(p(x)))对于输入中的所有符号 x。P(x) = freq(x)/(filesize)。使用这个compressed length(lower bound) = filesize*H。这是文件压缩大小的下限。但不幸的是，在大多数情况下无法实现最佳熵，因为位是整数而不是分数，因此在实际情况下需要构造哈夫曼树以获得正确的压缩大小。但最佳压缩大小可用于获得可能的压缩量的上限，并决定是否使用霍夫曼。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

无需构建树即可预测霍夫曼压缩比的相关文章

关于逻辑/算法的想法以及如何防止线程写入 Sql Server 中的竞争

我有以下逻辑 public void InQueueTable DataTable Table int incomingRows Table Rows Count if incomingRows gt RowsThreshold async
Diamond-Square 算法的平滑问题

我正在使用菱形方形算法来生成随机地形它工作得很好除了我让这些大圆锥形状要么伸出或伸入地形问题似乎在于时不时会有一个点被设置得太高或太低 Here is a picture of the problem And it can be b
Matlab下降低图像质量

问候我正在尝试找到一种简单的方法来处理图像以便将其质量从 8 位降低到 3 位实现这一目标的最简单方法是什么干杯如果要线性缩放只需将每个像素值除以 255 7 即如果原始图像存储在矩阵 I 中则让低分辨率图像 J I 255
从对列表创建邻接列表类型结构

在 C 中我有 class Pair int val1 int val2 我有一个来自以下来源的配对列表 List
为什么Python中pop()的大O与pop(0)不同[重复]

这个问题在这里已经有答案了他们不应该都是O 1 因为从 Python 列表中的任何位置弹出一个元素涉及销毁该列表并在新的内存位置创建一个元素蟒蛇的list实现使用动态调整大小的 Carray在引擎盖下删除元素usually要求您移动后
整数除法性质

下面的整数算术性质成立吗 m n l m n l 起初我以为我知道答案不成立但现在不确定它适用于所有数字还是仅适用于某些条件即n gt l 该问题涉及计算机算术即q n m q m n 忽略溢出 Case1 assume m kn
查找重叠事件/时间的算法

在处理自定义日历时我不知道如何找到与任何其他时间段重叠的时间段时段从 0 点至 720 点上午 9 点至晚上 9 点每个像素代表一分钟 var events id 1 start 0 end 40 an event from 9 0
使用 unrar 库 - 将文件提取到文件流缓冲区中

我需要的是能够将 rar 文件中的文件提取到流中我正在创建一个测试用例来了解如何使用解压源文件 http www rarlab com rar unrarsrc 3 9 9 tar gz 我已经搜索和修补了一段时间但我不知道如何使用该库
带有元数据的 scipy kdtree

我目前正在寻找一种方法来构建几个 kd 树以快速查询一些 n 维数据但是我对 scipy KD 树算法有一些问题我的数据包括id gt data somedata coordinate x y 我希望能够基于坐标和 k 最近邻居的 i
java中的Anagram算法

我想做字谜算法但是这段代码不起作用我的错在哪里例如 des 和 sed 是字谜但输出不是字谜同时我必须使用字符串方法不是数组 public static boolean isAnagram String s1 String s2
打印从 1 到 100 的质数

此 C 代码打印出以下素数 3 5 7 11 13 17 19 23 29 31 37 41 43 47 53 59 61 67 71 73 79 83 89 97 但我不认为这就是我的书所希望的写作方式它提到了一些关于数字的平方根的内容
读取4个点的坐标。他们做一个正方形吗？

我计算点之间的距离如果距离相等则点构成一个正方形否则不仅当我按以下顺序读取坐标 A x y B x y C x y D x y 或相反时我的代码才有效但是如果我这样读例如 A x y B x y D x y C x y 它将不
PHP 可以解压缩使用 .NET GZipStream 类压缩的文件吗？

我有一个 C 应用程序它与基于 PHP 的 SOAP Web 服务进行通信以进行更新和许可我现在正在开发一个反馈系统供用户通过软件自动提交错误和跟踪日志根据我之前发布的问题我认为 Web 服务将是实现此目的的最佳方法最有可能以最
如何从列中创建对称矩阵？

例如我想转动以下列 90 175 600 650 655 660 代入矩阵 90 175 600 650 655 660 175 600 650 655 660 655 600 650 655 660 655 650 650 655 66
插入排序 - 如何接受输入并打印排序后的数组

我试图做一个插入排序程序它接受任何数据类型 Int Double String 然后打印排序后的数组我知道我的代码可以工作但我无法找出真正的问题 import java util public class MyInsertionSor
找到将一个数字转换为另一个数字的最小移动次数的算法

假设我们有两个正整数 a 和 b 每次移动我们都可以将 a 除以 2 但前提是 a 是偶数将 a 乘以 2 或者将 a 加 1 将a变为b需要多少步找到一个直接公式或一种有效的算法即以对数时间运行的算法我取得的一些进展我们可以把它
我该如何解决？ KnapSack - 值完全相同，但每个对象都有三个权重

我在解决我的练习时遇到问题我读到了动态规划和算法我认为我的练习是特定背包问题我用暴力法解决了它但我无法用动态规划解决它我有一艘重300吨的船背包有些晶体本身含有 3 种物质 X Y Z 每种物质都有重量并且所有晶体都具有相
为什么对本地列表求和比用“GHC -O2”对教会编码列表求和慢？

为了测试教会编码的列表如何针对用户定义的列表和本机列表执行我准备了 3 个基准测试用户定义的列表 data List a Cons a List a Nil deriving Show lenumTil n go n Nil where
数字总和直到作为输入给出的数字

如果给出一个数字作为输入则找到该数字之前所有数字的总和例如输入 11 则答案为 1 2 9 1 0 1 1 蛮力方法是计算所有小于某个数字的数字的数字之和我已经实现了该方法我想知道是否有其他方法可以在不实际计算每个数字的数字之和的情
Java中获取集合的幂集

的幂集为 1 2 3 is 2 3 2 3 1 2 1 3 1 2 3 1 假设我有一个Set在爪哇中 Set

随机推荐

Jetpack Compose：制作全屏（绝对定位）组件

我怎样才能在全屏渲染树的深处制作一个可组合的类似于Dialog可组合作品例如当用户单击图像时它会显示该图像的全屏预览而无需更改当前路线我可以用 CSS 来做到这一点position absolute or position fi
适用于 KDE 和 Gnome 的 Gui [重复]

这个问题在这里已经有答案了我想为一个现在是 CLI 的应用程序编写一个 gui 它需要在 KDE 和 Gnome DE 中看起来不错充分利用用户的外观设置如果我选择 Qt 或 GTK 我能够做到这一点吗它们与两个 DE 集成良好吗
分组和计数以获得接近值

我想计算每country的次数status is open以及次数status is closed 然后计算closerate per country Data customer lt c 1 2 3 4 5 6 7 8 9 country
使用 Windows 任务计划程序安排 [Virtualenv 相关] Python 脚本

I want to schedule a python script to start at 3AM and break at 5PM every weekday However the problem arises when I need
给定两个日期，在 PHP 中查找工作日数的最佳方法是什么？

标题几乎是不言自明的给定两个日期使用 PHP 查找工作日数的最佳方法是什么工作日为周一至周五例如我如何知道中间有 10 个工作日31 08 2008 and 13 09 2008 datefrom strtotime datefr
无法验证 Spring Security 中 url 模式的角色

我正在使用 spring security 3 1 7 RELEASE 和 spring 3 2 13 RELEASE 我的 spring security xml 中有如下条目
在 Tensorflow 对象检测 API 中绘制验证损失

我正在使用 Tensorflow 对象检测 API 来检测和定位图像中的一类对象为了这些目的我使用预先训练的faster rcnn resnet50 coco 2018 01 28 model 我想在训练模型后检测拟合不足过度拟合我
使用@Transactional注解批量插入

在我的 Spring 应用程序中我想一次性在数据库中插入近 1500 条记录我在后端使用 Spring 4 X 和普通休眠在我的服务层中我使用 Transactional 注释现在在某个时间点之后插入记录时我遇到内存不足错误
Microsoft.EntityFrameworkCore.EntityFrameworkQueryableExtensions.ForEachAsync() 出现意外行为

以下是重现的步骤以下程序使用 Net Core 控制台应用程序和 EF Core 将 10 000 行从一个 SQL 表复制到另一个 SQL 表该程序分 100 批插入记录并且这很重要它为每次插入创建一个新的 DbContext
如何在 HTML 表格上使用分页？

我正在尝试使用这个分页library http flaviusmatis github io simplePagination js 在我的 HTML 表格页面特别是浅色主题中但不知何故我无法理解如何在我的 HTML 页面中以这种方
用于传输命名参数和正文的云端点资源属性不起作用

我正在尝试通过gapi client rpc调用实现对谷歌云端点的调用如文档中所述和Google Cloud Endpoints 使用 JS 客户端进行调用传递参数和 JSON 正文 https stackoverflow com q
提交表单时获取查询字符串值...MVC3

在我的 MVC3 应用程序中如果我在 url 中输入查询字符串值并按 Enter 键我可以获得输入的值 localhost 34556 db test 我将触发的默认操作 public ActionResult Index string
如果一个多维数组中的子数组与另一个多维数组不同，则覆盖该子数组

我坚持这个问题真的不知道如何解决我有两个多维数组需要将第二个数组中的每个 entry id 与第一个数组进行匹配然后需要检查第二个数组中的每个 file no 是否在数据库第一个数组中并且 status 是否与第一个数组匹配
Mysql获取特定表的最后一个id

我必须从特定的插入表中获取最后的插入 ID 可以说我有这个代码 INSERT INTO blahblah test1 test 2 VALUES test1 test2 INSERT INTO blahblah2 test1 test 2
GoogleDrive + Alamofire：上传具有属性的文件

我正在尝试通过 Swift 2 Alamofire 将文件参数上传到 Google Drive 在下面的代码中我更改了以下行 https www googleapis com upload drive v3 files uploadTy
Mongo按动态字段排序

所以我传入了一个动态变量它是我想要排序的字段的名称假设下面的 sortVariable 可能等于 price createdAt name 等这不起作用我该怎么做 function findStuff sortVariable va
SQL Server 不使用索引将日期时间与非空进行比较

我有一个与其他任何表都不相关的简单表它有一个非 PK 列它是一个日期我已经为该列创建了一个非聚集索引如果我提出这个查询 select from table where datecolumn is not null 但如果我删除 no
Android 认为我没有关闭数据库！为什么？

我有一个 SQLiteDatabase 数据成员我在 onCreate 中初始化它并在 onPause onStop 和 onDestroy 中调用 close 它在 onResume 中重新初始化它似乎运行得很好但当我查看调试器时
在 Scala 中将元素追加到列表末尾

我无法添加 type 元素T到一个列表中List T 我尝试过myList myElement但它似乎创建了一个奇怪的对象并访问myList last始终返回放入列表中的第一个元素我怎么解决这个问题 List 1 2 3 4 Result
无需构建树即可预测霍夫曼压缩比

我有一个二进制文件我知道其中每个符号出现的次数如果我要使用霍夫曼算法压缩它我需要预测压缩文件的长度我只对假设的输出长度感兴趣而不对单个符号的代码感兴趣因此构建霍夫曼树似乎是多余的作为一个例子我需要得到类似的东西包含 4 个

无需构建树即可预测霍夫曼压缩比

无需构建树即可预测霍夫曼压缩比 的相关文章

随机推荐

热门标签

无需构建树即可预测霍夫曼压缩比的相关文章