区别：LZ77、LZ4、LZ4HC（压缩算法）？

2024-05-14

我了解LZ77和LZ78算法。我读过有关LZ4的文章here http://www.brutaldeluxe.fr/products/crossdevtools/lz4/index.html and here http://fastcompression.blogspot.co.uk/2011/05/lz4-explained.html并发现其代码 http://code.google.com/p/lz4/source/browse/trunk/lz4hc.h?r=113.

这些链接描述了 LZ4 块格式。但如果有人可以解释（或引导我找到一些解释资源），那就太好了：

LZ4与LZ77有何不同？
LZ4HC 与 LZ4 有何不同？
是什么想法使得LZ4HC算法如此之快？

LZ4 https://github.com/Cyan4973/lz4专为快速压缩而设计，每核每秒数百 MB。它适合需要非常便宜的压缩的应用程序：例如，您试图使网络或磁盘格式更紧凑，但无法在压缩上花费大量 CPU 时间。例如，在一个家庭中，snappy https://github.com/google/snappy/ and LZO http://en.wikipedia.org/wiki/Lempel%E2%80%93Ziv%E2%80%93Oberhumer.

自然的比较点是zlib的放气算法 https://en.wikipedia.org/wiki/DEFLATE，它使用LZ77 https://en.wikipedia.org/wiki/LZ77_and_LZ78 and 霍夫曼编码 https://en.wikipedia.org/wiki/Huffman_coding并用于 gzip、.ZIP 和 .PNG 格式以及许多其他地方。

这些快速压缩机的不同之处在于：

他们使用更快的重复检测代码（通常是一个简单的哈希表 http://en.wikipedia.org/wiki/Hash_table没有碰撞检测），但不会搜索多个可能的匹配以找到最佳匹配（这将花费时间但会导致更高的压缩），并且无法找到一些短匹配。
他们只是尝试压缩输入中的重复——他们不会尝试利用某些字节比其他字节更有可能的优势outside的重复。
与2密切相关，它们一次生成输出字节，而不是位；允许字节的一部分代码有时会允许更多的压缩，但需要更多的 CPU 工作（通常是位移、屏蔽和分支）来编码和解码。
为了在现代 CPU 上快速实现它们，我们进行了大量的实际工作。

相比之下，DEFLATE 的压缩效果更好，但压缩和解压缩速度较慢，而高压缩算法如LZMA http://en.wikipedia.org/wiki/Lempel%E2%80%93Ziv%E2%80%93Markov_chain_algorithm, bzip2 http://en.wikipedia.org/wiki/Bzip2, LZHAM https://github.com/richgel999/lzham_codec, or brotli https://github.com/google/brotli往往需要更多时间（尽管Brotli 的更快设置可以与 zlib 竞争 https://quixdb.github.io/squash-benchmark/）。高压缩算法之间存在很多差异，但总的来说，它们倾向于捕获较长距离的冗余，更多地利用上下文来确定可能的字节，并使用更紧凑但更慢的方式以位表示结果。

LZ4HC 是 LZ4 的一种“高压缩”变体，我相信它改变了上面的第 1 点——压缩器在当前和过去的数据之间找到多个匹配，并寻找最佳匹配以确保输出较小。这改善了压缩ratio但降低了压缩率speed与LZ4相比。不过，解压速度并没有受到影响，因此，如果您压缩一次并解压多次，并且主要想要极其便宜的解压，那么 LZ4HC 是有意义的。

请注意，即使是快速压缩器也可能不允许一个核心饱和大量带宽，例如 SSD 或快速数据中心内链接提供的带宽。甚至还有速度更快、压缩比更低的压缩机，有时用于暂时将数据打包到RAM中 https://en.wikipedia.org/wiki/Virtual_memory_compression. WKdm https://github.com/berkus/wkdm and Density https://github.com/centaurean/density有两个这样的压缩机；他们共有的一个特点是作用于 4 字节机器字一次输入而不是单个字节。有时专用硬件可以实现非常快速的压缩，例如三星 Exynos 芯片 https://github.com/XileForce/Vindicator-S6/blob/master/drivers/memory/exynos-mcomp.c or 英特尔 QuickAssist 技术 http://www.intel.com/content/www/us/en/ethernet-products/gigabit-server-adapters/quickassist-adapter-for-servers.html.

如果您对比 LZ4 压缩更多但 CPU 时间比 deflate 更少的压缩感兴趣，LZ4 (Yann Collet) 的作者编写了一个名为的库Zstd https://github.com/facebook/zstd——这是一个Facebook 在其稳定版本上发布的博客文章 https://code.facebook.com/posts/1658392934479273/smaller-and-faster-data-compression-with-zstandard/, 背景有限状态机 http://fastcompression.blogspot.com/2013/12/finite-state-entropy-new-breed-of.html用于紧凑地编码重复信息，以及RFC 中的详细描述 https://datatracker.ietf.org/doc/html/draft-kucherawy-dispatch-zstd. Its 快速模式 https://github.com/facebook/zstd/releases/tag/v1.3.4可以在一些类似 LZ4 的用例中工作。（此外，苹果开发了lzfse https://github.com/lzfse/lzfse基于类似的原则，谷歌开发了gipfeli https://github.com/google/gipfeli作为“中型”包装机。两者似乎在外界都没有多大用处。）此外，有几个项目旨在提供更快/更轻的 DEFLATE：SLZ http://1wt.eu/projects/libslz/, CloudFlare 和 Intel 对 zlib 的补丁 http://www.snellman.net/blog/archive/2015-06-05-updated-zlib-benchmarks/。（也曾有过快速工作减压在大型现代 CPU 核心上 https://dougallj.wordpress.com/2022/08/20/faster-zlib-deflate-decompression-on-the-apple-m1-and-x86/.)

与最快的压缩机相比，那些“中型”封隔器增加了一种形式熵编码，也就是说，它们利用了某些字节比其他字节更常见的优势，并且（实际上）在输出中为更常见的字节值放置了更少的位。

如果您要压缩一个长流，并且使用更多内核来加快速度可能会有所帮助，则可以通过 gzip 进行并行压缩pigz http://zlib.net/pigz/和 zstd 通过命令行工具-T选项（以及在库中）。（有various http://conorstokes.github.io/compression/2016/02/15/an-LZ-codec-designed-for-SSE-decompression实验性的packers http://mattmahoney.net/dc/那里也有，但它们的存在更多是为了突破速度或密度的界限，而不是为了今天的使用。）

因此，一般来说，您可以为不同的应用程序提供一系列相当不错的替代压缩器：

对于非常快的压缩：LZ4、zstd 的最低设置，甚至较弱的内存压缩器
对于平衡压缩：DEFLATE 是旧标准；中低设置下的 Zstd 和 brotli 是新用途的良好替代品
对于高压缩：brotli 或 Zstd 高设置
对于非常高的压缩（例如压缩一次并提供多次的静态内容）：brotli

当您从 LZ4 到 DEFLATE 到 brotli 时，您需要付出更多的努力来预测和编码数据，并以一定的速度为代价获得更多的压缩。

顺便说一句，像 brotli 和 zstd 这样的算法通常可以胜过 gzip——在给定速度下压缩得更好，或者更快地获得相同的压缩——但这实际上并不是因为 zlib 做了任何事情wrong。主要秘密可能是较新的算法可以使用更多内存：zlib 可以追溯到 1995 年（DEFLATE 可以追溯到 1995 年）1993 https://en.wikipedia.org/wiki/PKZIP#PKZIP）。那时候的内存cost https://jcmit.net/memoryprice.htm> 是现在的 3,000 倍，因此只保留 32KB 的历史记录是有意义的。 CPU 随着时间的推移而发生的变化也可能是一个因素：大量算术（如有限状态机中使用的）比以前相对便宜，并且不可预测ifs（分支机构）相对较贵。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

区别：LZ77、LZ4、LZ4HC（压缩算法）？的相关文章

被拒绝：将映像推送到 gitlab 注册表时，请求的资源访问被拒绝

我正在尝试将图像推送到 gitlab 注册表我已经做过很多次了所以我想知道为什么会出现这个错误我使用最新标签构建图像 Successfully tagged registry gitlab com mycompany rgpd api
将 SWRL 与 Jena 和 Pellet 结合使用

我无法找到一些使用 SWRL 和 Jena 的简单代码示例佩莱或者至少使用 SWRL 我研究了 Pellet 文档中的一些示例但没有关于使用 SWRL 的示例网络上的大多数示例都不完整且令人困惑我找到的唯一解决方案是使用 Jess
循环索引依赖于前一个索引

我有一个清单 fruits apple orange blueberry strawberry 如何创建循环以使一个索引依赖于另一个索引 for i in range len fruits for j range len fruits i
GoogleTest 枚举类的测试错误打印

我正在使用 GoogleTest 版本 1 7 0 来测试我的 C 应用程序我有一个枚举定义如下 namespace MyNamespace enum class MyEnum MyEnumValue MyEnumValue2 Googl
删除自动导入的自定义项目模板

我删除了放置在导出模板文件夹中的导出 zip 文件当然它仍然显示在 Visual Studio 的添加新项目对话框中我预料到了这一点但我很难找到模板文件的其他存储位置如何删除自定义模板 Edit 我搜索了以下文件夹以及许多其他
如何在 Laravel 中基于 application/json 标头加载路由

我正在使用application json标头来控制我的控制器在收到请求时的行为我需要在单元测试中的 POST 中包含application json header 我试过了 public function testStore this
Django ManyToManyField 在数据库中的位置/如何表示？

UPDATE 刚刚发现当选择特定专辑时 ManyToManyField 会导致管理界面崩溃我将它们注释掉注释掉所有对其的引用重新运行makemigrations and migrate 现在管理界面又可以工作了这让我离让这个最喜
NestJs + Passport - JWTStrategy 永远不会用 RS256 令牌调用

我正在尝试在 Nestjs 后端实现 RS256 JWT 令牌我按照中提供的示例进行操作Nestjs 文档 https github com nestjs nest tree master sample 19 auth 在我的模块中我注册

随机推荐

如何在Python中独立于语言安装（linux）获取用户桌面路径

我找到了如何找到用户桌面的路径的几个问题和答案但在我看来它们都已失效至少我找到的那些原因是如果用户安装的 Linux 不是英语他或她的桌面很可能位于除 Desktop 例如对于瑞典语我相信它是在 Skrivbord 谁知道
R：使用带有 .Call 和 C/C++ 包装器的 Fortran 子例程而不是 .Fortran 的优点？

我有一个 R 包它使用大量 Fortran 子例程来进行递归线性代数计算的嵌套循环很大程度上依赖于 BLAS 和 LAPACK 例程作为 Fortran 的接口我使用 Fortran功能我刚刚读过乔纳森卡拉汉的博客文章 http
WPF中ViewModel是否应该继承DependencyObject？

我尝试创建一个简单的UserControl在 WPF 中使用 MVVM 现在我需要为UserControl 所以我尝试在中创建依赖属性UserControlViewModel 我不想处于代码隐藏状态为了创建依赖属性UserControlV
指针混乱：c 中的交换方法

include
CodedUI 测试不从 CSV 输入文件读取数据

我在使用编码 UI 测试方法映射 CSV 文件时遇到困难这很可能是一个愚蠢的问题但我似乎找不到解决我的问题的方法至少没有一个有效的方法我已确保将 CSV 文件的属性设置为始终复制我还通过在测试方法上方写入以下行来导入 CSV 文件
如何从 JUnit 测试读取 Maven 属性？

我正在使用 Maven 3 0 3 和 JUnit 4 8 1 在我的 JUnit 测试中如何读取 Maven pom xml 文件中定义的 project artifactId 在我的 pom 中我有
变量值更改时的 PyQt 事件

我有一个变量 t t 0 我想在 t 值发生变化时启动一个事件如何没有 valuechanged connect 属性或任何变量对于全局变量单独使用赋值是不可能的但对于属性来说非常简单只需使用property https doc
DateTime::修改和夏令时切换

Using 日期时间修改 http php net manual en datetime modify php在 DST 边界上添加一个小时会导致它跳过一个小时 e g d new DateTime 2015 11 01 12 00 00
rvm编译安装ruby 2.5.0出错

我正在尝试使用 rvm 安装 ruby 2 5 0 但出现错误我在 Ubuntu 18 16 和现在的 Linux Mint Cinnamon 上尝试过基本上我在运行安装 ruby 的代码之前所做的是打开 GPG 密钥https rv
如何使用 Bourbon Neat Framework 实现移动优先

我一直在使用 bourbon clean 来进行桌面优先布局效果很好不过我想做一个移动优先版本从移动开始然后逐步向上默认网格为 12 列对于移动设备我通常使用 4 列网格我尝试将网格更改为 4 列然后扩展到 12 列但
为什么清除按钮不与 UITextField 中的文本对齐？

我在 UITableViewCell 中有一个 UITextField 由于某种原因清除按钮未与文本字段的文本对齐这是我的文本字段代码 cell selectionStyle UITableViewCellSelectionStyleN
如何测试包含自定义表单控件的组件？

我有一个这样的组件 Component selector app custom form control templateUrl
Jupyter Lab 中未渲染 Plotly Express

以下代码不会在 Jupyter 实验室中呈现 matplotlib widget import plotly express as px import numpy as np import pandas as pd df pd DataFr
使用 Python 2.7 在 Django 1.6 中实现 Chartit - TypeError: 'NoneType' has no attribute __getitem__

我已经在 Django 中成功实现了一些应用程序目前我尝试根据教程实现图表 http chartit shutupandship com docs how to use http chartit shutupandship com doc
在 C# 中打开文本文件

我正在编写一个 Windows 窗体应用程序其中在程序运行时记录一些数据并使用以下代码将其写入临时文件中 string path Path GetTempFileName byte text new UTF8Encoding true
如何覆盖 Ruby Ranges 的 .. 和 ... 运算符以接受 Float::INFINITY？

我想覆盖 and Ruby 中的运算符Range 原因是我正在处理数据库中的无限日期范围如果你拉一个infinty从 Postgres 中取出日期时间你会得到一个Float INFINITY在红宝石中问题是我无法使用Float I
“Eta减少”并不总是在Haskell中举行？

我发现我可以说 LANGUAGE RankNTypes f1 forall b b gt b gt forall c c gt c f1 f id f HLint 告诉我我可以在这里做 Eta 减少但是 f2 forall b b gt
实体框架、dll、excel

我用C 编写了Excel使用的dll 该dll是COM注册的我与 Excel 的连接没有问题该 dll 使用实体框架 5 从 SQL Server 数据库检索数据如果我通过控制台应用程序运行该 dll 则该 dll 工作正常但是当我
jq - 按值排序

我有以下结构 ID XX guid 1 ID YY guid 2 我尝试过运行 jq sort by guid conn json 但是我收到一个错误 Cannot index string with string guid 请您告诉我如何
区别：LZ77、LZ4、LZ4HC（压缩算法）？

我了解LZ77和LZ78算法我读过有关LZ4的文章here http www brutaldeluxe fr products crossdevtools lz4 index html and here http fastcompress

区别：LZ77、LZ4、LZ4HC（压缩算法）？

区别：LZ77、LZ4、LZ4HC（压缩算法）？ 的相关文章

随机推荐

热门标签

区别：LZ77、LZ4、LZ4HC（压缩算法）？的相关文章