压缩很多小字符串的算法？

2024-05-22

我正在寻找一种压缩小 ASCII 字符串的算法。它们包含大量字母，但也可以包含数字和很少的特殊字符。它们很小，平均约为 50-100 字节，最多 250 个字节。

例子：

Android show EditText.setError() above the EditText and not below it
ImageView CENTER_CROP dont work
Prevent an app to show on recent application list on android kitkat 4.4.2
Image can't save validable in android
Android 4.4 SMS - Not receiving sentIntents
Imported android-map-extensions version 2.0 now my R.java file is missing
GCM registering but not receiving messages on pre 4.0.4. devices

我想要一个一个地压缩标题，而不是很多标题在一起，而且我不太关心CPU和内存的使用情况。

您可以使用霍夫曼编码 https://en.wikipedia.org/wiki/Huffman_coding在您要压缩的所有文本中使用共享的霍夫曼树。

虽然您通常为每个要单独压缩的字符串构建一个霍夫曼树，但这将需要大量的存储开销，这里应该避免这种情况。这也是在您的情况下使用标准压缩方案时的主要问题：大多数方案都有一些开销，这会降低非常短字符串的压缩效率。其中一些没有（大）开销，但通常效率较低。

在构建稍后用于压缩和解压缩的霍夫曼树时，通常使用将被压缩的文本来决定哪个字符用哪些位进行编码。由于在您的情况下，要压缩的文本似乎事先是未知的，因此您需要一些“伪”文本来构建树，可能来自人类语言词典或以前用户数据的一些经验。

然后构造霍夫曼树并将其存储在您的应用程序中；要么将其硬编码到二进制文件中，要么以文件的形式提供。然后您可以使用该树压缩和解压缩任何文本。每当您决定更改树时，因为您对压缩文本有了更好的体验，压缩字符串表示也会发生变化。引入版本控制并将树版本与压缩的每个字符串存储在一起可能是个好主意。

您可能会想到的另一个改进是使用多字符霍夫曼编码。您可以找到频繁的音节或单词并将它们放入树中，而不是逐个字符地压缩文本；那么它们在压缩字符串中需要的位数甚至更少。然而，这需要更复杂的压缩算法，但它可能是值得的。

To process a string of bits in the compression and decompression routine in C++^(*), I recommend either boost::dynamic_bitset http://www.boost.org/doc/libs/1_55_0/libs/dynamic_bitset/dynamic_bitset.html or std::vector<bool> http://en.cppreference.com/w/cpp/container/vector_bool. Both internally pack multiple bits into bytes.

^(*)_{The question once had the c++ /questions/tagged/c%2b%2b tag, so OP obviously wanted to implement it in C++. But as the general problem is not specific to a programming language, the tag was removed. But I still kept the C++-specific part of the answer.}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Algorithm

压缩很多小字符串的算法？的相关文章

快速排序应用程序中这些交换代码行的目的是什么？

我试图理解快速排序的实现或应用程序以找到第 k 个最小元素这是我试图理解的代码 public int quicksort int a int start int end int k if start lt end int pivot pa
用于计算三角函数、对数或类似函数的算法。仅限加减法

我正在修复 Ascota 170 古董机械可编程计算机它已经开始工作了现在我正在寻找一种算法来展示其功能例如计算三角或对数表或类似的东西不幸的是从数学运算来看计算机只能进行整数的加减法从 1E12到1E12的55个寄存器甚
如何检查无向图是否有奇数环

我试图找到一个 O V E 时间算法来检查是否已连接无向图有或没有奇数环我正在考虑对图进行广度优先搜索并尝试将顶点标记为黑色和白色以便没有两个标记为相同颜色的顶点相邻是否有任何已知的更简洁的算法可以在线性时间内解决这个问题你的方
序列和与 GCD

大约一个月前我在编程挑战中遇到了这个问题但社论尚未发布所以我在这里问有一个大小为 N 的数组 A 求 A 的 K 个长度子序列的总和 GCD Example 如果 A 1 2 3 且 K 2 1 2 3 总和 1 GCD 3 1 3
从原点开始在离散 2D 网格上迭代向外螺旋的算法

例如这是预期螺旋的形状以及迭代的每个步骤 y 16 15 14 13 12 17 4 3 2 11 18 5 0 1 10 x 19 6 7 8 9 20 21 22 23 24 其中线条是 x 轴和 y 轴以下是算法每次迭代返回
自动跟踪算法

我正在尝试写一个simple跟踪例程来跟踪电影中的某些点本质上我有一系列 100 帧长的电影在黑暗背景上显示一些亮点我每帧有大约 100 150 个点它们在电影的过程中移动我想跟踪它们所以我正在寻找一些有效的但可能不会过度实施
在任意时间范围内找到最佳日/月/年间隔的算法？

如果您有时间表请说 March 19 2009 July 15 2011 是否有一种算法可以将该时间范围分解为 March 19 2009 March 31 2009 complete days April 1 2009 December
“包含字符串”的快速索引

在我的应用程序中我有多达数百万个短字符串大部分短于 32 个字符我想实现一个带有附加列表的搜索框该列表仅包含包含在搜索框中输入的整个字符串的元素如何预先建立索引来快速找到此类字符串所有排序的 STL 容器都会检查整个字符串对于
什么是“朴素”算法，什么是“封闭式”解决方案？

我有一些关于描述算法时使用的术语语义的问题首先朴素算法是什么意思这与给定问题的其他解决方案有何不同解决方案还可以采取哪些其他形式其次我听到很多人提到封闭式解决方案我也不知道这意味着什么但在尝试解决递归关系时经常会出现
坐标算法 - 绕中心旋转

通过查看这张图片我想您会很好地理解我的问题图片已删除网址不再有效现在返回广告所以基本上我想要一个函数它接受一个对象作为参数并根据我之前添加的对象数量为该对象提供正确的坐标假设我将所有这些对象添加到一个数组中 objectAr
在树结构的 Big-O 表示法中：为什么有些来源引用 O(logN)，有些来源引用 O(h)？

在研究遍历二叉搜索树的任何算法的复杂性时我看到两种不同的方式来表达同一件事版本 1 最坏情况下的遍历算法对树的每个高度进行一次比较因此复杂度是O h 版本 2 最坏情况下的遍历算法对树的每个高度进行一次比较因此复杂度是O logN
使用什么算法来确定使系统达到“零”状态所需的最小操作数？

这是一种更通用的问题不是特定于语言的有关要使用的想法和算法的更多信息系统如下它登记朋友群体之间的小额贷款 Alice and Bill要去吃午饭比尔的卡坏了所以爱丽丝支付了他的餐费 10 美元第二天Bill and Charl
JavaScript 中的埃拉托斯特尼筛法对大量数据无限运行

我一直在尝试写埃拉托斯特尼筛法 http en wikipedia org wiki Sieve of EratosthenesJavaScript 中的算法基本上我只是按照以下步骤操作创建从 2 到 n 1 的连续整数列表令第一个素
删除近排序数组中未排序/离群元素

给定一个像这样的数组 15 14 12 3 10 4 2 1 我如何确定哪些元素乱序并删除它们在本例中为数字 3 我不想对列表进行排序而是检测异常值并将其删除另一个例子 13 12 4 9 8 6 7 3 2 我希望能够删除 4 和
无法理解Peterson算法的正确性

我在这里讨论彼得森算法的一个场景 flag 0 0 flag 1 0 turn P0 flag 0 1 turn 1 while flag 1 1 turn 1 busy wait
数组所有可能的组合

我有一个字符串数组 ted williams golden voice radio 我希望这些关键字的所有可能组合采用以下形式 ted williams golden voice radio ted williams ted golden
对 Java 中 *any* 类的所有实例进行全排序

我不确定以下代码是否能确保 Comparator 的 Javadoc 中给出的所有条件 class TotalOrder
从二叉堆中查找第 k 个最小元素的 O(klogk) 时间算法

我们有一个 n 节点二叉堆其中包含n不同的项目根部的最小项目为一个k lt n 发现O klogk 时间算法选择kth堆中的最小元素 O klogn 很明显但无法找出O klogk 一也许我们可以使用第二个堆但不确定好吧你的
在 Python 中从 Excel 复制 YEARFRAC() 函数

因此我使用 python 来自动执行一些必须在 Excel 中执行的重复任务我需要做的计算之一需要使用yearfrac 这在Python中被复制了吗 I found this https lists oasis open org arc
添加边后更新最大流量

考虑我们有一个网络流量并使用 Edmond Karp 算法我们已经拥有网络上的最大流量现在如果我们向网络添加任意边具有一定容量更新最大流量的最佳方法是什么我正在考虑更新关于新边缘的残差网络并再次寻找增强路径直到找到新的最大

随机推荐

解码来自 S60 设备的 WBXML SyncML 消息

我正在尝试解码来自诺基亚 N95 的 WBXML 编码的 SyncML 消息我的第一次尝试是使用 python pywbxml 模块它包装了对 libwbxml 的调用用此方法解码消息会得到许多标签以及标签内的一大块二进制文件我
.NET 中应用程序域的常见用途和最佳实践？

关于何时在应用程序中创建新的应用程序域有哪些准则和最佳实践另外有哪些常见用途以及如何在应用程序中使用多个应用程序域的示例我见过的最常见的场景是能够通过与主程序不同的安全模型提供可扩展性在单独的 AppDomain 中加载插件可以实
Python：像石英一样的事件调度程序[关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
如何使用谷歌地图检测一个点是否在多边形内部？

我想检测到google maps LatLng是在一个里面google maps Polygon 我怎样才能做到这一点 Cheers 你可以使用这个谷歌地图V3 google maps geometry poly containsLocat
MySQL，连接两列

MySQL 表中有两列 SUBJECT and YEAR 我想生成一个字母数字唯一编号其中包含主题和年份的串联数据我怎样才能做到这一点是否可以使用像这样的简单运算符您可以使用CONCAT http dev mysql com doc
HTML 选择框，从 servlet 中选择数据

再会我在 html 中的选择框上遇到问题我位于简单 CRUD 项目的编辑部分在用户可以编辑之前将首先显示所选数据然后我通过 servlet 在数据库中检索它现在我希望我检索的数据成为我的选择框中选定的数据默认 product
ASP.NET MVC4 与 Twitter Bootstrap 捆绑

我正在尝试将 MVC 4 中的新捆绑功能与 Twitter bootstrap 结合使用在我看来 css 中的字形 png 文件的路径在某种程度上被搞乱了这是我的代码 bundles Add new StyleBundle bundle
GpsStatusListener：尽管状态为 GpsStatus.GPS_EVENT_FIRST_FIX，但修复中未使用卫星

我向我的位置管理器添加了一个 GPS 状态侦听器以便查看何时获得第一个修复当我收到 GPS EVENT FIRST FIX 时我会循环遍历所有卫星但为什么修复中没有使用它们 usedInFix 我的日志对所有卫星都显示错误 fin
任何 JavaScript 代码都是有效的 TypeScript 代码吗？

目前我已经开始学习TypeScript 从我研究过的文档来看TypeScript 我看到一些纯的样品JavaScript代码可以编译为TypeScript code 我的问题是 TypeScript 语言的设计方式是否使任何 JavaScr
case 语句中检测到无法访问的代码

我有一个代码 protected override bool ProcessCmdKey ref Message msg Keys keyData switch keyData case Keys Alt Keys D1 if this c
Android 原生 AAssetManager 的文件层次结构

Issue 我想知道如何从本机代码创建 Android 中资产文件夹的文件层次结构我在用着AAssetManager openDir but AAssetDir getNextFileName不返回任何目录名称因此基本上我无法深入了解层
用等号完成命令选项

我正在尝试为可能需要表单上的长选项的命令编写一个 Bash 完成脚本 option or param value 如果用户已经在命令行上输入了一个选项则该选项应从完成列表中排除假设仅在命令行上指定一次给定选项才有意义这是第一次尝试 m
MongoDB C# 驱动程序检查身份验证状态和角色

这是我使用 MongoDB 身份验证机制登录 MongoDB 的代码 try var credential MongoCredential CreateMongoCRCredential test admin 123456 var sett
当我尝试在 Azure 上部署无框架静态 Web 应用程序时，为什么会从 GitHub Actions 收到生成错误？

我有一个简单的静态网站我尝试使用 GitHub Actions 将其部署为 Azure 静态 Web 应用程序无框架我的目录结构是 github workflows css img js index html 当我推送到 GitHub
错误：grid.mongo.GridStore不是构造函数，使用mongoose、Grid-fs-stream和grid multer存储

我收到以下提到的错误基本配置如下我已经将文件上传到服务器上我想下载它们但出现这些错误我向 api files delete fileId 调用了 POST 请求它应该调用路由并将文件返回给浏览器而不是使用网格相关模块获取错误 M
React：未捕获的引用错误：未定义需求

我正在阅读 React 教程 http facebook github io react docs animation html http facebook github io react docs animation html 并且我无法
msal.js 访问令牌中的自定义声明

我使用 msal js 保护了我的 Angular 7 应用程序我创建了一个自定义策略该策略返回 id token 和 access token 中的自定义声明类型为了实现这一目标我一直在遵循本教程 https learn micr
模板类包装任意类型/非类型模板类

假设我有一个模板类base和一个班级wrapper其中包含一个实例化成员base 我想定义班级wrapper这样它依赖于模板参数包该参数包只是传递给实例化成员base 例如考虑下面的代码它工作得很好 include
PDO获取最后插入的ID

我有一个查询我想获取插入的最后一个 ID 字段ID是主键并且自动递增我知道我必须使用这个声明 LAST INSERT ID 该语句适用于如下查询 query INSERT INTO cell place ID VALUES LAST I
压缩很多小字符串的算法？

我正在寻找一种压缩小 ASCII 字符串的算法它们包含大量字母但也可以包含数字和很少的特殊字符它们很小平均约为 50 100 字节最多 250 个字节例子 Android show EditText setError above

压缩很多小字符串的算法？

压缩很多小字符串的算法？ 的相关文章

随机推荐

热门标签

压缩很多小字符串的算法？的相关文章