存储大 DNA 序列最有效的方法是什么?

2024-05-05

我想用 iOS 应用程序打包一个巨大的 DNA 序列(大约 3,000,000,000 个碱基对)。每个碱基对都可以有一个值A, C, T or G。将每个碱基对存储在一个字节中会产生 3 GB 的文件,这太大了。 :)

现在我想将每个碱基对存储在两位中(每个八位字节四个碱基对),这给出了 750 MB 的文件。即使压缩后,750 MB 仍然太多了。

是否有更好的文件格式可以在磁盘上有效存储巨大的碱基对?当我分块阅读时,在内存中不是问题。


我认为您必须每个碱基对使用两位,并按照中所述实现压缩这张纸 http://www.csjournals.com/IJITKM/PDF%203-1/42.pdf.

“DNA 序列……不是随机的;它们包含 重复部分、回文和其他特征 可以用比拼写所需的更少的位数来表示 输出完整的二进制序列...

使用所提出的算法,序列将被压缩 75% 无论重复或不重复的次数 序列中的模式。”

使用基于散列的数据结构进行 DNA 压缩,国际信息技术与知识管理杂志 2010 年 7 月至 12 月,第 2 卷,第 2 期,第 383-386 页。

编辑:有一个名为 GenCompress 的程序声称可以有效压缩 DNA 序列:

http://www1.spms.ntu.edu.sg/~chenxin/GenCompress/ http://www1.spms.ntu.edu.sg/~chenxin/GenCompress/

编辑:另请参阅这个问题 http://biostar.stackexchange.com/questions/8745/which-dna-compression-algorithms-are-actually-used在BioStar上。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

存储大 DNA 序列最有效的方法是什么? 的相关文章

  • 无法将大量 .csv 行数传输到 Excel 2007

    我一直在使用下面的 VBScript 代码片段将每小时的 csv 拖放到 Excel 文件中 它的工作原理就像发条一样 只是最近 csv 突破了 65536 行限制 机器上充斥着兼容性检查器的弹出窗口 然后我意识到它正在使用 Excel 2
  • 使用 pyspark 压缩后目录大小增加

    我使用 pyspark 编写了一个文件压缩器 它的工作方式是将目录的所有内容读取到 Spark 数据帧中 然后执行重新分区操作以减少文件数量 所需文件的数量由以下公式计算 directory size Wanted file size 我面
  • webgl 本身支持哪些文件格式? [关闭]

    Closed 这个问题是无关 help closed questions 目前不接受答案 3D 文件格式有很多替代方案 但我至少需要最小的文件大小 纹理 我已经尝试过一些 但我需要一些建议 我在这里完全有偏见 我是我所建议的项目成员 但你可
  • 如何从 Minecraft 编辑 .mca 文件?

    介绍 我想将我的各个 Minecraft 世界合并成一个世界 这似乎是一个相对容易的壮举 但随着我的研究 它演变成需要制作一个自定义程序 奋斗 我首先移动区域文件并将它们合并到一个区域文件夹中 这似乎是显而易见的解决方案 而且几乎有效 注意
  • 使用很少使用的功能包含图像的 GIF 测试套件

    GIF 图形格式的规范 复数 因为有版本 87a 和 89a 很容易在互联网上找到 对于那些不想谷歌的人 http www w3 org Graphics GIF spec gif87 txt http www w3 org Graphic
  • sqflt8、sqlmoney 和其他本机 SQL 数据类型的二进制存储格式是什么?

    根据文档 可以使用以本机 SQL Server 数据格式格式化的 bcp 导入或导出本机 二进制 数据 例如 SQLFLT8 SQLFLT4 SQLMONEY 或 SQLNUMERIC 有谁知道各种类型的数据格式是什么 或者在哪里可以找到指
  • 读取 PSV(管道分隔)文件或字符串

    我刚刚收到一个数据文件 其扩展名为 psv 经过一番研究后 我不知道如何打开它R 我们可以使用 read table 来读取 psv 文件 read table myfile psv sep header FALSE stringsAsFa
  • CHM 格式替代品?

    Microsoft CHM 格式非常有用 因为它提供了以下功能 带有树视图的目录 指数 索引搜索 基于 HTML 源 但这种格式已经过时并且有很多缺点 存在安全问题 允许执行 JavaScript 代码 不知道新的 HTML 格式 没有记录
  • 文件类型 - 获取原始扩展名

    如果文件已重命名 如何查找文件扩展名 有没有可用的工具 示例 我有一个文件 1 doc 我希望大家知道这是一个我刚刚重命名为 1 txt 的Word文档 但该文件原本是Word文档 如何获得原始文件扩展名 当然可以 这是适合您的 C 代码
  • 过滤文件内容到排序表

    我有一个包含以下代码行的文件 这里的文件显示了一个逐一排序的时间表 at 12 00 the schedule of james version1 is first task eating nothing second task rest
  • 如何解析单个 TFrecord 文件

    读取 tfrecords reader tf TFRecordReader serialized example reader read filename queue features tf parse single example TFR
  • 如何在 zip 文件中找到“中央目录”的开头?

    维基百科对 ZIP 文件格式有很好的描述 http en wikipedia org wiki ZIP file format 但 中央目录 结构让我感到困惑 具体来说是这样的 这种顺序允许一次创建 ZIP 文件 但通常通过首先在最后读取中
  • 有非官方的 Flash .FLA 规范吗?

    是否有非官方规范解释如何对 Flash FLA 文件进行逆向工程 我对创建一个应用程序特别感兴趣 该应用程序可以通过编程方式 自动场景规划 Flash 文档 从其他文件中提取内容 将该内容排列到图层中 而无需打开 Flash IDE 然后动
  • 将文件打包为 ELF 可执行文件

    我目前正在寻找一种将数据添加到已编译的 ELF 可执行文件中的方法 即将文件嵌入到可执行文件中而不需要重新编译它 我可以通过使用轻松做到这一点cat myexe mydata gt myexe with mydata 但我无法访问可执行文件
  • 如何强制使用我的程序打开某种类型的任何文件?

    我有一个构建程序 可以打开 sdf 文件并显示所有表格和数据 如何强制我的计算机中的任何 sdf 文件都将用我的程序打开 提前致谢 你不能 您可以将您的程序与特定的文件扩展名相关联 但不能强制用户使用您的程序打开文件 甚至注册条目也很容易更
  • 以特定格式将数据存储在txt文件中

    我的问题与我之前的问题相关 如何以特定格式显示txt文件中的数据 https stackoverflow com questions 731917 how to display data from txt file in specific
  • 在 Vim 中打开 mac 格式文件的命令行选项

    我有一个 mac 格式的文件 我知道我可以使用 e ff mac更改为正确的文件格式 我想知道的是 当我打开文件时是否可以传递一个命令行选项 以直接使用正确的文件格式打开它 You can使用命令行执行此操作 尝试 vim c set fi
  • 如何使用其内容识别图像文件格式?

    如果图像文件的格式为 png那么它将包含 PNG 位于文件的开头 当读入Text mode 如果图像文件的格式为 bmp那么它将包含BM 位于文件的开头 当读入Text mode 我知道图像格式在文件开头包含一定大小 字节 的文本 数据 这
  • C# 导入 Adob​​e Illustrator (.AI) 文件渲染为位图?

    任何人都知道如何加载 AI 文件 Adobe Illustrator 然后将矢量光栅化 渲染为位图 以便我可以生成例如 是 JPG 还是 PNG 如果可能的话 我想生成缩略图 渲染带有PNG透明背景的大版本 当然 如果您知道 AI 的规格
  • 加载 Jpg/Gif/Bitmap 并转换为 Bitmap

    我必须从 XML 文件加载图像 XML 文件中没有关于图像是否为 JPG GIF BMP 的信息 加载图像后 我需要将其转换为位图 有谁知道如何在不知道实际文件格式的情况下将图像转换为位图 我正在使用 Delphi 2007 2009 谢谢

随机推荐

  • 一次强制执行一个异步可观察对象

    我正在尝试使用以下方法将一些 TPL 异步集成到更大的 Rx 链中Observable FromAsync 就像这个小例子一样 using System using System Reactive Linq using System Thr
  • 如何将新行插入范围并复制公式

    我有一个命名范围 如下所示 覆盖 A2 D3 ITEM PRICE QTY SUBTOTAL 1 10 3 30 1 5 2 10 TOTAL 40 我要使用 VBA 将新行插入到复制公式而不是值的范围中 任何提示 链接都非常感谢 这应该可
  • NSTableView 如何通过代码设置内容模式(基于视图或基于单元格)?

    如题 NSTableView 如何通过代码设置内容模式 基于视图或基于单元格 感谢您的帮助 NSTableView默认为基于单元的 这对于向后兼容性是有意义的 当表视图委托实现时 表视图是基于视图的 tableView viewForTab
  • Pentaho CE 上的地图可视化

    我正在运行 Pentaho ce 5 3 我已经使用星型模式立方体对其进行了测试 并且工作正常 现在我想将 Postgis 中存储的维度 包括空间维度 的 mdx 查询可视化为地图 不知道是否可行 或者我应该为此添加任何插件吗 根据您想要可
  • 如何在 EF4 中获取实体的第一个 EntityKey 名称

    如何获取 Entity Framework 4 实体的第一个 EntityKey 名称 因为我正在构建存储库系统 并且我想通过 Id 获取项目 EF 中的主键是实体的第一个实体键 我正在使用这个代码 public virtual TEnti
  • 当通过音频采样的数据数量超过 AudioRecord 构造函数中设置的“bufferSizeInBytes”时会发生什么?

    public AudioRecord int audioSource int sampleRateInHz int channelConfig int audioFormat int bufferSizeInBytes 这是公共构造函数Au
  • 在 matlab/octave 中将数据集分成两个子集 [关闭]

    Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案 将数据集分为两个子集 例如 训练 和 测试 其中 训练集包含 80 的数据 测试集包含剩余的 20 分裂的意思是生成一个长度等于的逻辑索引
  • 使用 Boost.Asio 进行广播的问题

    如果问题之前已得到解答 我提前表示歉意 但我已经搜索并没有找到任何对我有帮助的东西 正如问题标题所示 我正在尝试将包从服务器广播到一组侦听任何消息的客户端 客户端将计算一秒钟内收到的消息数 服务器端的事情是这样的 class Server
  • 字段名称来自表 1 上的 ID,但来自其他表上的名称

    这是一个 Firebird 数据库 第一张表 联系人 Company ID 职位名称 第二个表 Client id 公司名称 在联系人中 我希望 job title 字段包含 co name client id 和 company id 相
  • 有没有比使用 backtrace() 更便宜的方法来查找调用堆栈的深度?

    我的日志记录代码使用的返回值回溯 http linux die net man 3 backtrace确定当前堆栈深度 出于漂亮的打印目的 但我可以从分析中看到这是一个相当昂贵的调用 我不认为有更便宜的方法吗 请注意 我不关心帧地址 只关心
  • 绘制多个散点图 pandas

    我认为绘制多个图表有很多问题 但不是专门针对这种情况 如下所示 pandas 文档说 重复绘图方法 在单个轴上绘制多个列组 但是 这对于 3 个或更多列组如何工作 例如 如果我们定义第三列 bx df plot kind scatter x
  • 如何更改 PyCharm/Intellij Idea 中的自动完成行为?

    当您从中间重写某些变量 属性或函数而 PyCharm 让旧字符串的其余部分保留在那里时 这是非常烦人的 我的光标位于 s 和 之间 我按了 ctrl space 现在 当我使用建议完成时 它不会删除该函数的其余部分 是否可以让它删除其余的功
  • GSON:如何在保持循环引用的同时防止 StackOverflowError?

    我有一个带有循环引用的结构 出于调试目的 我想转储它 基本上任何格式都可以 但我选择了JSON 由于它可以是任何类 所以我选择了不需要 JAXB 注释的 GSON 但是 GSON 会遇到循环引用并递归直到StackOverflowError
  • CursorAdapter 破坏了 CHOICE_MODE_MULTIPLE 选项

    我有一个ListFragment 我在其中添加一个CursorAdapter to my ListView 并且我希望能够单击几行以使用上下文操作栏 我使用 SherlockActionbar 当我使用一个简单的ArrayAdapter 但
  • 在单元测试中重复的代码是否更容易被容忍?

    前段时间 当我经历并重构它们以使其更加出色时 我破坏了几个单元测试DRY http en wikipedia org wiki Don 27t repeat yourself 每次测试的目的不再明确 测试的可读性和可维护性之间似乎需要权衡
  • 递归 noexcept 规范

    使用 g 4 9 和 clang 3 4 进行测试 为什么此代码无法编译 namespace template
  • 无法在服务器端 NodeJS 启用 CORS

    我无法启用CORS在服务器端 我的前端和后端服务器有不同的端口 服务器端的实现方式如下 http createServer function req res Here you can create your data response in
  • mysqldump 只导出一张表

    我使用 mysqldump 导出数据库 如下所示 mysqldump u root ppassword my database gt c temp my database sql 不知何故 它只导出一张表 我做错了什么吗 尝试这个 一般有三
  • 从时间戳间隔获取缺失的月份

    我从服务器接收时间 以秒为单位 然后使用以下代码将 tjose 秒转换为月份 NSDateFormatter dateFormatter NSDateFormatter alloc init autorelease dateFormatte
  • 存储大 DNA 序列最有效的方法是什么?

    我想用 iOS 应用程序打包一个巨大的 DNA 序列 大约 3 000 000 000 个碱基对 每个碱基对都可以有一个值A C T or G 将每个碱基对存储在一个字节中会产生 3 GB 的文件 这太大了 现在我想将每个碱基对存储在两位中