比较文件内字母顺序的最佳方法？

2023-12-26

我有一个文件，其中有很多字母序列。
其中一些序列可能是相同的，所以我想对它们进行全部比较。
我正在做这样的事情，但这并不完全是我想要的：

for line in fl:
line = line.split()
for elem in line:
    if '>' in elem:
        pass
    else:
        for el in line:
            if elem == el:
                print elem, el

文件示例：

>1
GTCGTCGAAGCATGCCGGGCCCGCTTCGTGTTCGCTGATA  
>2
GTCGTCGAAAGAGGTCT-GACCGCTTCGCGCCCGCTGGTA    
>3
GTCGTCGAAAGAGGCTT-GCCCGCCACGCGCCCGCTGATA  
>4
GTCGTCGAAAGAGGCTT-GCCCGCTACGCGCCCCCTGATA  
>5
GTCGTCGAAAGAGGTCT-GACCGCTTCGCGCCCGCTGGTA  
>6
GTCGTCGAAAGAGTCTGACCGCTTCTCGCCCGCTGATACG  
>7
GTCGTCGAAAGAGGTCT-GACCGCTTCTCGCCCGCTGATA

所以我想要知道是否有任何序列完全等于 1 或 2 等等。

如果目标是简单地将相似的序列分组在一起，那么简单地对数据进行排序就可以了。这是一个使用的解决方案生物Python http://biopython.org/wiki/Biopython解析输入 FASTA 文件，对序列集合进行排序，使用标准 Pythonitertools.groupby http://docs.python.org/library/itertools.html#itertools.groupby函数合并相等序列的 ids，并输出一个新的 FASTA 文件：

from itertools import groupby
from Bio       import SeqIO

records = list(SeqIO.parse(file('spoo.fa'),'fasta'))

def seq_getter(s): return str(s.seq)
records.sort(key=seq_getter)

for seq,equal in groupby(records, seq_getter):
  ids = ','.join(s.id for s in equal)
  print '>%s' % ids
  print seq

Output:

>3
GTCGTCGAAAGAGGCTT-GCCCGCCACGCGCCCGCTGATA
>4
GTCGTCGAAAGAGGCTT-GCCCGCTACGCGCCCCCTGATA
>2,5
GTCGTCGAAAGAGGTCT-GACCGCTTCGCGCCCGCTGGTA
>7
GTCGTCGAAAGAGGTCT-GACCGCTTCTCGCCCGCTGATA
>6
GTCGTCGAAAGAGTCTGACCGCTTCTCGCCCGCTGATACG
>1
GTCGTCGAAGCATGCCGGGCCCGCTTCGTGTTCGCTGATA

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

比较文件内字母顺序的最佳方法？的相关文章

在 Python 中解析 TCL 列表

我需要在双括号上拆分以空格分隔的 TCL 列表例如 OUTPUT 172 25 50 10 01 01 Ethernet 172 25 50 10 01 02 Ethernet Traffic Item 1 172 25 50 10 01
如何传递架构以从现有数据帧创建新数据帧？

要将 schema 传递到 json 文件我们这样做 from pyspark sql types import StructField StringType StructType IntegerType data schema Stru
Python 类型提示 Dict 语法错误可变默认值是不允许的。使用“默认工厂”

我不知道为什么解释器会抱怨这个类型的字典对于这两个实例我得到一个不允许可变默认值使用默认工厂语法错误我使用的是 python 3 7 3 from dataclasses import dataclass from typing
让 VoiceChannel.members 和 Guild.members 返回完整列表的问题

每当我尝试使用 VoiceChannel members 或 Guild members 时它都不会提供适用成员的完整列表我从文本命令的上下文中获取 VoiceChannel 和 Guild 如下所示 bot command name
pandas DataFrame.join 的运行时间是多少（大“O”顺序）？

这个问题更具概念性理论性与非常大的数据集的运行时间有关所以我很抱歉没有一个最小的例子来展示我有一堆来自两个不同传感器的数据帧我需要最终将它们连接成两个very来自两个不同传感器的大数据帧 df snsr1 and df snsr2
多输出堆叠回归器

一次性问题我正在尝试构建一个多输入堆叠回归器添加到 sklearn 0 22 据我了解我必须结合StackingRegressor and MultiOutputRegressor 经过多次尝试这似乎是正确的顺序 import nu
我应该使用 Python 双端队列还是列表作为堆栈？ [复制]

这个问题在这里已经有答案了我想要一个可以用作堆栈的 Python 对象使用双端队列还是列表更好元素数量较少还是数量较多有什么区别您的情况可能会根据您的应用程序和具体用例而有所不同但在一般情况下列表非常适合堆栈 append is
Django Rest Framework 是否有第三方应用程序来自动生成 swagger.yaml 文件？

我有大量的 API 端点编写在django rest framework并且不断增加和更新如何创建和维护最新的 API 文档我当前的版本是 Create swagger yaml文件并以某种方式在每次端点更改时自动生成然后使用此文件作
Python 3d 绘图设置固定色阶

我正在尝试绘制两个 3d 数组第一个数组的 z 值在范围内 0 15 0 15 第二个来自 0 001 0 001 当我绘图时色标自动遵循数据范围如何设置自定义比例我不想看到 0 001 的浅色而应该看到 0 15 的浅色如何修
为什么 web2py 在启动时崩溃？

我正在尝试让 web2py 在 Ubuntu 机器上运行所有文档似乎都表明要在 nix 系统上运行它您需要下载源代码并执行以下操作蟒蛇 web2py py 我抓住了source http www web2py com examples
GUI（输入和输出矩阵）？

我需要创建一个 GUI 将数据输入到矩阵或表格中并读取此表单数据完美的解决方案是限制输入表单仅允许float 例如 A 1 02 0 25 0 30 0 515 0 41 1 13 0 15 1 555 0 25 0 14 1 21 2
使用 python/numpy 重塑数组

我想重塑以下数组 gt gt gt test array 11 12 13 14 21 22 23 24 31 32 33 34 41 42 43 44 为了得到 gt gt gt test2 array 11 12 21 22 13 14
无法导入 langchain.agents.load_tools

我正在尝试使用 LangChain Agents 但无法导入 load tools 版本 langchain 0 0 27 我尝试过这些 from langchain agents import initialize agent from
python的shutil.move()在linux上是原子的吗？

我想知道python的shutil move在linux上是否是原子的如果源文件和目标文件位于两个不同的分区上行为是否不同或者与它们存在于同一分区上时的行为相同吗我更关心的是如果源文件和目标文件位于同一分区上 shutil move
Python - 如何确定解析的 XML 元素的层次结构级别？

我正在尝试使用 Python 解析 XML 文件中具有特定标记的元素并生成输出 excel 文档该文档将包含元素并保留其层次结构我的问题是我无法弄清楚每个元素解析器在其上迭代的嵌套深度 XML 示例摘录 3 个元素它们可以任意嵌套
PySpark groupByKey 返回 pyspark.resultiterable.ResultIterable

我试图找出为什么我的 groupByKey 返回以下内容 0
如何将 Django 中的权限添加到模型并使用 shell 进行测试

我在模型中添加了 Meta 类并同步了数据库然后在 shell 中创建了一个对象它返回 false 所以我真的无法理解错误在哪里或者缺少什么是否在其他文件中可能存在某种配置 class Employer User Employer in
如何使用 PrimaryKeyRelatedField 更新多对多关系上的类别

Django Rest 框架有一个主键相关字段 http www django rest framework org api guide relations primarykeyrelatedfield其中列出了我的 IDmany to m
JSON：TypeError：Decimal（'34.3'）不是JSON可序列化的[重复]

这个问题在这里已经有答案了我正在运行一个 SQL 查询它返回一个小数列表当我尝试将其转换为 JSON 时出现类型错误查询 res db execute SELECT CAST SUM r SalesVolume 1000 0 AS
如何在Python脚本中从youtube-dl中提取文件大小？

我是 python 编程新手我想在下载之前提取视频音频大小任何 YouTube 视频 gt gt gt from youtube dl import YoutubeDL gt gt gt url https www youtube c

随机推荐

堆栈跟踪或有关 Xcode/iPhone 中未处理异常的更多信息

请原谅我的无知但在 iPhone 模拟器中运行 iPhone 应用程序时关于 Xcode 调试器的一些问题一直困扰着我有时当我在 Interface Builder 中搞砸一些东西时我会在运行时遇到未处理的异常然后被扔回 Xco
无法使用react js将文件上传到djangorest框架

我正在使用 React Js 将图像上传到 django Restframework 在这里我使用 fetch API 发送 post 请求 Eapp jsx import React Component from react class
过滤至少有两个模式匹配的地方

我的 data table 中有很多文本数据我有几个我感兴趣的文本模式我想对表格进行子集化以便它显示匹配的文本至少两个的模式由于某些模式已经是非此即彼的事实这使得情况变得更加复杂例如 paul john 我想我要么想要一个表示在
如何将当前行的值除以下一行的值？

在 Spark Sql 1 6 版本中使用DataFrames 有没有一种方法可以计算特定列的每一行当前行与下一行相除的分数例如如果我有一个只有一列的表如下所示 Age 100 50 20 4 我想要以下输出 Franction 2
如何显示下一张/上一张卡片的RecyclerView的一部分

实现此功能的最佳策略是什么我有一个带有卡片的水平 RecyclerView 每张卡片都会填满整个屏幕但我希望它显示下一张卡片和上一张卡片如果它有多个项目的一部分我知道我可以通过设置我的卡来实现这一点android layout w
从java中的String中删除除少数特定标签之外的Html标签

我的输入是纯文本字符串要求是删除除少数特定标签之外的所有 html 标签例如 p li u u li li 如果这些特定标签具有类似属性class or id 我想删除这些属性几个例子 a href Link a gt Link li
Hadoop 2.2.0 与 Mahout 0.8 兼容吗？

我的 hadoop 集群版本 2 2 0 与 mahout 0 8 一起运行它兼容吗因为每当我运行这个命令时 bin mahout recommenditembased input mydata dat usersFile user d
Google 云端硬盘帮助需要访问自己的云端硬盘帐户

我想在网页上访问我自己的谷歌驱动器但允许任何人上传文件并限制下载访问或仅向用户显示有限的文件以供下载 Drive API 假设我将访问其他用户的凭据但我想要的恰恰相反任何人都可以查看我的文件限制查看内容但可以自由上传我googl
为什么不能修改 Mongoose 查询返回的数据（例如：findById）

当我尝试更改 Mongoose 查询返回的数据的任何部分时它没有任何效果昨天我花了大约两个小时试图解决这个问题有各种各样的问题 clone s 使用临时存储变量等等最后就在我以为自己要疯了的时候我找到了解决办法所以我想将来有人
GWT：如何从 RootPanel 获取对按钮的引用？

我正在使用 GWT 2 4 在我的 onModuleLoad 方法中给定一个字符串 id 如何从 RootPanel 对象获取对页面上现有按钮的引用我正在尝试这个 public void onModuleLoad final Butto
存储一个正整数需要多少位？

存储一个正整数例如数十亿需要多少位您是否必须使用 log2 N 才能找到答案由于我多次看到错误报告的答案我想我会发布正确的答案表示正整数 n 所需的位数为 bits floor log2 n 1 其中 log2 表示以 2 为底
Fabric JS：鼠标按下时复制/粘贴对象

我正在尝试创建一个块游戏您可以从菜单中选择形状并将它们放置在画布上有一个形状菜单您可以将形状拖到画布上我希望它在将克隆拖到画布上时将主要形状保留在菜单中这可能吗我创建了一个 jsfiddle 来提供帮助 JSFIDDLE htt
gfortran 不适用于 Mac OS X 10.9

我将 Mac 更新到 OS X 10 9 GM 然后发现 gfortran 不起作用构建任何程序时它都会显示 ld library not found for lcrt1 10 5 o collect2 ld return 1 有谁知道
ReactJS - 即使从选择下拉列表中选择相同的选项也会触发事件

当从 ReactJS 的下拉列表中选择一个选项时如何触发事件目前我正在使用onChange但即使再次选择相同的选项我也需要触发一个事件当前代码
java.net.ConnectException

我看过一些关于这个主题的帖子但我仍然不知道出了什么问题以下是代码 import java sql public class SQL public static void main String args Connection conn
从IP地址获取位置[关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案 Locked 这个问题及其答案是locked help locked posts因为这个问题是题外话
AttributeError：“float”对象没有属性“split”

我正在调用这条线 lang modifiers keyw strip for keyw in row language modifiers split if not isinstance row language modifiers flo
android.view.Surface - OutOfResourcesException

我有这个奇怪的错误但没有找到任何可能的解决方案在使用我的应用程序后问题总是随机出现该应用程序几乎可以在所有设备上完美运行仍然存在此问题的设备之一正在运行 CM 7 1 0 我知道很多 CM7 用户都在抱怨类似的问题不幸的是我有
如何有条件地在 JSP 页面中显示一个 div 的内容而不是另一个 div 的内容？

我对JSP开发很陌生我有以下疑问如果进入 JSP 页面我有 2div像这样 div p SUCCESS p div div p FAILURE p div 我必须根据 a 的值仅显示这些 div 之一status变量放入Http会话只能
比较文件内字母顺序的最佳方法？

我有一个文件其中有很多字母序列其中一些序列可能是相同的所以我想对它们进行全部比较我正在做这样的事情但这并不完全是我想要的 for line in fl line line split for elem in line if gt

比较文件内字母顺序的最佳方法？

比较文件内字母顺序的最佳方法？ 的相关文章

随机推荐

热门标签

比较文件内字母顺序的最佳方法？的相关文章