仅从 tsv 中的列索引生成“特殊”字典结构

2024-05-12

想象一下这样一个制表符分隔的文件：

9606    1   GO:0002576  TAS -   platelet degranulation  -   Process
9606    1   GO:0003674  ND  -   molecular_function_z    -   Function
9606    1   GO:0003674  OOO -   molecular_function_z    -   Function
9606    1   GO:0005576  IDA -   extracellular region    -   Component
9606    1   GO:0005576  TAS -   extracellular region    -   Component
9606    1   GO:0005576  OOO -   extracellular region    -   Component
9606    1   GO:0005615  HDA -   extracellular spaces    -   Component
9606    1   GO:0008150  ND  -   biological_processes    -   Process
9606    1   GO:0008150  OOO -   biological_processes    -   Process
9606    1   GO:0008150  HHH -   biological_processes    -   Process
9606    1   GO:0008150  YYY -   biological_processes    -   Process
9606    1   GO:0031012  IDA -   extracellular matrix    -   Component
9606    1   GO:0043312  TAS -   neutrophil degranulat   -   Process

我想创建一个函数来接收包含要保存的信息的列数并返回“特殊”字典。我说“特殊”是因为在我的情况下，信息总是分类的，但它可能有不同的级别，而且我厌倦了不断编写为每个级别添加信息的逻辑。（也许还有另一种方法，我无法搜索，所以，提前为我的无知道歉）

如果指定的列是8、2和3。8是类别最高的列，3是类别最低的列，可以得到预期的字典：

three_userinput = "8:2:3"
three = map(lambda x: int(x) - 1, three_userinput.split(":"))
DICT3 = {}
for line in file_handle:
info = line.split("\t")
    if info[three[0]] in DICT3:
        if info[three[1]] in DICT3[info[three[0]]]:
            DICT3[info[three[0]]][info[three[1]]].add(info[three[2]])
        else:
            DICT3[info[three[0]]][info[three[1]]] = set([info[three[2]]])
    else:
        DICT3[info[three[0]]] = {info[three[1]]:set([info[three[2]]])}

pprint.pprint(DICT3)

Output:

{'Component': {'1': set(['GO:0005576', 'GO:0005615', 'GO:0031012'])},
 'Function': {'1': set(['GO:0003674'])},
 'Process': {'1': set(['GO:0002576', 'GO:0008150', 'GO:0043312'])}}

现在有四列 8、2、3 和 4。8 是类别最高的列，4 是类别最低的列，可以获得预期的字典：

four_userinput = "8:2:3:4"
four = map(lambda x: int(x) - 1, four_userinput.split(":"))
DICT4 = {}
for line in file_handle:
    info = line.split("\t")
    if info[four[0]] in DICT4:
        if info[four[1]] in DICT4[info[four[0]]]:
            if info[four[2]] in DICT4[info[four[0]]][info[four[1]]]:
                DICT4[info[four[0]]][info[four[1]]][info[four[2]]].add(info[four[3]])
            else:
                DICT4[info[four[0]]][info[four[1]]][info[four[2]]] = set([info[four[3]]])
        else:
            DICT4[info[four[0]]][info[four[1]]] = {info[four[2]]:set([info[four[3]]])}
    else:
        DICT4[info[four[0]]] = {info[four[1]]:{info[four[2]]:set([info[four[3]]])}}

pprint.pprint(DICT4)

Output:

{'Component': {'1': {'GO:0005576': set(['IDA', 'OOO', 'TAS']),
                     'GO:0005615': set(['HDA']),
                     'GO:0031012': set(['IDA'])}},
 'Function': {'1': {'GO:0003674': set(['ND', 'OOO'])}},
 'Process': {'1': {'GO:0002576': set(['TAS']),
                   'GO:0008150': set(['HHH', 'ND', 'OOO', 'YYY']),
                   'GO:0043312': set(['TAS'])}}}

现在，当我面对五个级别的信息（五列）时，代码几乎不可读，而且真的非常乏味......我可以为每个级别创建特定的函数，但是......有没有一种方法可以设计一个可以处理的函数有多少级？

如果我没有正确解释自己，请随时询问我。

你需要的是一个defaultdict() https://docs.python.org/3/library/collections.html?highlight=defaultdict#collections.defaultdict。这使您可以更新条目，而无需先测试它们是否存在。即如果不存在，则会自动添加默认值。由于您有多个级别，您将需要使用递归创建嵌套的默认字典build_defaultdict(levels)功能。设置值也需要递归，但逻辑会更简单：

import pprint
import csv
from operator import itemgetter
from collections import defaultdict


def build_defaultdict(levels):
    return defaultdict(set) if levels <= 1 else defaultdict(lambda : build_defaultdict(levels - 1))


def set_value(d, row):
    if len(row) <= 2:
        d[row[0]].add(row[1])
    else:
        d[row[0]] = set_value(d[row[0]], row[1:])

    return d


req_cols = [7, 1, 2, 3]     # counting from col 0

data = build_defaultdict(len(req_cols) - 1)
get_cols = itemgetter(*req_cols)

with open('input.csv', 'r', newline='') as f_input:
    for row in csv.reader(f_input, delimiter='\t'):
        set_value(data, get_cols(row))

pprint.pprint(data)
print(data['Component']['1']['GO:0005576'])

这将创建您的字典，如下所示：

defaultdict(<function <lambda> at 0x000002350F481B70>,
    {
        'Component': defaultdict(<function <lambda>.<locals>.<lambda> at 0x000002350F6EB378>,
            {'1': defaultdict(<class 'set'>,
                {'GO:0005576': {'IDA', 'OOO', 'TAS'},
                 'GO:0005615': {'HDA'},
                 'GO:0031012': {'IDA'}})}),
        'Function': defaultdict(<function <lambda>.<locals>.<lambda> at 0x000002350F6EB400>,
            {'1': defaultdict(<class 'set'>,
                {'GO:0003674': {'ND', 'OOO'}})}),
     'Process': defaultdict(<function <lambda>.<locals>.<lambda> at 0x00000235071BE0D0>,
            {'1': defaultdict(<class 'set'>,
                {'GO:0002576': {'TAS'},
                 'GO:0008150': {'HHH', 'ND', 'OOO', 'YYY'},
                 'GO:0043312': {'TAS'}})})})

{'TAS', 'OOO', 'IDA'}

它的显示方式可能与普通词典不同，但其工作方式与普通词典相同。还itemgetter()可用于从列表中提取所需元素到另一个列表中。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

仅从 tsv 中的列索引生成“特殊”字典结构的相关文章

如何向未知用户目录读取/写入文件？

我正在尝试从用户目录 C Users USERNAME Test Source 读取和写入文件但我未能成功找到任何有关如何自动检测用户名的资源其中的 USERNAME上面的例子或者无论如何我可以让它读取和写入目录而不需要知道用户名
pandas 系列值之间的过滤

If s is a pandas Series http pandas pydata org pandas docs stable dsintro html series 我知道我可以这样做 b s lt 4 or b s gt 0 但我做
Django管理命令是在单独的进程中执行的吗？

Django 有很多管理命令此外我们还可以编写自己的命令进行 shell 调用后会发生什么python manage py XXX 代码是否会在从 shell 启动的进程中执行或者 shell 进程只是与执行命令的主 Django
在一元上下文中使用 Data.Map

我正在操作的地图具有单子键类型为IO Double 我需要使用findMax在这张地图上我可以用吗liftM为了这 Map findMax Map fromList f x X f y Y f z Z Here f x有类型IO Dou
会话cookie太大烧瓶应用程序[重复]

这个问题在这里已经有答案了我正在尝试使用会话本地加载某些数据并且它已经工作了一段时间但是现在我收到以下警告并且不再加载通过会话加载的数据 b session cookie 太大该值是 13083 字节但是标头需要 44 个
time.sleep - TypeError：需要一个浮点[关闭]

Closed 这个问题是无法重现或由拼写错误引起 help closed questions 目前不接受答案 time sleep 2 TypeError a float is required 我该如何解决我不确定我应该在这里做什么您
使用 ruamel.yaml，如何使带有 NEWLINE 的变量成为不带引号的多行

我正在生成用作协议的 YAML 其中包含一些生成的 JSON import json from ruamel import yaml jsonsample id 123 type customer account other myyamel
fleiss kappa 是衡量注释者间一致性的可靠指标吗？下面的结果让我很困惑，使用它时是否涉及任何假设？

我有带有以下描述的注释矩阵 3 名注释者 3个类别 206 个科目数据存储在 numpy ndarray 变量 z 中 array 0 2 1 0 2 1 0 2 1 0 2 1 1 1 1 0 2 1 0 3 0 0 3 0 0 3 0
使用字符串迭代 url - python

我现在完全被我的代码困住了首先我尝试从 volkskrant 的存档页面检索所有网址这是我被打击的第一步某一特定日期的 url 如下所示 http www volkskrant nl archief detail 01012016
如何在Python中使用内联正则表达式修饰符[重复]

这个问题在这里已经有答案了我有一个正则表达式 n DOCUMENTATION n n n 2 s 女巫我正在尝试处理这样的一些文件 usr bin python coding utf 8
Python 请求包含有值的参数和没有值的参数

我正在为 API 编写一个 Python 包装器该 API 支持具有值的查询参数例如param1如下和查询参数do not有价值观例如param2如下即 https example com service param1 value
Pythonwinsound，ASYNC 标志不起作用？

我正在使用 python 3 5 我试图在继续执行脚本的同时播放声音根据https docs python org 3 5 library winsound html https docs python org 3 5 library w
调度算法，找到设定长度的所有非重叠区间

我需要为我的管理应用程序实现一种算法该算法将告诉我何时可以将任务分配给哪个用户我实现了一个蛮力解决方案它似乎有效但我想知道是否有更有效的方法来做到这一点为了简单起见我重写了算法以对数字列表进行操作而不是数据库查询等下面我将尝
有没有比 ` except: pass` 更简洁的替代方案？

我有一个函数可以按偏好顺序返回多个组的随机成员事情是这样的 def get random foo or bar I d rather have a foo than a bar if there are foos return get
如何用C语言创建字典？

我正在用 C 语言编写一个微控制器作为它的一部分我想在 7 段显示器上显示某些字母每个字母都有一个对应的数字使 7 段显示屏显示该字母它没有真正的模式因为数字只是通过将显示字母所需的 7 段显示器上的位相加而成因此如果我可以创
Django model.foreignKey 并返回 self.text 错误

所以我正在 Django 中处理 model py 但遇到了 2 个 pylint 错误我不明白为什么这是 pylint 的问题还是我在代码中做错了什么 E1120 No value for argument on delete in
为什么使用 LAMP 托管时避免使用 CGI for Python？

我已经使用 PHP 多年了最近我在论坛上看到很多帖子说PHP 已经过时了现代编程语言更简单更安全等等所以我决定开始学习Python 由于我习惯使用 PHP 因此我刚刚开始通过上传 htaccess 文件来构建页面 addtype
如何使用 NLP 确定句子中的中心词？

例如如果我得到一个句子一名英国士兵在阿富汗战斗中丧生这句话的中心词是杀给定 Python 中的 nltk 包我怎样才能找到它我不是在谈论词干我指的是中心词您正在寻找中心词句子解析它可以在 Python 的 nltk 包中
Pandas 数据透视表同时包含多列

我怀疑是否pandas pivot table可以一次接受两列并单独处理它们而不是分层处理假设我有以下数据框 id date day val 101 11 1 1 1 2 1 101 11 1 2 2 2 2 101 11 1 3 3
检查一个数是否是完全平方数

如何检查一个数是否是完全平方数速度并不重要目前只是工作 See also Integer square root in python https stackoverflow com questions 15390807 依赖任何浮点计

随机推荐

错误：“uint16_t”未声明？ [复制]

这个问题在这里已经有答案了我有代码 include
身份验证和用户任务

我正在考虑开发一个具有明确定义域的系统主要基于网络域的一部分包括像这样的实体Diary Booking Customer etc 不过我创建了另一个名为User其目的仅用于身份验证和授权污染Customer具有特定于身份验证的数据的实
从架构中删除表 - Rails

我想删除架构中的一个表我在第一次启动项目时创建了数据库并希望删除该表这样做的最佳方法是什么 I tried rails g migration drop table installs但这只会创建一个空迁移 Schema create t
匹配同一端口上不同路径的 Istio 虚拟服务路由

我想知道如何在同一端口上匹配 gRPC 路由以下是我希望通过 VirtualService 实现的目标的示例 apiVersion networking istio io v1alpha3 kind VirtualService meta
使用 System.Threading.Tasks.Task 而不是 Stream

我在以前版本的 WCF Web API 上使用了如下方法 grab the posted stream Stream stream request Content ContentReadStream write it to using Fi
opencv 2.3.* 读取不工作

我无法让 imread 工作与这个人有同样的问题 OpenCV imwrite 2 2 在 Windows 7 上导致异常并显示消息 OpenCV 错误未指定错误无法找到指定扩展名的编写器 https stackoverflow c
如何在使用 Active Storage 上传之前调整图像大小（与 AWS 链接）

我尝试将 Active Storage 与 Amazon Web Services 结合使用而不是 Carrierwave 和 Cloudinary 使用 Carrierwave 我有一些功能可以在通过上传器控制器上传之前调整图像大小但
execlp 多个“程序”

我想运行类似的东西 cat file tar base64 myprogram c base64 d tar zvt I use execlp运行该进程当我尝试运行类似的东西时cat它有效但如果我尝试运行base64 d tar zvt
匹配不包含超过 x 个连续字符的字符串的正则表达式是什么

我想要匹配不包含连续 3 个以上重复的相同字符的字符串所以 abaaaa 不匹配 abawdasd 比赛 abbbbasda 不匹配巴巴巴巴比赛是的对包含连续字符进行正则表达式匹配然后在代码中对其进行否定会更容易更简洁然而
在 PowerShell 中，将两个表合并为一个表的最佳方法是什么？

我对 PowerShell 相当陌生想知道是否有人知道解决以下示例问题的更好方法我有一组从 IP 地址到主机名的映射这表示活动 DHCP 租约的列表 PS H gt leases IP Name 192 168 1 1 Apple 1
preg_replace_callback 要求参数 2 是一个有效的回调...卡住了！

public function make url clickable cb matches ret url matches 2 if empty url return matches 0 removed trailing from URL
如何不在输出中打印 makefile 中的注释

我有一个像这样的 makefile install somecommand some explanation for next command lastcommand 发生的事情是评论 some explanation for next c
较新版本的 Android Studio 仅添加了两个可绘制目录 - 可绘制和可绘制-v21

对于旧版本的 Android Studio 所有可绘制存储桶文件夹都是默认创建的即可绘制 mdpi 可绘制 hdpi 等在较新版本的Android Studio中它仅提供drawable和drawable v21 这是为什么 Andr
如何在Java中呈现可为空的原始类型int？

我正在设计一个实体类其中有一个名为 documentYear 的字段该字段可能具有无符号整数值例如1999 2006等同时该字段也可能是未知即不确定文档是哪一年创建的因此一个可为空的intC 中的类型非常适合但是 Jav
底部有无限像素溢出的 RenderFlex

我有一个非常简单的控件我试图在其中展示DropdownButton与几个TextFields 当应用程序在模拟器中运行时我收到一条错误消息 BOTTOM OVERFLOWED BY Infinity PIXELS The Stack T
使用 LINQ。有两个不同的列表。如何识别不匹配的对象

我有三门课 public partial class Objective public Objective this ObjectiveDetails new List
IntelliJ IDEA 13：新的 Scala SBT 项目尚未生成 src 目录结构

我按照 Jetbrains 网站上的入门视频设置 IntelliJ IDEA 13 1 Community Edition 以与 Scala 配合使用 Scala 插件 v0 36 431 已安装当我使用向导创建一个新的 Scala SB
CSS隐藏滚动条，但元素可滚动

我有一个名为 items 的元素元素内的内容更长比元素高度我想让它可滚动但隐藏滚动条我该怎么做呢 div class left side div class items style display block width 94 ma
requests.iter_content() 认为文件已完成，但事实并非如此

这个问题与我见过的其他问题不同requests iter content 在那里面requests似乎认为它已成功到达我正在迭代的文件末尾实际上该文件已被截断且不完整我尝试处理的文件是一个 17gb gzip 需要丰富并存储在数据库中
仅从 tsv 中的列索引生成“特殊”字典结构

想象一下这样一个制表符分隔的文件 9606 1 GO 0002576 TAS platelet degranulation Process 9606 1 GO 0003674 ND molecular function z Function

仅从 tsv 中的列索引生成“特殊”字典结构

仅从 tsv 中的列索引生成“特殊”字典结构 的相关文章

随机推荐

热门标签

仅从 tsv 中的列索引生成“特殊”字典结构的相关文章