将列表中的一组 URL 表示为树结构

2024-02-16

我有一个存储 URL 的字典列表。它只有两个字段，title and url。例子：

[
  {'title': 'Index Page', 'url': 'http://www.example.com/something/index.htm'}, 
  {'title': 'Other Page', 'url': 'http://www.example.com/something/other.htm'},
  {'title': 'About Page', 'url': 'http://www.example.com/thatthing/about.htm'},
  {'title': 'Detail Page', 'url': 'http://www.example.com/something/thisthing/detail.htm'},
]

但是，我想从这个字典列表中获取树结构。我正在寻找这样的东西：

{ 'www.example.com': 
  [ 
    { 'something': 
      [ 
        { 'thisthing':
          [
            { 'title': 'Detail Page', 'url': 'detail.htm'}
          ]
        },
        [
          { 'title': 'Index Page', 'url': 'index.htm'},
          { 'title': 'Other Page', 'url': 'other.htm'}
        ]
      ]
    },
    { 'thatthing': 
      [ 
        { 'title': 'About Page', 'url': 'about.htm'}
      ]
    }
  ]
}

我的第一次尝试是在一堆 for 循环中进行 urlparse 汤，我相信有更好更快的方法来做到这一点。

我见过人们在 SO 上使用列表推导式、lambda 函数等来神奇地工作。我仍在弄清楚它的过程中。

（对于 Django 开发人员：我将在我的 Django 应用程序中使用它。我将 URL 存储在名为Page它有两个字段name and title)

第三次是魅力所在...那是你那里有的一些很好的结构:)。在你的评论中你提到你“无法想到更好的树格式来表示这样的数据”...这让我再次冒昧地（稍微）改变输出的格式。为了动态添加子元素，必须创建一个字典来容纳它们。但对于“叶节点”，这个字典永远不会被填充。如果需要，这些当然可以通过另一个循环删除，但在迭代期间不会发生，因为空dict对于可能的新节点应该存在。有些适用于其中没有文件的节点：这些将包含一个空的list.

ll = [
  {'title': 'Index Page', 'url': 'http://www.example.com/something/index.htm'}, 
  {'title': 'Other Page', 'url': 'http://www.example.com/something/other.htm'},
  {'title': 'About Page', 'url': 'http://www.example.com/thatthing/about.htm'},
  {'title': 'Detail Page', 'url': 'http://www.example.com/something/thisthing/detail.htm'},
]

# First build a list of all url segments: final item is the title/url dict
paths = []
for item in ll:
    split = item['url'].split('/')
    paths.append(split[2:-1])
    paths[-1].append({'title': item['title'], 'url': split[-1]})

# Loop over these paths, building the format as we go along
root = {}
for path in paths:
    branch = root.setdefault(path[0], [{}, []])
    for step in path[1:-1]:
        branch = branch[0].setdefault(step, [{}, []])
    branch[1].append(path[-1])

# As for the cleanup: because of the alternating lists and
# dicts it is a bit more complex, but the following works:
def walker(coll):
    if isinstance(coll, list):
        for item in coll:
            yield item
    if isinstance(coll, dict):
        for item in coll.itervalues():
            yield item

def deleter(coll):
    for data in walker(coll):
        if data == [] or data == {}:
            coll.remove(data)
        deleter(data)

deleter(root)

import pprint
pprint.pprint(root)

Output:

{'www.example.com':
    [
        {'something':
            [
                {'thisthing':
                    [
                        [
                            {'title': 'Detail Page', 'url': 'detail.htm'}
                        ]
                    ]
                },
                [
                    {'title': 'Index Page', 'url': 'index.htm'},
                    {'title': 'Other Page', 'url': 'other.htm'}
                ]
            ],
         'thatthing':
            [
                [
                    {'title': 'About Page', 'url': 'about.htm'}
                ]
            ]
        },
    ]
}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

将列表中的一组 URL 表示为树结构的相关文章

与 iexact 一起使用时，Django get_or_create 无法设置字段

我想用name iexact with get or create尽可能避免用户输入字段的重复我的提供者模型有一个名称字段我在其中使用get or create 查找工作正常但在第一次创建实例时如下面的 p1 Timber 示例名
为什么我不能使用“exclude”从 python 轮子中排除“tests”目录？

考虑以下包结构与以下setup py内容 from setuptools import setup find packages setup name dfl client packages find packages exclude te
KFold 和 ShuffleSplit CV 有什么区别？

看起来 KFold 每次迭代对象时都会生成相同的值而 Shuffle Split 每次都会生成不同的索引它是否正确如果是这样其中一个相对于另一个有什么用处 cv cross validation KFold 10 n folds 2
Python：记录垃圾收集器

我有一个 python 应用程序有一些性能问题我想将垃圾收集器的事件特别是何时调用添加到我的日志中是否可以 thanks http docs python org library gc html gc set debug http
底图上的子图

我有一张英国地图和 121 个地点每个地点有 3 个值我想绘制 121 个位置中每个位置的三个值的小条形图目前这些值绘制为markersize属性看起来像这样密集恐惧症情节 https i stack imgur com 5fv
Python 遍历目录树的方法是什么？

我觉得分配文件和文件夹并执行 item 部分有点黑客有什么建议么我正在使用Python 3 2 from os import from os path import def dir contents path contents list
为什么导入 pdb 时出现此错误？ “模块”对象没有属性“ascii_letters”

尝试调试我的代码我正在导入库pdb import sys from subprocess import check call import pdb functions if name main Code 我收到此错误 File reg p
如何在 ReportLab 段落中插入回车符？

有没有办法在 ReportLab 的段落中插入回车符我试图将 n 连接到我的段落字符串但这不起作用 Title Paragraph Title n Page myStyle 我想要这样做因为我将名称放入单元格中并且想要控制单元格中的
为 Networkx 图添加标题？

我希望我的代码创建一个带有标题的图使用下面的代码可以创建绘图但没有标题有人可以告诉我我做错了什么吗 import pandas as pd import networkx as nx from networkx algorithms
如何修复错误“AttributeError：‘模块’对象在 python3 中没有属性‘客户端’？

以下是我的代码 import http h1 http client HTTPConnection www bing com 我认为没问题但是 python 给了我以下错误 AttributeError 模块对象没有属性客户端我想知
str.translate 给出 TypeError - Translate 采用一个参数（给定 2 个参数），在 Python 2 中工作

我有以下代码 import nltk os json csv string cPickle from scipy stats import scoreatpercentile lmtzr nltk stem wordnet WordNetL
如何检查列表是否为空？

这个问题的答案是社区努力 help privileges edit community wiki 编辑现有答案以改进这篇文章目前不接受新的答案或互动例如如果通过以下内容 a 我如何检查是否a是空的 if not a print Lis
如何在 Python 中从 HTML 页面中提取 URL [关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 我必须用Python 编写一个网络爬
Spark中的count和collect函数抛出IllegalArgumentException

当我使用时抛出此异常时我尝试在本地 Spark 上加载一个小数据集count 在 PySpark 中 take 似乎有效我试图搜索这个问题但没有找到原因看来RDD的分区有问题有任何想法吗先感谢您 sc stop sc Spark
如何在C++中列出Python模块的所有函数名称？

我有一个 C 程序我想导入一个 Python 模块并列出该模块中的所有函数名称我该怎么做我使用以下代码从模块中获取字典 PyDictObject pDict PyDictObject PyModule GetDict pModule
Django 接受 AM/PM 作为表单输入

我试图弄清楚如何使用 DateTime 字段在 Django 中接受 am pm 作为时间格式但我遇到了一些麻烦我尝试在 forms py 文件中这样设置 pickup date time from DateTimeField inpu
Spyder 如何在同一线程的后台运行 asyncio 事件循环（或者确实如此？）

我已经研究 asyncio 模块功能几天了因为我想将它用于我的应用程序的 IO 绑定部分并且我认为我现在对它的工作原理有一个合理的理解或者在至少我认为我已经理解了以下内容任一时刻任一线程中只能运行一个异步事件循环一旦一切都设置
如何使用Featuretools按列值从单个数据框中的多个列创建特征？

我正在尝试根据之前的结果来预测足球比赛的结果我在 Windows 上运行 Python 3 6 并使用 Featuretools 0 4 1 假设我有以下代表结果历史记录的数据框原始数据框 https i stack imgur com
获取调用者文件的绝对路径

假设我在不同的目录中有两个文件 1 py 比如说在C FIRST FOLDER 1 py and 2 py 比如说在C SECOND FOLDER 2 py 文件1 py进口2 py using sys path insert 0 pa
在游戏中实现功能

我在完成这部分作业时遇到了麻烦我必须宣布游戏的获胜者然后输入到函数中输入所有 if 语句后我必须创建一个函数def playGame 这必须包括 showRules user getUserChoice computer getCo

随机推荐

Python 数组中非常小的数字导致精度损失

我有两个 float64 类型的数组当我将第一个数组的值分配给第二个数组时它会四舍五入该值下面的简单代码说明了该问题并排除了仅使用数字表示的可能性我已经对代码片段进行了架构化以使其更具可读性但本质上是同一件事 X zeros 2
如何从我的 Node/express 服务器提供 Vuejs 前端文件？

基本上我有两条路线其中一条用于主页另一条用于管理页面但我找不到关于如何组合的良好文档Vuejs and Express 所以我可以同时提供两个页面假设两个页面都有不同的 UI 因此组件的构造不一样 To use vue route
将套接字绑定到 localhost 以外的任何地址意味着什么？

我不明白它是什么means to bind到除 127 0 0 1 或 1 等之外的任何地址的套接字我不是根据定义将套接字绑定到端口my own机器哪个是本地主机绑定或倾听有什么意义another机器或IP地址端口从概念上讲
使用通过 Docker 安装的 Jenkins 运行 AWS 命令行界面：找不到命令？

跑步时aws从詹金斯管道我有以下错误消息 command not found which aws回报command not found 另一方面跑步时aws从一项工作来看它是有效的 which aws回报 usr local bin a
从会话获取文件时出现“无法访问已关闭的文件”错误消息

我有一个 asp net FileUpload 控件我可以成功上传文件以存储在会话中但是当我尝试获取其输入流时我将文件存储在 HttpPosterFile 中我收到错误无法访问已关闭的文件 tr PostedFile lt Htt
Bundle.config 可以包含 ScriptBundles 吗？

我可以将脚本包含在我的Bundle config文件还是仅适用于样式包
如何防止使用尚未构造的类成员？

我有以下课程 class A public A x 0 std cout lt lt A default ctor n A int x x x std cout lt lt A normal ctor n int x class B pub
如何在 Perl 中打印正则表达式匹配后的行？

我正在解析如下格式的文本文件 gt alpha apple airplane art gt beta bear blue beat gt charlie cow cent coat 我正在尝试查找条目 alpha beta charlie
使用 System.Transactions.SafeIUnknown 的 .NET 垃圾收集器中的内存泄漏

我正在尝试使用 ANTS 探查器追踪应用程序中的内存泄漏我追踪到垃圾收集器其中有一个 System Transactions SafeIUnknown 对象列表这些对象永远位于垃圾收集器中位于终结器队列中但从未被释放我在 Sys
Servicestack 服务器发送事件

我刚刚开始搞乱我自己的 ServiceStack 服务器事件实现在阅读了 wiki 部分并阅读了聊天应用程序的代码后我开始创建自己的新应用程序mvc4项目并通过 nuGet 安装所有 ServiceStack 库配置并创建后AppHo
是否可以使用 tbl_svysummary() 创建分层表（tbl_strata）？

我对调查数据和 gtsumarry 包还很陌生我尝试使用以下代码从调查数据创建分层表但收到错误错误问题mutate input tbl Reading the subset of the data fileUrl lt https
有没有矢量化的方法来计算 sympy 中的梯度？

如何在 sympy 中计算多元函数的符号梯度显然我可以单独计算每个变量的导数但是是否有矢量化运算可以做到这一点例如 m sympy Matrix sympy symbols a b c d 现在对于 i 0 3 我可以这样做 sy
在 Magento 中一页结帐的订单查看部分获取账单信息

我正在尝试在 Magento 1 7 0 中的一页结账的订单审核部分中显示账单和送货信息然而它就是根本不想合作我也尝试了各种论坛和 SO 中提到的几种方法但这些方法似乎都不起作用这是我已经尝试过的 http www magen
解密 C# 中使用 PHP openssl_encrypt 加密的字符串

我有一位客户使用以下代码加密 PHP 中的字符串 password Ty63rs4aVqcnh2vUqRJTbNT26caRZJ method AES 256 CBC texteACrypter Whether you think you
除以零时会抛出什么类型的异常？

当出现被零除错误时会抛出什么样的异常我尝试使用包罗万象 catch 但 Visual Studio 仍然抱怨存在未处理的异常 int a 0 try a a catch what should I catch cout lt lt di
将单个 Json 列的所有行转换为多列

df 具有以下列 Index level id 描述 level type 难度解决方案 modifier last modified time limit tags level options 额外信息提示 dtype 对象我要转换
#ifdef 和 #ifndef 的作用

define one 0 ifdef one printf one is defined ifndef one printf one is not defined 在这其中的作用是什么 ifdef and ifndef 输出是什么里面的文
制作带有多个堆叠部分的黑白 ggplot 条形图的最佳方法？

我正在尝试使用 ggplot 为仅以黑白打印的出版物制作带有堆叠条形的条形图我每个栏都有 6 个堆栈所以使用scale fill grey 使它看起来很奇怪并且难以阅读有没有更好更干净的方法来做到这一点这是我的数据 dput he
Integer.parseInt() 和捕获异常或在转换之前使用模式验证字符串哪个更好？ [复制]

这个问题在这里已经有答案了我见过两种在 Java 中检查变量是否为有效整数的样式一个通过做一个Integer parseInt并捕获任何由此产生的异常另一种是使用模式以下哪一个是更好的方法 String countStr int c
将列表中的一组 URL 表示为树结构

我有一个存储 URL 的字典列表它只有两个字段 title and url 例子 title Index Page url http www example com something index htm title Other Page

将列表中的一组 URL 表示为树结构

将列表中的一组 URL 表示为树结构 的相关文章

随机推荐

热门标签

将列表中的一组 URL 表示为树结构的相关文章