获取包含字符串元素的列表，不包括初始列表中以任何其他元素为前缀的元素

2024-01-18

我在过滤字符串列表时遇到一些问题。我发现了一个类似的问题here https://stackoverflow.com/questions/22221878/python-delete-substrings-from-list-of-strings但这不是我需要的。

输入列表为：

l = ['ab', 'xc', 'abb', 'abed', 'sdfdg', 'abfdsdg', 'xccc']

预期结果是

['ab', 'xc', 'sdfdg']

结果中项目的顺序并不重要

由于列表的大小很大，过滤功能必须很快

我目前的解决方案是

l = ['ab', 'xc', 'abb', 'abed', 'sdfdg', 'abfdsdg', 'xccc']
for i in range(0, len(l) - 1):
    for j in range(i + 1, len(l)):
        if l[j].startswith(l[i]):
            l[j] = l[i]
        else:
            if l[i].startswith(l[j]):
                l[i] = l[j]

print list(set(l))

EDIT

经过对大输入数据的多次测试，列出 1500000 个字符串，我对此的最佳解决方案是：

def filter(l):
    if l==[]:
        return []
    l2=[]
    l2.append(l[0])
    llen = len(l)
    k=0
    itter = 0
    while k<llen:
        addkelem = ''
        j=0
        l2len = len(l2)
        while j<l2len:
            if (l2[j].startswith(l[k]) and l[k]!= l2[j]):
                l2[j]=l[k]
                l.remove(l[k])
                llen-=1
                j-=1
                addkelem = ''
                continue
            if (l[k].startswith(l2[j])):
                addkelem = ''
                break
            elif(l[k] not in l2):
                addkelem = l[k]
            j+=1
        if addkelem != '':
            l2.append(addkelem)
            addkelem = ''
        k+=1
    return l2

执行时间约为 213 秒

输入数据示例 http://soft2u.ro/out.7z- 每一行都是列表中的一个字符串

这个算法在我的电脑上只用了 0.97 秒就完成了任务，作者提交的输入文件 (154MB) http://soft2u.ro/out.txt:

l.sort()

last_str = l[0]
filtered = [last_str]
app      = filtered.append

for str in l:
    if not str.startswith(last_str):
        last_str = str
        app(str)

# Commented because of the massive amount of data to print.
# print filtered

该算法很简单：首先按字典顺序对列表进行排序，然后搜索第一个不以列表中第一个字符串为前缀的字符串，然后搜索下一个不以最后一个无前缀字符串为前缀的字符串，依此类推。

如果列表已经排序（您的示例文件似乎已经排序），您可以删除l.sort()行，这将导致时间和内存的复杂度为 O(n)。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

string

list

python27

Filtering

获取包含字符串元素的列表，不包括初始列表中以任何其他元素为前缀的元素的相关文章

matplotlib 图中点的标签

所以这是一个关于已发布的解决方案的问题我试图在我拥有的 matplotlib 散点图中的点上放置一些数据标签我试图在这里模仿解决方案是否有与 MATLAB 的 datacursormode 等效的 matplotlib https s
多输出堆叠回归器

一次性问题我正在尝试构建一个多输入堆叠回归器添加到 sklearn 0 22 据我了解我必须结合StackingRegressor and MultiOutputRegressor 经过多次尝试这似乎是正确的顺序 import nu
Haskell：从后面访问列表

今天我开始学习Haskell 我对函数式语言有点陌生而且我非常喜欢 Haskell 然而我有一个关于它的设计的问题困扰着我从我到目前为止的理解来看访问列表后面的元素似乎比访问前面的元素要复杂得多类似于xs x where xs a
Pycharm 在 os.path 连接上出现“未解析的引用”

将pycharm升级到2018 1 并将python升级到3 6 5后 pycharm报告未解析的引用 join 最新版本的 pycharm 不会显示以下行的任何警告 from os path import join expanduser
矩形函数的数值傅里叶变换

本文的目的是通过一个众所周知的分析傅里叶变换示例来正确理解 Python 或 Matlab 上的数值傅里叶变换为此我选择矩形函数这里报告了它的解析表达式及其傅立叶变换https en wikipedia org wiki Rectan
如何将特定范围内的标量添加到 numpy 数组？

有没有一种更简单更节省内存的方法可以单独在 numpy 中执行以下操作 import numpy as np ar np array a l r ar c a a 0 l ar tolist a r 它可能看起来很原始但它涉及获取给定数
Java 和 Python 可以在同一个应用程序中共存吗？

我需要一个 Java 实例直接从 Python 实例数据存储中获取数据我不知道这是否可能数据存储是否透明唯一或者每个实例如果它们确实可以共存都有其单独的数据存储总结一下 Java 应用程序如何从 Python 应用程序的数据存
使用 python/numpy 重塑数组

我想重塑以下数组 gt gt gt test array 11 12 13 14 21 22 23 24 31 32 33 34 41 42 43 44 为了得到 gt gt gt test2 array 11 12 21 22 13 14
导入错误：没有名为flask.ext.login的模块

我的flask login 模块有问题我已经成功安装了flask login模块另外从命令提示符我可以轻松运行此脚本不会出现错误 Python 2 7 r27 82525 Jul 4 2010 07 43 08 MSC v 1500
未知错误：Chrome 无法启动：异常退出

当我使用 chromedriver 对 Selenium 运行测试时出现此错误 selenium common exceptions WebDriverException Message unknown error Chrome fail
Django 视图中的“请求”是什么

在 Django 第一个应用程序的 Django 教程中我们有 from django http import HttpResponse def index request return HttpResponse Hello world
将 Matlab 的 datenum 格式转换为 Python

我刚刚开始从 Matlab 迁移到 Python 2 7 在读取 mat 文件时遇到一些问题时间信息以 Matlab 的日期数字格式存储对于那些不熟悉它的人日期序列号将日历日期表示为自固定基准日期以来已经过去的天数在 MATLAB
Spider 必须返回 Request、BaseItem、dict 或 None，已“设置”

我正在尝试从以下位置下载所有产品的图像我的蜘蛛看起来像 from shopclues items import ImgData import scrapy class multipleImages scrapy Spider name m
如果 PyPy 快 6.3 倍，为什么我不应该使用 PyPy 而不是 CPython？

我已经听到很多关于PyPy http en wikipedia org wiki PyPy项目他们声称它比现有技术快 6 3 倍CPython http en wikipedia org wiki CPython口译员开启他们的网站 ht
制作一份 Python 文档的 PDF 文件

Python 官方网站提供 PDF 文档下载但它们是按章节分隔的我下载了源代码并构建了 PDF 文档这些文档也是单独的 PDF 我怎么能够从源代码中的 Makefile 构建一个 PDF 文件我认为这样阅读起来会更方便如果连接单独
等待子进程使用 os.system

我用了很多os system在 for 循环内调用创建后台进程如何等待所有后台进程结束 os wait告诉我没有子进程 ps 我使用的是Solaris 这是我的代码 usr bin python import subprocess imp
在virtualenv中下载sqlite3

我正在尝试使用命令创建应用程序python3 manage py startapp webapp但我收到一条错误消息 django core exceptions ImproperlyConfigured 加载时出错 pysqlite2 或
根据 Pandas 中的列表选择数据框行的子集

我有一个数据框df1并列出x In 22 import pandas as pd In 23 df1 pd DataFrame C range 5 B range 10 20 2 A list abcde In 24 df1 Out 24
python 对浮点数进行不正确的舍入

gt gt gt a 0 3135 gt gt gt print 3f a 0 314 gt gt gt a 0 3125 gt gt gt print 3f a 0 312 gt gt gt 我期待 0 313 而不是 0 312 有没有
JSON：TypeError：Decimal（'34.3'）不是JSON可序列化的[重复]

这个问题在这里已经有答案了我正在运行一个 SQL 查询它返回一个小数列表当我尝试将其转换为 JSON 时出现类型错误查询 res db execute SELECT CAST SUM r SalesVolume 1000 0 AS

随机推荐

char数组前面的&号会影响scanf吗？合法吗？

我们平时输入字符串的时候是这样做的 include
Firefox 附加组件 window.navigator.userAgent 错误：窗口未定义

我想得到userAgent https developer mozilla org en US docs Web API NavigatorID userAgent并想对其进行一些解析我的代码是 var userAgentInfo use
SwiftUI - 如何添加 Scenekit 场景

如何将 Scenekit 场景添加到 SwiftUI 视图我使用标准船舶场景示例尝试了以下 Hello World import SwiftUI import SceneKit struct SwiftUIView View var bo
以编程方式更改和刷新图标（无需重新启动）

当我手动替换图标即不是从资源管理器中的文件夹选项窗口时图标不会更新例如如果我执行此批处理代码 REG ADD HKCR testfile DefaultIcon ve d C test ico 0 f 图标在文件夹选项的列表中
EC2 服务器上的 MongoDB 还是 AWS SimpleDB？

什么场景更有意义托管多个安装了 MongoDB 的 EC2 实例还是使用 Amazon SimpleDB Web 服务当有多个带有 MongoDB 的 EC2 实例时我遇到了自己设置实例的问题当使用 SimpleDB 时我遇到了
我怎样才能知道哪里的内存段全为零

我的意思是我分配了一段内存也许是 1k 也许是 20 字节假设指针是pMem我怎样才能知道内容pMem所提及的就是全部Zero or 0 我知道memcmp但第二个参数应该是另一个内存地址谢谢正如其他人已经建议的那样你可能想要m
上传到 Azure Blob 存储时设置内容类型

我正在使用 Azure Blob 存储客户端库上传静态站点 blob service client BlobServiceClient from connection string az string blob client blob se
当应用程序为 preApi9 时，Google 下载器的 eclipse 库项目中出现 styles.xml 错误

我正在使用新的谷歌扩展包内容下载器的谷歌库项目有一个特殊的values v9 styles xml 文件用于通知文本属性当使用该库的应用程序是 preAPI9 时这会导致错误至少对我来说它指的是一些仅在api9中出现的样式东西我
如果表单位于具有 ng-if 条件的 div 内，则无法读取未定义的属性“$valid”

我有一个使用 ng if 在 div 内形成表单健康状况最初表单是关闭的单击按钮后将显示表单但在提交表格时我得到Cannot read property valid of undefined错误如果我更改ngif和ng sho
将树视图中的复选框与使用远程数据源的复选框绑定

我在这里布置一个情况我遇到一种情况我需要在表单上显示几个复选框这些复选框本质上是分层的其中一些属于一个类别另一些属于第二个类别依此类推我的第一个想法是使用带有复选框的 KendoUI 树视图我有几个与此相关的问题显然存在
如果 C/C++ 定义了标准 ABI，它们会“失去”什么？

标题说明了一切我专门谈论 C C 因为两者都认为这是实现问题我认为定义一个标准接口可以轻松地在其上构建模块系统以及许多其他好处如果 C C 定义了标准 ABI 它们会失去什么在每个处理器上以最自然的方式实现事物的自由我认
计算旋转矩形的顶点

我正在尝试计算旋转矩形 2D 的顶点如果矩形没有旋转这很容易我想出了这部分如果矩形已经旋转我想到了两种可能的方法来计算顶点弄清楚如何将顶点从本地对象模型空间我在下面弄清楚的转换到世界空间老实说我不知道如果这是最好的
如何在 Docker 容器内设置 Java 堆大小 (Xms/Xmx)？

在提出这个问题时 Docker 看起来还很新在网上还没有这个问题的答案我唯一找到的地方是本文 http blog takipi com ignore the hype 5 docker misconceptions java devel
来自 Android 设备的时间戳，格式为 hh:mm:ss:SS

我需要在 Android 中记录传感器数据为了将值存储在数据库中我需要时间戳作为主键格式为 hh mm ss SS 其中 SS 代表毫秒值当我尝试使用 SensorEvent timestamp 使用下面的代码时我无法从 Dat
Maxima：将矩阵转换为列表

我通过以下方式将 Maxima 中的列表转换为矩阵 DataL 1 2 2 4 3 6 4 8 DataM apply matrix DataL 另一种方式该怎么做如何转换给定矩阵DataM进入列表DataL 我知道现在已经很晚了但就其
如何计算两个 chrono::DateTime 之间的持续时间？

我正在使用chrono https crates io crates chrono板条箱并想要计算Duration两个之间DateTimes use chrono Utc use chrono offset TimeZone let sta
如何更改以列表形式输入 for 循环的变量

我正在用 Python 编写一个基本程序提示用户输入 5 个测试分数然后该程序会将每个测试分数转换为一个绩点即 4 0 3 0 2 0 然后取这些数字的平均值我为每个测试分数分配了自己的变量并将它们输入到 for 循环中如下所
如何在 Visual Studio 中使用构建后事件命令行复制调试 *pdb 文件？

我有一个与网站分开的类库项目当我构建单独的类库并移动 ddl 网站 bin 目录时但它不会移动 pdb 文件类库中的构建后事件命令行选项 I use copy y TargetPath E inetpub Site bin 复制 dl
如何摆脱 Angular 6 服务中的冗余请求？

我的代码中有 3 个独立的地方调用VerificationService method getOrganizationView getOrganizationView Observable
获取包含字符串元素的列表，不包括初始列表中以任何其他元素为前缀的元素

我在过滤字符串列表时遇到一些问题我发现了一个类似的问题here https stackoverflow com questions 22221878 python delete substrings from list of string

获取包含字符串元素的列表，不包括初始列表中以任何其他元素为前缀的元素

获取包含字符串元素的列表，不包括初始列表中以任何其他元素为前缀的元素 的相关文章

随机推荐

热门标签

获取包含字符串元素的列表，不包括初始列表中以任何其他元素为前缀的元素的相关文章