Python数据处理工具—去除TXT文件里面相同的数据

2023-05-16

前言

        本次分享的是一个对TXT数据进行处理的一个小工具,功能如题,是把TXT里面相同的数据给清洗掉是剩下唯一的一个。

一、数据

 随便在文件里面写了一点数据,可以看到里面有很多重复的数据,那么里面重复的就是我们要进行清理的。

二、代码

1.实现代码

代码如下:

# 去除txt里面相同的数据
f_read = open(r'./需清理的TXT.txt', 'r', encoding='utf-8')  # 将需要去除重复值的txt文本输入
f_write = open(r'./需清理的TXT1.txt', 'w',encoding='utf-8')  # 去除重复值之后,生成新的txt文本 --“去除重复值后的文本.txt”,如果写入到原txt会把之前的数据覆盖
data = set()  # 创建一个存放数据的集合
for a in [a.strip('\n') for a in list(f_read)]:  # 把读取进来的数据变成列表,再逐个循环读取列表里面的数据(去除开头和结尾的换行)
    if a not in data:  # 判断循环的数据在不在集合里,不在就添加进集合
        data.add(a)
        f_write.write(a + '\n')
f_read.close()
f_write.close()
print('完成')

2.结果

可以看到相比于上面的数据,都保留下了唯一的数据,多余的数据都被清理掉了


总结

        整体代码实现还是比较简单的,用到的都是Python自带的一些方法。整体逻辑是读取文件→判断是否在集合里,不在就添加进集合→写入一个新的TXT文件。TXT用的是覆盖写入,会把之前写入的东西覆盖,所以只会保留最后一次集合的结果。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Python数据处理工具—去除TXT文件里面相同的数据 的相关文章

  • 下载 PyQt6 的 Qt Designer 并使用 pyuic6 将 .ui 文件转换为 .py 文件

    如何下载 PyQt6 的 QtDesigner 如果没有适用于 PyQt6 的 QtDesigner 我也可以使用 PyQt5 的 QtDesigner 但是如何将此 ui 文件转换为使用 PyQt6 库而不是 PyQt5 的 py 文件
  • 如何在刻度标签和轴之间添加空间

    我已成功增加刻度标签的字体 但现在它们距离轴太近了 我想在刻度标签和轴之间添加一点呼吸空间 如果您不想全局更改间距 通过编辑 rcParams 并且想要更简洁的方法 请尝试以下操作 ax tick params axis both whic
  • 将字符串转换为带有毫秒和时区的日期时间 - Python

    我有以下 python 片段 from datetime import datetime timestamp 05 Jan 2015 17 47 59 000 0800 datetime object datetime strptime t
  • 使用 openCV 对图像中的子图像进行通用检测

    免责声明 我是计算机视觉菜鸟 我看过很多关于如何在较大图像中查找特定子图像的堆栈溢出帖子 我的用例有点不同 因为我不希望它是具体的 而且我不确定如何做到这一点 如果可能的话 但我感觉应该如此 我有大量图像数据集 有时 其中一些图像是数据集的
  • 如何使用固定的 pandas 数据框进行动态 matplotlib 绘图?

    我有一个名为的数据框benchmark returns and strategy returns 两者具有相同的时间跨度 我想找到一种方法以漂亮的动画风格绘制数据点 以便它显示逐渐加载的所有点 我知道有一个matplotlib animat
  • 如何生成给定范围内的回文数列表?

    假设范围是 1 X 120 这是我尝试过的 gt gt gt def isPalindrome s check if a number is a Palindrome s str s return s s 1 gt gt gt def ge
  • 如何在android上的python kivy中关闭应用程序后使服务继续工作

    我希望我的服务在关闭应用程序后继续工作 但我做不到 我听说我应该使用startForeground 但如何在Python中做到这一点呢 应用程序代码 from kivy app import App from kivy uix floatl
  • 如何等到 Excel 计算公式后再继续 win32com

    我有一个 win32com Python 脚本 它将多个 Excel 文件合并到电子表格中并将其另存为 PDF 现在的工作原理是输出几乎都是 NAME 因为文件是在计算 Excel 文件内容之前输出的 这可能需要一分钟 如何强制工作簿计算值
  • 如何使用装饰器禁用某些功能的中间件?

    我想模仿的行为csrf exempt see here https docs djangoproject com en 1 11 ref csrf django views decorators csrf csrf exempt and h
  • 在pyyaml中表示具有相同基类的不同类的实例

    我有一些单元测试集 希望将每个测试运行的结果存储为 YAML 文件以供进一步分析 YAML 格式的转储数据在几个方面满足我的需求 但测试属于不同的套装 结果有不同的父类 这是我所拥有的示例 gt gt gt rz shorthand for
  • Abaqus 将曲面转化为集合

    我一直试图在模型中找到两个表面的中心 参见照片 但未能成功 它们是元素表面 面 查询中没有选项可以查找元素表面的中心 只能查找元素集的中心 找到节点集的中心也很好 但是我的节点集没有出现在工具 gt 查询 gt 质量属性选项中 而且我找不到
  • HTTPS 代理不适用于 Python 的 requests 模块

    我对 Python 还很陌生 我一直在使用他们的 requests 模块作为 PHP 的 cURL 库的替代品 我的代码如下 import requests import json import os import urllib impor
  • ExpectedFailure 被计为错误而不是通过

    我在用着expectedFailure因为有一个我想记录的错误 我现在无法修复 但想将来再回来解决 我的理解expectedFailure是它会将测试计为通过 但在摘要中表示预期失败的数量为 x 类似于它如何处理跳过的 tets 但是 当我
  • Python 3 中“map”类型的对象没有 len()

    我在使用 Python 3 时遇到问题 我得到了 Python 2 7 代码 目前我正在尝试更新它 我收到错误 类型错误 map 类型的对象没有 len 在这部分 str len seed candidates 在我像这样初始化它之前 se
  • 从 pygame 获取 numpy 数组

    我想通过 python 访问我的网络摄像头 不幸的是 由于网络摄像头的原因 openCV 无法工作 Pygame camera 使用以下代码就像魅力一样 from pygame import camera display camera in
  • 为美国东部以外地区的 Cloudwatch 警报发送短信?

    AWS 似乎没有为美国东部以外的 SNS 主题订阅者提供 SMS 作为协议 我想连接我的 CloudWatch 警报并在发生故障时接收短信 但无法将其发送到 SMS YES 经过一番挖掘后 我能够让它发挥作用 它比仅仅选择一个主题或输入闹钟
  • Python:计算字典的重复值

    我有一本字典如下 dictA unit1 test1 alpha unit1 test2 beta unit2 test1 alpha unit2 test2 gamma unit3 test1 delta unit3 test2 gamm
  • 对输入求 Keras 模型的导数返回全零

    所以我有一个 Keras 模型 我想将模型的梯度应用于其输入 这就是我所做的 import tensorflow as tf from keras models import Sequential from keras layers imp
  • 循环标记时出现“ValueError:无法识别的标记样式 -d”

    我正在尝试编码pyplot允许不同标记样式的绘图 这些图是循环生成的 标记是从列表中选取的 为了演示目的 我还提供了一个颜色列表 版本是Python 2 7 9 IPython 3 0 0 matplotlib 1 4 3 这是一个简单的代
  • Spark.read 在 Databricks 中给出 KrbException

    我正在尝试从 databricks 笔记本连接到 SQL 数据库 以下是我的代码 jdbcDF spark read format com microsoft sqlserver jdbc spark option url jdbc sql

随机推荐

  • 详解%d、%%d、%%%d和\\%d的区别

    1 d xff0c 表示按整型输出后面给出的变量的值 2 d xff0c 这就会被拆成两部分看待 xff0c 一是 在C语言中就是输出一个 xff0c 而是 d 就是一个普通字符 xff0c 所以当 d 在一起时 xff0c 其含义就是输出
  • C语言数组小记1

    在一维数值里 xff1a xff08 假设a 0 的地址为2000 xff09 如 xff1a int a 61 10 9 8 7 6 5 xff1b printf xff08 d d d xff0c a xff0c a 0 xff0c a
  • C语言数组小记2

    示例 xff1a 在二维数组下行与列的问题 如 xff1a int a 3 3 61 9 8 7 6 5 4 3 2 1 假设我们a 0 0 的地址是2000 xff0c a 0 1 的地址是2004 xff0c 相差4个字节 printf
  • 正点stm32串口中断理解

    首先把程序放上来 xff0c 最后结论总结在最后 u8 USART RX BUF USART REC LEN u16 USART RX STA 61 0 void USART1 IRQHandler void 串口1中断服务程序 u8 Re
  • windows用xrdp方式远程桌面连接ubuntu

    windows系统 xff1a win10 ubuntu系统 xff1a 18 04 5 参考文章 xff1a https forum ubuntu org cn viewtopic php f 61 54 amp p 61 3221658
  • Linux中用vim编辑器打开时自动补入头文件,注释方法

    1 首先我用的是乌班头的linux xff0c 打开终端 2 通常我们打开终端的时候是直接在home目录下3 我们直接直接退到根目录下 xff0c 找到etc目录 4 输入sudo vi etc vim vimrc 其实熟练的也可以234步
  • HTTP中get、post、put、delete的区别

    今天开发遇到了 put请求 xff0c 顺便过来拔拔草 xff01 先说说最常用的get请求跟post请求的区别 xff1a GET请求 xff1a 一般是获取服务器资源 xff1b get请求的查询参数需要挂载请求地址中 xff1b 请求
  • ubuntu网络无法连接(桥接模式)

    ubuntu桥接模式网络无法连接 问题描述 问题描述 最近几天遇到了一个网络配置问题 xff0c 因为之前的虚拟机崩了 xff0c 我就跟换了ubuntu21 04版本 xff0c 创建虚拟机的时候就选了桥接模式 xff0c 虚拟网络编辑器
  • centos7安装Prometheus+Grafana步骤

    sentos7安装Prometheus 43 Grafana 环境部署规划表 服务端 监视器 Prometheus服务端 Grafana服务端CentOS 7 9grafana192 168 3 230客户端 被监控主机 CentOS 7
  • gitlab-ce安装

    gitlab ce安装 sentos 下载 wget http mirrors tuna tsinghua edu cn gitlab ce yum el7 gitlab ce 12 9 0 ce 0 el7 x86 64 rpm 2021
  • gitlab-runner升级

    gitlab runner版本升级 添加GitLab官方仓库 For Debian Ubuntu Mint curl L https packages gitlab com install repositories runner gitla
  • docker可视化工具Shipyard

    Docker Shipyard Shipyard简介 shipyard是一个开源的docker管理平台 xff0c 其特性主要包括 xff1a 支持节点动态集群 xff0c 可扩展节点的规模 xff08 swarm etcd方案 xff09
  • jira8安装

    Jira8 3 3安装 下载jira安装包 xff0c 破解包和jdk包 链接 xff1a https pan baidu com s 1yHsXkW1ZpkcNQeBkvE Hog 提取码 xff1a zzzz 安装数据库 网上很多就不在
  • goteleport10.0本地安装使用

    goteleport10 0本地安装使用 环境说明 master xff1a 192 168 8 132 node1 xff1a 192 168 8 131 node2 xff1a 192 168 8 133 master本地生成域名证书
  • [csp2019]Emiya家今天的饭

    作为提高组 d 2 t 1 d2t1 d 2 t 1 xff0c 比去年难 所以这道题我打的特别的差 32pts 这道题我们很显然可以看到可以打一个暴力 复杂度
  • React 函数组件导出自定义方法的办法说明

    在进行React开发时 xff0c 函数组件是比较方便的 xff0c 由于函数组件没有this指针 xff0c 因此如果想在父组件里调用函数型子组件的方法 xff0c 就需要用到React useImperativeHandle 这个帮助函
  • centos7防火墙关闭telnet端口不通

    root 64 zabbix agen2 systemctl status firewalld firewalld service firewalld dynamic firewall daemon Loaded loaded usr li
  • centos7安装配置夜莺V5+睿象云实现电话短信告警

    服务器清单 hostnameipmaster192 168 8 128zabbix agen1192 168 8 134 master安装夜莺依赖 install prometheus mkdir p opt prometheus wget
  • (踩坑指南)cd .ssh返回-bash: cd: .ssh:No such file or directory怎么办

    1 cd ssh返回 bash cd ssh No such file or directory怎么办 出现如下界面 有时候没必要在细节上过于拘泥 xff0c 不如直接配置秘钥 xff0c 反而一切都妥妥的了 2 如何保存退出 xff1f
  • Python数据处理工具—去除TXT文件里面相同的数据

    前言 本次分享的是一个对TXT数据进行处理的一个小工具 xff0c 功能如题 xff0c 是把TXT里面相同的数据给清洗掉是剩下唯一的一个 一 数据 随便在文件里面写了一点数据 xff0c 可以看到里面有很多重复的数据 xff0c 那么里面