遍历子文件编码格式互换(UTF-8与GB2312)

2023-11-07

遍历子文件编码格式互换(UTF-8与GB2312)

在日常开发中，我们经常会遇到需要将文件的编码格式从一种转换为另一种的情况，特别是在不同的操作系统和编辑器之间共享代码文件时。本篇文章将介绍一个Python脚本，用于遍历指定文件夹下的所有.c和.h文件，实现编码格式的互换，即从UTF-8转换为GB2312，或者从GB2312转换为UTF-8，并且还能清除文件中的空行。

使用场景

当项目中的代码文件需要从一种编码格式转换为另一种编码格式时，特别是在协作开发或文件共享时。
当代码文件中存在大量空行，需要一键清除时。

代码功能

遍历指定文件夹下的所有.c和.h文件。
将文件的编码格式从源编码格式转换为目标编码格式。
清除文件中的空行，保持代码整洁。

代码思路

导入必要的库：os用于文件操作，chardet用于检测文件编码。
编写convert_encoding函数，接受文件路径、源编码格式和目标编码格式作为参数，实现编码格式转换。
编写convert_files_in_folder函数，遍历指定文件夹下的文件，调用convert_encoding实现编码转换。
编写cleanup_file函数，用于清除文件中的空行。
编写cleanup_files_in_folder函数，遍历指定文件夹下的文件，调用cleanup_file进行空行清除。
在主程序中，指定目标文件夹路径、源编码格式和目标编码格式，分别调用convert_files_in_folder和cleanup_files_in_folder函数。

示例图片

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-mUMEUXp7-1692757789629)(图片链接)]

源代码

import os
import chardet


# 函数：convert_encoding
# 参数：file_path - 文件路径
#      source_encoding - 源编码格式
#      target_encoding - 目标编码格式
# 用途：将指定文件的编码从源编码格式转换为目标编码格式
def convert_encoding(file_path, source_encoding, target_encoding):
    # 打开文件以二进制只读模式读取文件内容
    with open(file_path, 'rb') as f:
        content = f.read()
        # 使用 chardet 检测文件内容的编码格式
        detected_encoding = chardet.detect(content)['encoding']

        # 如果检测到的编码格式为 None，将使用 source_encoding 作为默认编码
        if detected_encoding is None:
            detected_encoding = source_encoding

        # 如果检测到的编码与目标编码相同，直接返回
        if detected_encoding == target_encoding:
            return

        # 将文件内容按照检测到的编码解码为字符串
        content = content.decode(detected_encoding)

    # 打开文件以目标编码格式写入文件内容
    with open(file_path, 'w', encoding=target_encoding) as f:
        f.write(content)


# 函数：convert_files_in_folder
# 参数：folder_path - 文件夹路径
#      source_encoding - 源编码格式
#      target_encoding - 目标编码格式
# 用途：遍历指定文件夹下的所有 .c 和 .h 文件，并将其编码格式转换为目标编码格式
def convert_files_in_folder(folder_path, source_encoding, target_encoding):
    # 遍历指定文件夹及其子文件夹中的所有文件
    for root, dirs, files in os.walk(folder_path):
        for file in files:
            # 如果文件以 .c 或 .h 结尾，则执行编码转换
            if file.endswith(('.c', '.h')):
                file_path = os.path.join(root, file)
                # 调用 convert_encoding 函数进行编码转换
                convert_encoding(file_path, source_encoding, target_encoding)
                print(f"Converted: {file_path}")


# 函数：cleanup_file
# 参数：file_path - 文件路径
# 用途：清理文件中的空行
def cleanup_file(file_path):
    with open(file_path, 'rb') as f:
        content = f.read()
        detected_encoding = chardet.detect(content)['encoding']

        if detected_encoding is None:
            detected_encoding = 'utf-8'

        content = content.decode(detected_encoding, errors='replace')
        lines = content.splitlines()

        cleaned_lines = []
        for line in lines:
            if line.strip():  # 如果不是空白行
                cleaned_lines.append(line)

        # 确保最后一行是空行
        if cleaned_lines and cleaned_lines[-1]:
            cleaned_lines.append('')  # 添加一个空行

        cleaned_content = '\n'.join(cleaned_lines)

    with open(file_path, 'w', encoding=detected_encoding, newline='') as f:
        f.write(cleaned_content)


# 函数：cleanup_files_in_folder
# 参数：folder_path - 文件夹路径
# 用途：遍历指定文件夹下的所有 .c 和 .h 文件，并清理文件中的空行
def cleanup_files_in_folder(folder_path):
    for root, dirs, files in os.walk(folder_path):
        for file in files:
            if file.endswith(('.c', '.h')):
                file_path = os.path.join(root, file)
                cleanup_file(file_path)
                print(f"Cleaned: {file_path}")


if __name__ == "__main__":
    target_folder_convert = r"D:\学习\PythonCode\User"
    source_encoding_convert = "utf-8"
    target_encoding_convert = "gb2312"
    convert_files_in_folder(target_folder_convert, source_encoding_convert, target_encoding_convert)
    print("编码转换完成。")

    cleanup_files_in_folder(target_folder_convert)
    print("空行删除完成。")

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

工具

python

遍历子文件编码格式互换(UTF-8与GB2312) 的相关文章

在 Python 中解析 TCL 列表

我需要在双括号上拆分以空格分隔的 TCL 列表例如 OUTPUT 172 25 50 10 01 01 Ethernet 172 25 50 10 01 02 Ethernet Traffic Item 1 172 25 50 10 01
类的 IPython 表示

我正在使用我创建的模块尝试 IPython 但它没有显示类对象的实际表示相反它显示类似的内容 TheClass module TheClass name I heavily在这个模块中使用元类我有真正有意义的类表示应该向用户显示是
在 Python 中将列表元素作为单独的项目返回

Stackoverflow 的朋友们大家好我有一个计算列表的函数我想单独返回列表的每个元素如下所示接收此返回的函数旨在处理未定义数量的参数 def foo my list 1 2 3 4 return 1 2 3 4 列表中的元素数
Django Rest Framework 是否有第三方应用程序来自动生成 swagger.yaml 文件？

我有大量的 API 端点编写在django rest framework并且不断增加和更新如何创建和维护最新的 API 文档我当前的版本是 Create swagger yaml文件并以某种方式在每次端点更改时自动生成然后使用此文件作
Python 内置的 super() 是否违反了 DRY？

显然这是有原因的但我没有足够的经验来认识到这一点这是Python中给出的例子docs http docs python org 2 library functions html super class C B def method se
如何使用 Selenium 和 ChromeDriver 解决 TypeError: 'module' object is not callable 错误 [重复]

这个问题在这里已经有答案了代码试验 from selenium import webdriver from selenium webdriver chrome options import Options as Chromeoptions
导入错误：没有名为flask.ext.login的模块

我的flask login 模块有问题我已经成功安装了flask login模块另外从命令提示符我可以轻松运行此脚本不会出现错误 Python 2 7 r27 82525 Jul 4 2010 07 43 08 MSC v 1500
Python - 如何确定解析的 XML 元素的层次结构级别？

我正在尝试使用 Python 解析 XML 文件中具有特定标记的元素并生成输出 excel 文档该文档将包含元素并保留其层次结构我的问题是我无法弄清楚每个元素解析器在其上迭代的嵌套深度 XML 示例摘录 3 个元素它们可以任意嵌套
将 Matlab 的 datenum 格式转换为 Python

我刚刚开始从 Matlab 迁移到 Python 2 7 在读取 mat 文件时遇到一些问题时间信息以 Matlab 的日期数字格式存储对于那些不熟悉它的人日期序列号将日历日期表示为自固定基准日期以来已经过去的天数在 MATLAB
在 Google App Engine 中，如何避免创建具有相同属性的重复实体？

我正在尝试添加一个事务以避免创建具有相同属性的两个实体在我的应用程序中每次看到新的 Google 用户登录时我都会创建一个新的播放器当新的 Google 用户在几毫秒内进行多个 json 调用时我当前的实现偶尔会创建重复的播放器
带有 LSTM 的 GridSearchCV/RandomizedSearchCV

我一直在尝试通过 RandomizedSearchCV 调整 LSTM 的超参数我的代码如下 X train X train reshape X train shape 0 1 X train shape 1 X test X test
如何使用 AWS Lambda Python 读取 AWS S3 存储的 Word 文档（.doc 和 .docx）文件内容？

我的场景是我尝试使用 python 实现从 Aws Lambda 读取 AWS 存储的 S3 word 文档 doc 和 docx 文件内容下面的代码是我使用的我的问题是我可以获取文件名但无法读取内容 def lambda hand
Python：Goslate 翻译请求返回“503：服务不可用”[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我们不允许提出寻求书籍工具软件库等推荐的问题您可以编辑问题以便用事实和引文来回答这个问题似乎不是关于主要由程序员使用的特定编程问
如何将 Django 中的权限添加到模型并使用 shell 进行测试

我在模型中添加了 Meta 类并同步了数据库然后在 shell 中创建了一个对象它返回 false 所以我真的无法理解错误在哪里或者缺少什么是否在其他文件中可能存在某种配置 class Employer User Employer in
等待子进程使用 os.system

我用了很多os system在 for 循环内调用创建后台进程如何等待所有后台进程结束 os wait告诉我没有子进程 ps 我使用的是Solaris 这是我的代码 usr bin python import subprocess imp
在virtualenv中下载sqlite3

我正在尝试使用命令创建应用程序python3 manage py startapp webapp但我收到一条错误消息 django core exceptions ImproperlyConfigured 加载时出错 pysqlite2 或
pandas.read_csv 将列名移动一倍

我正在使用位于的 ALL zip 文件here http www fec gov disclosurep PDownload do 我的目标是用它创建一个 pandas DataFrame 但是如果我跑 data pd read csv
如何在 Flask 中的视图函数/会话之间传递复杂对象

我正在编写一个 Web 应用程序当且仅当用户登录时该应用程序从第三方服务器接收大量数据这些数据被解析为自定义对象并存储在list 现在用户在应用程序中使用这些数据调用不同的视图例如发送不同的请求我不确定什么是最好的模式在视
pytest找不到模块[重复]

这个问题在这里已经有答案了我正在关注pytest 良好实践 https docs pytest org en latest explanation goodpractices html test discovery或者至少我认为我是但是
NLTK：查找单词大小为 2k 的上下文

我有一个语料库我有一个词对于语料库中该单词的每次出现我想获取一个包含该单词之前的 k 个单词和该单词之后的 k 个单词的列表我在算法上做得很好见下文但我想知道 NLTK 是否提供了一些我错过的功能来满足我的需求 def size

随机推荐

MQTT.fx连接阿里云

第一步查看阿里云设备 MQTT 参数点击设备点击设备信息点击mqtt连接参数查看第2步打开 MQTT fx 软件点击齿轮点击新建项目输入项目名称 MQTT test 01 复制mqtt连接参数 clientId
GDAL库简介以及在Windows下编译过程

GDAL Geospatial Data Abstraction Library 地理空间数据抽象库是一个在X MIT许可协议下的开源栅格空间数据转换库官网http www gdal org index html 也可参考GitHub
Could not connect to ‘192.168.203.128‘ (port 22): Connection failed.

问题展示请在保证虚拟机和宿主机之间完美连接之后再看此篇文章如何保证呢操作请看这篇 Linux虚拟机与Windows宿主机间的通信如何验证呢当然是 ping 啊虚拟机 ping 主机通主机 ping 虚拟机通通常情况下
obj文件

obj 文件是一种常用的 3D 模型文件格式它由许多顶点坐标法向量和纹理坐标组成可以用来描述复杂的三维模型 obj 文件是一种文本文件可以使用纯文本编辑器打开也可以使用专门的 3D 模型软件来打开编辑和渲染 obj 文件通常与
1800亿参数，世界顶级开源大模型Falcon官宣！碾压LLaMA 2，性能直逼GPT-4

来源新智元导读一经发布地表最强开源模型Falcon 180B直接霸榜HF 3 5万亿token训练性能直接碾压Llama 2 一夜之间世界最强开源大模型Falcon 180B引爆全网 1800亿参数 Falcon在3 5万亿to
电路中的输入与输出电阻计算

电路的输入与输出电阻计算前言一输入电阻 1 一端口网络的概念一端口网络的特性输入电阻的计算方法前言本人是大二电子系的一个学生大二上在学习模电当学习到各种BJT电路 FET电路差分放大电路或负反馈放大电路时新学习的增益计
生信学习——生信人的20个R语言习题（上）（附详细答案解读）

题目目录 1 安装一些R包 2 了解ExpressionSet对象比如CLL包里面就有data sCLLex 找到它包含的元素提取其表达矩阵使用exprs函数查看其大小 3 了解 str head help函数作用于第二步提取到的
第 14 篇 : 安装Docker

1 安装任选其一从160 165依次安装批量安装 1 1 按照官方文档安装 Install on CentOS 1 2 通过阿里云镜像安装推荐 sudo yum remove docker docker client docker
陶氏公司将出席2023第二届中国汽车碳中和峰会

2023第二届中国汽车碳中和峰会将于10月19日 20日在上海举办本次峰会将为行业领导者政策制定者和专家提供一个平台讨论汽车行业减少碳排放的策略专家们将从政策供应链 ESG 替代能源解决方案汽车材料创新法律等不同领域分享碳中和
01.个人项目难点汇总2 css定制科技感缺角边框

01 CSS3实现缺角矩形折角矩形以及缺角边框前言前几天偶然看到缺角矩形这个功能脑袋中第一想法是搞个绝对定位的伪元素哪里需要挡哪里或者找UI小哥聊聊天忽然灵光一闪想起之前翻过的 CSS揭秘一书记得有这个篇章遂有了此文
react入门+UMI

React 一创建项目安装基本第三方库以及配置所需目录 sudo npm i g create react app npm下安装react环境 create react app react demo 创建一个项目名为react demo
从Gles、Vulkan到Metal（一）-- 数据和提交

无论以任何形式本篇文章内容请注明来自leonnwei的csdn blog 引言一直想整理下关于移动端图形编程API的文档图形API为何重要如果说图形编程的内功是计算机图形学的诸原理和算法那么外功就是实实在在的硬件API 不能精通A
Apache License 2.0

Apache License 2 0 是 Apache 软件基金会发布的开源软件许可证它是一种宽松的允许商用的许可证适用于开源项目和商业项目 Apache 2 0 许可证是一个相对较新的版本于2004年发布取代了早期的 Apach
决策树——信息熵，条件熵，信息增益

1 信息熵信息熵是度量样本集的纯合度的一种常用的指标熵值越大随机变量的不确定性越高比如 0 0 01 1 1 1 1 2 3 4 5 6 7 在这两组数据中上面的数据的不确定性要小只有两种可能性抽中的数字2的概率为1 2 所以
overleaf写论文笔记（latex）

overleaf官网 www overleaf com overleaf中文版 cn overleaf com 目录从零开始获取模板文章标题修改作者修改摘要页脚文字重叠遮挡三线表绘制表格内单元格合并不同行列数不同文字加
黑盒、白盒、灰盒，如何选择合适的模糊测试工具？

在软件开发和安全领域模糊测试是一种常用技术用于发现应用程序或系统中的潜在漏洞和安全弱点选择不同的模糊测试方法将极大地影响测试的有效性和效率本文将比较对比黑盒白盒和灰盒模糊测试的特点和优势并提供选型指导模糊测试的分类黑盒模糊测试
JDBC学习笔记一之JDBC的下载、引用、标准api介绍

1 下载MySQL的JDBC驱动jar包进入MySQL官网 https www mysql com 然后按图操作 2 下载Oracle的JDBC驱动jar包按图提示操作 2 1引用Oracle的JDBC驱动jar包 2 2 Oracle
软件测试工程师工作有多累?怎么入门学习软件测试呢？

软件测试随着时间的发展越来越受欢迎了那么你了解过软件测试吗软件测试工程师工作累吗跟随千锋一起来了解一下吧 1 其实IT行业都需要经常加班的所以软件测试和软件开发其实都一样当然了一般来说开发会更累一点 2 目前国内软件测试的待
neo4j 内存介绍

描述Neo4j内存配置和使用的不同方面内容翻译neo4j 操作手册 1 总览 1 1 操作系统内存必须保留一些内存以运行操作系统本身的进程不可能显式配置应为操作系统保留的RAM数量因为这是在配置页面缓存和堆空间之后仍保持可用的RAM
遍历子文件编码格式互换(UTF-8与GB2312)

遍历子文件编码格式互换 UTF 8与GB2312 在日常开发中我们经常会遇到需要将文件的编码格式从一种转换为另一种的情况特别是在不同的操作系统和编辑器之间共享代码文件时本篇文章将介绍一个Python脚本用于遍历指定文件夹下的所有 c

遍历子文件编码格式互换(UTF-8与GB2312)

遍历子文件编码格式互换(UTF-8与GB2312)

使用场景

代码功能

代码思路

示例图片

源代码

遍历子文件编码格式互换(UTF-8与GB2312) 的相关文章

随机推荐

热门标签