从日志文件 python 创建 csv 标题

2024-05-26

我的日志文件每行都包含一些信息，如下所示

Info1:NewOrder|key:123 |Info3:10|Info5:abc
Info3:10|Info1:OldOrder| key:456| Info6:xyz
Info1:NewOrder|key:007

我想将其更改为如下所示的 csv（如果我提供 key、Info1、Info3 作为所需标题）

key,Info1.Info3
123,NewOrder,10
456,OldOrder,10
007,NewOrder,

之前我使用 awk 来获取字段值，但日志记录可以更改一行中打印的信息和键的顺序。所以我不能确定 Info3 总是在某个特定的列中。每次记录更改时，都需要更改脚本。

然后我打算在 pandas 数据框中加载 csv。所以 python 解决方案会更好。这更多的是从日志文件生成 csv 的数据清理任务。

这是我阅读答案后使用的

import csv
import sys
with open(sys.argv[1], 'r') as myLogfile:
        log=myLogfile.read().replace('\n', '')

requested_columns = ["OrderID", "TimeStamp", "ErrorCode"]

def wrangle(string, requested_columns):
        data = [dict([element.strip().split(":") for element in row.split("|")]) for row in string.split("\n")]
        body = [[row.get(column) for column in requested_columns] for row in data]
        return [requested_columns] + body

outpath = sys.argv[2]
open(outpath, "w", newline = "") with open(outpath, 'wb')
        writer = csv.writer(file)
        writer.writerows(wrangle(log, requested_columns))

示例日志文件=https://ideone.com/cny805 https://ideone.com/cny805

您可以使用 csv 阅读器|分隔符让您开始，然后使用分割:为您提供每行字典，如下所示：

import csv

with open('input.csv', 'rb') as f_input, open('output.csv', 'wb') as f_output:
    csv_output = csv.writer(f_output)
    cols = ["OrderID", "TimeStamp", "ErrorCode"]
    csv_output.writerow(cols)

    for row in csv.reader(f_input, delimiter='|'):
        # Remove any entries that do not have a colon
        row = [c for c in row if c.find(':') != -1]
        # Convert remaining columns into a dictionary
        entries = {c.split(':')[0].strip() : c.split(':')[1].strip() for c in row}
        csv_output.writerow([entries.get(c, "") for c in cols])

给你一个输出文件：

OrderID,TimeStamp,ErrorCode
3000000,1488948188555841641,
3000000,1488948188556444675,0

要将数据直接读入 Pandas 数据帧：

import pandas as pd
import csv

cols = ["OrderID", "TimeStamp", "ErrorCode"]
data = []

with open('input.csv', 'rb') as f_input:
    csv_output = csv.writer(f_output)

    for row in csv.reader(f_input, delimiter='|'):
        # Remove any entries that do not have a colon
        row = [c for c in row if c.find(':') != -1]
        # Convert remaining columns into a dictionary
        entries = {c.split(':')[0].strip() : c.split(':')[1].strip() for c in row}
        data.append([entries.get(c, "") for c in cols])

df = pd.DataFrame(data, columns=cols)
print df

给你：

   OrderID            TimeStamp ErrorCode
0  3000000  1488948188555841641          
1  3000000  1488948188556444675         0

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

csv

从日志文件 python 创建 csv 标题的相关文章

Django 管理员在模型编辑时间歇性返回 404

我们使用 Django Admin 来维护导出到我们的一些站点的一些数据有时当单击标准更改列表视图来获取模型编辑表单而不是路由到正确的页面时我们会得到 Django 404 页面模板它是偶尔发生的我们可以通过重新加载三次来重现它
使 django 服务器可以在 LAN 中访问

我已经安装了Django服务器可以如下访问 http localhost 8000 get sms http 127 0 0 1 8000 get sms 假设我的IP是x x x x 当我这样做时从同一网络下的另一台电脑 my ip
使用带有关键字参数的 map() 函数

这是我尝试使用的循环map功能于 volume ids 1 2 3 4 5 ip 172 12 13 122 for volume id in volume ids my function volume id ip ip 我有办法做到这一点
Django：按钮链接

我是一名 Django 新手用户尝试创建一个按钮单击该按钮会链接到我网站中的另一个页面我尝试了一些不同的例子但似乎没有一个对我有用举个例子为什么这不起作用
使用 matplotlib 绘制时间序列数据并仅在年初显示年份

rcParams date autoformatter month b n Y 我正在使用 matpltolib 来绘制时间序列如果我按上述方式设置 rcParams 则生成的图会在每个刻度处标记月份名称和年份我怎样才能将其设置为仅在每
如何在 Python 中检索 for 循环中的剩余项目？

我有一个简单的 for 循环迭代项目列表在某些时候我知道它会破裂我该如何退回剩余的物品 for i in a b c d e f g try some func i except return remaining items if s
使用 on_bad_lines 将 pandas.read_csv 中的无效行写入文件

我有一个 CSV 文件我正在使用 Python 来解析该文件我发现文件中的某些行具有不同的列数 001 Snow Jon 19801201 002 Crom Jake 19920103 003 Wise Frank 19880303 l
python 相当于 R 中的 get() （= 使用字符串检索符号的值）

在 R 中 get s 函数检索名称存储在字符变量向量中的符号的值s e g X lt 10 r lt XVI s lt substr r 1 1 X get s 10 取罗马数字的第一个符号r并将其转换为其等效整数尽管花了一些时间翻
以编程方式停止Python脚本的执行？ [复制]

这个问题在这里已经有答案了是否可以使用命令在任意行停止执行 python 脚本 Like some code quit quit at this point some more code that s not executed sys e
OpenCV 无法从 MacBook Pro iSight 捕获

几天后我无法再从 opencv 应用程序内部打开我的 iSight 相机 cap cv2 VideoCapture 0 返回并且cap isOpened 回报true 然而 cap grab 刚刚返回false 有任何想法吗示例代码
BeautifulSoup 中的嵌套标签 - Python

我在网站和 stackoverflow 上查看了许多示例但找不到解决我的问题的通用解决方案我正在处理一个非常混乱的网站我想抓取一些数据标记看起来像这样 table tbody tr tr tr td td td table tr t
添加不同形状的 numpy 数组

我想添加两个不同形状的 numpy 数组但不进行广播而是将缺失值视为零可能最简单的例子是 1 2 3 2 gt 3 2 3 or 1 2 3 2 1 gt 3 2 3 1 0 0 我事先不知道形状我正在弄乱每个 np shape
Jupyter Notebook 内核一直很忙

我已经安装了 anaconda 并且 python 在 Spyder IPython 等中工作正常但是我无法运行 python 笔记本内核被创建它也连接但它始终显示黑圈忙碌符号防火墙或防病毒软件没有问题我尝试过禁用两者我也无法
对年龄列进行分组/分类

我有一个数据框说df有一个柱子 Ages gt gt gt df Age 0 22 1 38 2 26 3 35 4 35 5 1 6 54 我想对这个年龄段进行分组并创建一个像这样的新专栏 If age gt 0 age lt 2 the
有没有办法检测正在运行的代码是否正在上下文管理器内执行？

正如标题所述有没有办法做到这样的事情 def call back if called inside context print running in context else print called outside context 这将
Conda SafetyError：文件大小不正确

使用创建 Conda 环境时conda create n env name python 3 6 我收到以下警告 Preparing transaction done Verifying transaction SafetyError Th
Python：如何将列表列表的元素转换为无向图？

我有一个程序可以检索 PubMed 出版物列表并希望构建一个共同作者图这意味着对于每篇文章我想将每个作者如果尚未存在添加为顶点并添加无向边或增加每个合著者之间的权重我设法编写了第一个程序该程序检索每个出版物的作者列表并
如何计算 pandas 数据帧上的连续有序值

我试图从给定的数据帧中获取连续 0 值的最大计数其中包含来自 pandas 数据帧的 id date value 列如下所示 id date value 354 2019 03 01 0 354 2019 03 02 0 354 201
识别 pandas 数据框中各组之间的差异

我有一个按日期和 ID 索引的 pandas 数据框我想识别日期之间增删的ID 将 ID 添加到另一个数据帧以及添加删除的日期 date ID value 12 31 2010 13 0 124409 9 0 555959 1 0 7
Rocket UniData/UniVerse：ODBC 无法分配足够的内存

每当我尝试使用pyodbc连接到 Rocket UniData UniVerse 数据时我不断遇到错误 pyodbc Error 00000 00000 Rocket U2 U2ODBC 0302810 Unable to allocate

随机推荐

从多维数组中删除多个值

我有一个来自 WordPress 的数组get posts 功能 posts array 15 0 gt object WP Post 285 24 ID gt int 253 post author gt string 1 1 post
原包AndroidManifest属性有什么用？

我使用 apktool 提取 Jelly Bean 上默认浏览器的清单清单中出现了这一行
在 MVC3 Razor 视图中引用 EntityFramework 4.1 命名空间

我试图在我的 MVC3 项目中的共享视图内引用 System Data Entity Validation EF 4 1 版本命名空间我已经能够使用以下方式引用其他外部库 using Example Namespace 然而当涉及到作
enable_shared_from_this 与直接分配

为什么我应该使用enable shared from this 因为我也可以通过简单的赋值获得相同的效果 struct A std enable shared from this a std shared ptr a getptr retu
Mobile Safari 中的 React PWA 图像上传会破坏应用程序吗？

我们很惊讶在网上没有发现任何提及此问题的信息因此我们在此发帖希望能找到解决方案当我们在使用 iPhone 进行移动 Safari 浏览时遇到此问题运行下面 2 个易于遵循的测试一个有效一个无效链接在这里https pwa rea
Solr 中的拼写检查中阈值频率不起作用

我得到stuck在中间Solr 我只需要最流行的词 w r t query 我用过语音过滤器双方索引和查询但这里的problem是它正在给予术语太多我只需要几个术语这是非常具体的query 模式 xml
从java应用程序发送电子邮件时出现异常：中继被拒绝

我们正在使用 Spring Mail 从 java 应用程序发送电子邮件 org springframework mail javamail JavaMailSenderImpl Spring电子邮件配置是
如何从横滚、俯仰和偏航获取相机向上矢量？

我需要从滚动角俯仰角和偏航角以度为单位获取相机的向上矢量以获得正确的外观我已经尝试了几个小时不同的事情但没有运气这里的任何帮助将不胜感激横滚俯仰和偏航定义 3 轴旋转从这些角度您可以构建一个 3x3 变换矩阵来表达该旋
Android 7 GraphicBuffer 替代方案，用于直接访问 OpenGL 纹理内存

从移动设备具有 CPU 和 GPU 共享内存这一事实中获利的唯一方法是使用GrphicBuffer 但由于 Android 7 限制对私有本机库包括 gralloc 的访问因此无法再使用它问题是否有其他方法可以直接内存访问纹理的像素
Java Swing 自定义形状（2D 图形）

我需要绘制自定义形状现在当用户单击面板上的几个点时我使用多边形创建一个形状 public void mouseClicked MouseEvent e polygon addPoint e getX e getY repaint 但我
创建UML图时应该编写构造函数吗？

我有一项作业要求我为实际的 Java 程序创建 UML 图但程序中有几个构造函数方法我很困惑我是否应该将这些构造函数方法添加到图中根据 UML 规范 2 5 版第 11 4 4 节构造函数是一个具有所属类类型的单个返回结果参数的操
预览来自 url 输入的图像

我有这段代码从 url 预览图像它工作得很好除了它仅在用户单击输入框外部时运行我如何更改它以便在将值放入输入框中时它会立即运行我需要立即显示图像我想我需要改变onblur to onchange但我尝试改变它但没有成功
ASP.NET ascx 与 aspx - 您是否重用用户控件？

我们的团队正在开发一个相当大的 ASP NET Web 项目该项目最初从 ASP NET 1 0 开始并多次移植到所有新版本的 NET 我们广泛利用了用户控件 ascx 但现在回想起来我怀疑这是一个好的决定这些控件中的一小部分可以通
在经典 ASP 中使用 Response.Write 进行调试

我正在尝试使用调试一些代码Response Write 但是当我运行代码时它会跳过该语句并在代码中的某个位置出现错误我怎样才能得到我的Response Write语句来显示而不会出现其他错误我经常使用Response End当我必须查
如何使用相对路径链接到另一个本地文件？

这是一个非常基本的 html 问题但我似乎找不到答案我有一个本地文件位于此处 Users Me Desktop Main June foo txt 在位于 Main 目录中的 html 文档中我可以链接到foo txt使用完整路径的文
如何为 eclipse 添加更多语法元素

我正在尝试添加更多语法元素Zend Studio为了日食我想更改等号的颜色但它没有列出所以我可以更改它您可能想投票给http bugs eclipse org 213992 http bugs eclipse org 213992因
Flexbox：元素阴影不适用于 order 属性

我正在尝试使用 CSS3 的 Flexbox 功能创建一个简单的布局但遇到了一个问题我无法放置我的阴影nav元素在main元素即使nav元素位于main 我尝试使用order属性但我不明白为什么nav的影子在下面main html h
GridView 仅显示第一个检索到的记录

我成功地从数据库中检索了我需要的所有记录但是只有一条记录显示在我的数据库中GridView 在过去的几天里我一直在尝试解决这个问题因为我没有其他选择可以尝试所以我真的很沮丧我迫切需要一些帮助我尝试操作查询因为我最初认为这是问题所
如何使用 Promise.all 获取 URL 数组？

如果我有一个 url 数组 var urls 1 txt 2 txt 3 txt these text files contain one two three respectively 我想构建一个如下所示的对象 var text one
从日志文件 python 创建 csv 标题

我的日志文件每行都包含一些信息如下所示 Info1 NewOrder key 123 Info3 10 Info5 abc Info3 10 Info1 OldOrder key 456 Info6 xyz Info1 NewOrder

从日志文件 python 创建 csv 标题

从日志文件 python 创建 csv 标题 的相关文章

随机推荐

热门标签

从日志文件 python 创建 csv 标题的相关文章