pandas

分组依据，在 pandas 中

select df id count distinct airports as num from df group by df id having count distinct airports gt 3 我正在尝试在 Python pan

python pandas groupby

Python：汇总和聚合 DataFrame 中的组和子组

我正在尝试构建一个表其中的组按子组划分并包含每个子组的计数和平均值例如我想转换以下数据框到一个看起来像这样的表其中interval是一个更大的组和列a thru i成为组内的子组每个单元格中具有相应子组的计数和平均值我尝试过

python pandas NumPy groupby Aggregate

将分层（树状）XML 读入 pandas 数据帧，保留层次结构

我有一个 XML 文档其中包含分层的树状结构请参阅下面的示例该文档包含几个

python xml pandas Tree hierarchicaldata

Pandas：处理测试中看不见的数据

我有一个训练数据集正在构建一些机器学习模型我无权访问测试集并且想要处理在训练中未观察到测试中的分类特征之一的可能性这是一个玩具示例说明了我的意思我有一个数据框 old 像这样 old pd DataFrame car Audi

python pandas

熊猫读_csv。如何忽略换行符之前的分隔符

我正在读取一个包含数值的文件 data pd read csv data dat sep header None 在文本文件中每行以空格结尾因此 pandas 等待不存在的值并在每行末尾添加一个 nan 例如 2 343 4 234

python pandas file

Pandas DataFrame 到列表列表

将列表列表转换为 pandas 数据框很容易 import pandas as pd df pd DataFrame 1 2 3 3 4 5 但是如何将 df 转回列表列表呢 lol df what to do now print lol

python pandas

pandas 预期第 153 行有 10 个字段，看到 11 个字段，如何再添加一列

我有一个 info txt 文件它看起来像这样 B 19960331 00100000 00000000000000 00000000000000 00000000000000 00000000 00000000000000 000000

python pandas DataFrame NumPy

使用 Matplotlib 创建箱线图

我正在使用 python 3 和 jupyter 笔记本我有一个 pandas 数据框其结构如下 location price Apr 25 ASHEVILLE 15 0 Apr 25 ASHEVILLE 45 0 Apr 25 ASH

python pandas matplotlib boxplot

导入文本文件：没有要从文件中解析的列

我正在尝试从 sys stdin 获取输入这是hadoop 的map reducer 程序输入文件为txt格式数据集预览 196 242 3 881250949 186 302 3 891717742 22 377 1 8788871

python pandas hadoopstreaming

即使为 pandas 指定编码，编码也是错误的

我有一个包含重音字符的 CSV 文件我用PyCharm和Sublime打开时检查了编码它是西方的 Windows 1252或ISO 8859 1 我从此 CSV 创建一个 pandas 数据框然后修改它并将其导出到 UTF 8 文本

python pandas encoding

使用 df['Time'] = pd.to_datetime(phData['Time'], format='%H:%M:%S') 后，从 1900-01-01 开始的日期被添加到我的“时间”中

我是一名自学的程序员大约一年了所以很新这是我的数据 phData pd read excel phone call log duration xlsx called from called to Date Time Duration

python pandas datetime

获取 Pandas 的平均年份（多年的平均天数）

我是 Pandas 时间序列和数据帧的新手很难完成这个简单的任务我有一个从 2004 年 1 月 1 日到 2008 年 12 月 31 日的每一天的数据集 data 一维 float32 Numpy 数组日期存储为日期时间对象日期

python datetime NumPy pandas TimeSeries

在 pandas DataFrame 中查找列值最大的行

如何找到特定列的值所在的行maximal df max 会给我每列的最大值我不知道如何获取相应的行使用熊猫idxmax https pandas pydata org pandas docs stable reference api p

python pandas DataFrame row argmax

将字典列表转换为 Pandas 数据框

我有一个Python列表dict每个都有相同的密钥 dict keys k1 k2 k3 k4 k5 k6 More like 30 keys in practice data for i in range 20 More like 300

python Dictionary pandas DataFrame

查找与 id 匹配的最接近时间戳的行，并添加具有值的行

我有 2 个数据帧并且想根据最近的日期时间和匹配 ID 在 df1 中插入一行其中包含 df2 中的值 df 示例如下 df1 storeID datetime 0 111 2020 01 01 00 50 00 1 222 2020

python pandas DataFrame

为什么 Pandas 中的 Pandas .loc 速度取决于 DataFrame 初始化？如何使 MultiIndex .loc 尽可能快？

我正在尝试提高代码性能我使用 Pandas 0 19 2 和 Python 3 5 我刚刚意识到根据数据帧初始化的不同一次写入一大堆值的 loc 速度有很大不同有人可以解释为什么并告诉我什么是最好的初始化吗它可以让我加快我的代码

python performance pandas

Pandas GroupBy：应用带有两个参数的函数

通常当使用 apply 方法传递一个只接受一个参数的函数 def somefunction group group ColumnC group ColumnC 2 return group df groupby ColumnA Colum

python pandas

将 pandas 数据帧导出到 xlsx：处理 python 3.9 上的 openpyxl 问题

使用最新的软件包版本 openpyxl 3 0 6 熊猫 1 2 3 蟒蛇 3 9 在将上面的软件包更新到报告的最新版本之前下面的功能运行良好现在它会引发错误 zipfile BadZipFile 文件不是 zip 文件这样的功能确实

pandas openpyxl xlsx Python39

如何将 pandas DataFrame 保存到 Excel 文件？

我正在尝试从 Web 源加载数据并将其保存为 Excel 文件但不知道该怎么做我应该怎么办 import requests import pandas as pd import xmltodict url https www kstan

python pandas

将证据权重 (WoE) 替换为相应的值

我有一个名为x其最小值为零最大值为 200 万所以我将值切成像这样的代码 bins 0 1 10000 20000 50000 60000 70000 100000 2000000 df input X bins pd cut df i

python pandas machinelearning