pandas 中 header 和 Skiprow 的区别不清楚

2024-01-09

任何人都可以用一个很好的例子来详细说明 header 和skiprows 在语法中的区别 pd.read_excel("名称",标题=数字,skiprows=数字)

您可以关注本文 https://towardsdatascience.com/import-csv-files-as-pandas-dataframe-with-skiprows-skipfooter-usecols-index-col-and-header-fbf67a2f92a，这解释了参数之间的差异header and skiprows包含来自奥林匹克数据集的示例，可以下载here https://github.com/rashida048/Datasets/blob/master/olympics.csv.

总结一下：默认行为pd.read()是读取所有行，在此数据集的情况下，包括不必要的第一行行号。

import pandas as pd
df = pd.read_csv('olympics.csv')
df.head()

                   0         1     2     3     4  ...       11    12    13    14              15
0                NaN  № Summer  01 !  02 !  03 !  ...  № Games  01 !  02 !  03 !  Combined total
1  Afghanistan (AFG)        13     0     0     2  ...       13     0     0     2               2
2      Algeria (ALG)        12     5     2     8  ...       15     5     2     8              15
3    Argentina (ARG)        23    18    24    28  ...       41    18    24    28              70
4      Armenia (ARM)         5     1     2     9  ...       11     1     2     9              12

然而参数skiprows允许您在读取 .csv 文件时删除一行或多行：

df1 = pd.read_csv('olympics.csv', skiprows = 1)
df1.head()

                Unnamed: 0  № Summer  01 !  02 !  ...  01 !.2  02 !.2  03 !.2  Combined total
0        Afghanistan (AFG)        13     0     0  ...       0       0       2               2
1            Algeria (ALG)        12     5     2  ...       5       2       8              15
2          Argentina (ARG)        23    18    24  ...      18      24      28              70
3            Armenia (ARM)         5     1     2  ...       1       2       9              12
4  Australasia (ANZ) [ANZ]         2     3     4  ...       3       4       5              12

如果您想跳过一堆不同的行，您可以执行以下操作（注意缺少的国家/地区）：

df2 = pd.read_csv('olympics.csv', skiprows = [0, 2, 3])
df2.head()

                  Unnamed: 0  № Summer  01 !  02 !  ...  01 !.2  02 !.2  03 !.2  Combined total
0            Argentina (ARG)        23    18    24  ...      18      24      28              70
1              Armenia (ARM)         5     1     2  ...       1       2       9              12
2    Australasia (ANZ) [ANZ]         2     3     4  ...       3       4       5              12
3  Australia (AUS) [AUS] [Z]        25   139   152  ...     144     155     181             480
4              Austria (AUT)        26    18    33  ...      77     111     116             304

The header参数告诉您从哪里开始读取 .csv，在以下情况下，其作用与skiprows = 1:

# this gives the same result as df1 = pd.read_csv(‘olympics.csv’, skiprows = 1)
df4 = pd.read_csv('olympics.csv', header = 1)
df4.head()

                Unnamed: 0  № Summer  01 !  02 !  ...  01 !.2  02 !.2  03 !.2  Combined total
0        Afghanistan (AFG)        13     0     0  ...       0       0       2               2
1            Algeria (ALG)        12     5     2  ...       5       2       8              15
2          Argentina (ARG)        23    18    24  ...      18      24      28              70
3            Armenia (ARM)         5     1     2  ...       1       2       9              12
4  Australasia (ANZ) [ANZ]         2     3     4  ...       3       4       5              12

但是，您不能使用 header 参数来跳过一堆不同的行。您将无法使用标头参数复制 df2。希望这能澄清事情。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Excel

pandas

pandas 中 header 和 Skiprow 的区别不清楚的相关文章

pyCUDA无法打印结果

最近我使用 pip 为我的 python3 4 3 安装 pyCUDA 但我在测试示例代码时发现 https documen tician de pycuda tutorial html getting started https doc
Python 不考虑 distutils.cfg

我已经尝试了给出的所有内容并且所有教程都指向相同的方向即使用 mingw 作为 python 而不是 Visual C 中的编译器我确实有 Visual C 和 mingw 当我想使用 pip 安装时问题开始出现它总是给Unabl
使用 Python 和 lmfit 拟合复杂模型？

我想适合椭偏仪 http en wikipedia org wiki Ellipsometry使用 LMFit 将数据转换为复杂模型两个测量参数 psi and delta 是复杂函数中的变量rho 我可以尝试将问题分离为实部和虚部共享参
Python3将模块从文件夹导入到另一个文件夹

我的结构字典是 mainFolder folder1 init py file1 py file2 py folder2 init py file3 py file4 py setup py init py 我需要将 file4 py 从f
Python 内置对象的 __enter__() 和 __exit__() 在哪里定义？

我读到每次使用 with 时都会调用该对象的 enter 和 exit 方法我知道对于用户定义的对象您可以自己定义这些方法但我不明白这对于打开等内置对象函数甚至测试用例是如何工作的这段代码按预期工作我假设它使用 exit 关
Python Selenium 打印另存为 PDF 等待文件名输入

我正在尝试通过打印对话框将网站另存为 PDF 我的代码允许我另存为pdf 但要求我输入文件名我不知道如何将文件名传递到弹出框附上我的代码 import time from selenium import webdriver import
Python speedtest.net，或等效的[关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案是否有一个 Python 库可以实现 SpeedTest net 测试或等效的互联网连接速度测试 GitHub上有一个项目叫速度检查 https gi
列表推导式和 for 循环中的 Lambda 表达式[重复]

这个问题在这里已经有答案了我想要一个 lambda 列表作为一些繁重计算的缓存并注意到这一点 gt gt gt j for j in lambda i for i in range 10 9 9 9 9 9 9 9 9 9 9 Alt
如何从 python 脚本执行 7zip 命令

我试图了解如何使用 os system 模块来执行 7zip 命令现在我不想用 Popen 或 subprocess 让事情变得复杂我已经安装了 7zip 并将 7zip exe 复制到我的用户文件夹中我只想提取我的测试文件 inst
multiprocessing.Queue 中的 ctx 参数

我正在尝试使用 multiprocessing Queue 模块中的队列实施 https docs python org 3 4 library multiprocessing html exchang objects Between p
使用 python 脚本更改 shell 中的工作目录

我想实现一个用户态命令它将采用其参数之一路径并将目录更改为该目录程序完成后我希望 shell 位于该目录中所以我想实施cd命令但需要外部程序可以在 python 脚本中完成还是我必须编写 bash 包装器 Example t
使用 ElementTree 在 python 中解析 xml

我对 python 很陌生我需要解析一些脏的 xml 文件这些文件需要先清理我有以下 python 代码 import arff import xml etree ElementTree import re totstring wit
Snakemake：将多个输入用于具有多个子组的一个输出的规则

我有一个工作管道用于下载比对和对公共测序数据执行变体调用问题是它目前只能在每个样本的基础上工作 i e作为每个单独测序实验的样本如果我想对一组实验例如样本的生物和或技术复制执行变体调用则它不起作用我试图解决它但我无法让它
Python：导入模块一次然后与多个文件共享

我有如下文件 file1 py file2 py file3 py 假设这三个都使用 lib7 py lib8 py lib9 py 目前这三个文件中的每一个都有以下行 import lib7 import lib8 import lib
Office 365 中 Excel 中 Power Pivot 的计算列中正确的 DAX GROUPBY 语法是什么

将以下语法输入到下面在 Excel Office 365 版本的 powerpivot 中提供的表 Visits 的计算列公式中 GROUPBY Visits Patient Name First Visit Date MINX CURR
数据损坏 C++ 和 Python 之间的管道

我正在编写一些代码从 Python 获取二进制数据将其通过管道传输到 C 对数据进行一些处理在本例中计算互信息度量然后将结果通过管道传输回 Python 在测试时我发现如果我发送的数据是一组尺寸小于 1500 X 1500 的 2
根据标点符号列表替换数据框中的标点符号[重复]

这个问题在这里已经有答案了使用 Canopy 和 Pandas 我有数据框 a 其定义如下 a pd read csv text txt df pd DataFrame a df columns test test txt 是一个单列文件
SQLAlchemy 与 count、group_by 和 order_by 使用 ORM

我有几个函数需要使用 count group by 和 order by 进行一对多连接我使用 sqlalchemy select 函数生成一个查询该查询将返回一组 id 然后我对其进行迭代以对各个记录执行 ORM 选择我想知道是否有
Chrome 驱动程序和 Chromium 二进制文件无法在 aws lambda 上运行

我陷入了一个问题我需要在 AWS lambda 上做一些抓取工作所以我按照下面提到的博客及其代码库作为起点这非常有帮助并且在运行时环境 Python 3 6 的 AWS lambda 上对我来说工作得很好 https manivan
从Excel单元格中提取固定长度的数字

一些类似名称的线程但仍然无法解决我的问题我需要从 Excel 字符串中提取固定长度的 NUMBER 值在我的场景中为 8 位数字为此目的提供了以下 Excel 公式 MID A1 FIND SUBSTITUTE SUBSTITUTE

随机推荐

无法在 iPhone/iPod touch 的 Safari iOS 7 中隐藏导航栏

我不相信有任何解决方案可以使用 javascript css html 以编程方式隐藏栏但让我尝试描述一个问题我们是移动游戏开发团队我们开发一款游戏已经一年了 iOS 7 发布后我们遇到了无法隐藏导航栏的问题一旦用户点击 Safa
Rails：更改操作邮件程序中的默认发件人

我正在使用 Rails 应用程序中的操作邮件程序发送电子邮件但它只允许一个默认发件人这是我的 UserMailer 类 class UserMailer lt ActionMailer Base default from gt emai
停止线程：标志与事件[重复]

这个问题在这里已经有答案了我看到了例子例如这里 https stackoverflow com a 325528 4653485使用一个Event https docs python org 3 library threading htm
QML：无法将[未定义]分配给

我正在尝试将 Qt Android 程序的界面从 QWidgets 重写为 QML 我之前从未使用过它因此错误可能非常明显且愚蠢新界面基于ListView 看起来像 ListView id listView x 16 y 146 wid
如何在 XCode 4.3 中为仅限 iPhone 的应用程序指定 iPad Retina 图标？

我的 iPhone 应用程序图标在 iPhone Retina 和 iPad 中显示良好但在 iPad 视网膜模拟器和设备上我得到一个图标显然包含应用程序的开始屏幕鉴于我的应用程序仅针对 iPhone 设计而非通用因此 X
当我的网站打开多个选项卡时，为什么 setTimeout 会加速？

我有一个每秒倒计时的计时器它工作得很好直到用户打开我的网站的 3 或 4 个选项卡此时最新选项卡的计时器速度变为两倍或三倍我目前只能在 IE8 中重现该错误我之前使用的是 setInterval 并且也可以在 Firefox 中重
使用itextsharp将字体嵌入到pdf中

我尝试使用 itextsharp 5 2 1 0 嵌入字体但出现错误字体是 KozGoPro Light otf 经过一番研究后发现它是日语字体我已经尝试过以下 Dim tblx1 As PdfPTable New PdfPTable
HTTP 标头中的“Content-Length”字段是什么？

这是什么意思使用标头中指定的编码的编码内容字符串的字节数内容字符串的字符数特别是在以下情况Content Type application x www form urlencoded 它是请求或响应正文中数据的字节数正文是标题下方空
如何将文件句柄传递给函数？

当我运行下面的代码时我得到 Can t use string F as a symbol ref while strict refs in use at T pl line 21 其中第 21 行是 flock fh LOCK EX 我究竟
glDrawElements 使用了错误的 VBO？

我正在尝试在屏幕上渲染两个不同的对象据我所知问题是OpenGL使用了错误的顶点缓冲区但使用了正确的索引缓冲区但我不太确定我目前正在做的任何事情因为我几乎已经开始再次学习OpenGL 这是当前显示的内容 http puu sh ek
Python itertools 产品，但有条件吗？

我有一个函数 fun 需要几个参数 p0 p1 对于每个参数我给出一个可能值的列表 p0 list a b c p1 list 5 100 我现在可以为 p0 p1 的每个组合调用我的函数 for i in itertools produ
en_US 或 en-US，您应该使用哪一个？ [复制]

这个问题在这里已经有答案了假设您想在数据库中存储用户首选项的区域设置您将使用哪个值 en US 或 en US 它们是两个标准但是您更喜欢使用哪一个作为您自己的应用程序的一部分 Updated 似乎许多网站都使用破折号而不是下划线例
以纱线集群模式在 YARN 上运行 Spark：控制台输出去了哪里？

我按照此页面在 YARN 上以纱线集群模式运行 SparkPi 示例应用程序 http spark apache org docs latest running on yarn html http spark apache org docs
http-equiv="refresh" 是否保留引用信息和元数据？

如果我设置一个这样的页面执行重定向时浏览器是否会发送引用者信息和其他元数据此处测试时 Firefox 和 IEdo not但铬does发送引荐来源网址尽管这也不一致无论它是否发送到同一域因为我找不到任何说明什么的规范should是
MVC 的缓存层 - 模型还是控制器？

我正在重新考虑在哪里实现缓存部分您认为最合适的实施地点在哪里在每个模型中还是在控制器中方法 1 伪代码 mycontroller php MyController extends Controller class function
从 ActivityGroup 开始ActivityForResult？

尝试从活动组启动活动时我似乎无法得到任何结果我已将 onactivityresult 放入活动和活动组中具体来说我试图让用户从 Intent ACTION GET CONTENT 中选择照片视频但我从来没有得到任何回报我究竟做
对于给定的有限代表字符串列表，正则表达式的语法推理？

我正在分析一个大型公共数据集其中包含许多详细的人类可读字符串这些字符串显然是由某些常规在形式语言理论意义上语法生成的逐一查看这些字符串组以了解其中的模式并不太难不幸的是大约有 24 000 个独特的字符串被分为 33 个类别和
在 Jersey JAX-RS 服务器中返回大对象时如何设置 Content-Length

我有时想返回一个大的几个 MB 二进制对象作为 JAX RS 资源方法的响应我知道对象的大小并且希望在响应上设置 Content Length 标头并且不希望使用分块传输编码在 Jersey 1 x 中我使用自定义 Messag
Serde 反序列化为多个结构之一？

有没有一种好的方法可以暂时将 JSON 反序列化为不同的结构在文档中找不到任何内容不幸的是结构有标签来区分如下所示如何有条件地将 JSON 反序列化为枚举的两个不同变体 https stackoverflow com quest
pandas 中 header 和 Skiprow 的区别不清楚

任何人都可以用一个很好的例子来详细说明 header 和skiprows 在语法中的区别 pd read excel 名称标题数字 skiprows 数字您可以关注本文 https towardsdatascience com imp

pandas 中 header 和 Skiprow 的区别不清楚

pandas 中 header 和 Skiprow 的区别不清楚 的相关文章

随机推荐

热门标签

pandas 中 header 和 Skiprow 的区别不清楚的相关文章