以下只是 Coursera 数据科学作业的开始。我希望这不是一件小事。但我对此迷失了方向,找不到答案。
我被要求将 Excelfile 导入 panda 数据框并随后对其进行操作。该文件可以在这里找到:http://unstats.un.org/unsd/environment/excel_file_tables/2013/Energy%20Indicators.xls
让我感到困难的是
a) 有 17 行的“开销”和一个页脚
b) 前两列为空
c) 索引列没有标题名称
经过几个小时的搜索和阅读后,我想到了这行无用的行:
energy=pd.read_excel('Energy Indicators.xls',
sheetname='Energy',
header=16,
skiprows=[17],
skipfooter=38,
skipcolumns=2
)
这似乎产生了一个多索引数据框。通过命令 energy.head() 什么也不返回。
我有两个问题:
- 我做错了什么。到目前为止,我认为我理解了数据框。但现在我完全无能为力,迷失了:-((
- 我该如何解决这个问题?我需要做什么才能将此 Excel 数据放入索引由国家/地区组成的数据框中?
Thanks.
我认为你需要添加参数:
-
index_col
用于将列转换为索引
-
usecols
- 按位置解析列
- 将标题位置更改为
15
energy=pd.read_excel('Energy Indicators.xls',
sheet_name='Energy',
skiprows=[17],
skipfooter=38,
header=15,
index_col=[0],
usecols=[2,3,4,5]
)
print (energy.head())
Energy Supply Energy Supply per capita \
Afghanistan 321 10
Albania 102 35
Algeria 1959 51
American Samoa ... ...
Andorra 9 121
Renewable Electricity Production
Afghanistan 78.669280
Albania 100.000000
Algeria 0.551010
American Samoa 0.641026
Andorra 88.695650
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)