在进行数据分析之前,需要先查看数据的信息,这样才方便后续的数据处理。
比如,在excel表中20220520是一个常规类型的数据,那它导入到DataFrame中是int类型还是str类型呢?如果没有提前辨认清楚,把int类型的数据当作str类型的数据处理,报错后还需要再更正。
因此,最好按部就班的在进行数据清洗之前,先明确好导入到DataFrame中数据,也就是后面要处理的数据是什么类型的?是否有空值?有多少空值?
使用pandas中的DataFrame.info()方法来获取DataFrame对象的简单摘要信息。
原数据如下图:
![](https://img-blog.csdnimg.cn/b592ab6f38b3432c90d79eb97ba373bf.png)
在excel中这两列数据格式为常规,下面将数据导入并查看数据摘要信息。
import pandas as pd
# 导入信息,这里以excel为例
data = pd.read_excel("test.xlsx", sheet_name = "sheet1")
# 使用DataFrame.info()查看数据摘要
print(data.info())
将显示出如下的结果:
![](https://img-blog.csdnimg.cn/4cb9b7547ecf47399f02908a31ddf7e3.png)
第一行:<class 'pandas.core.frame.DataFrame'>
显示的是对象的类型,这里我们使用pd.read_excel()导入的数据存储在了pandas的DataFrame中。
第二行:RangeIndex: 1592 entries, 0 to 1591
行数也可作为样本数,这里面一共是1592行。
第三行:Data columns (total 2 columns):
列数可代表属性或者特征,这里是日期和收盘价两列。
接下来是一个表格,显示了列数,非空数值数和数据类型。在这里表格的日期是整数类型、收盘价是浮点数类型。
接下来显示的是在这个对象中每个数据类型有多少列和存储内存大小。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)