数据可视化系列汇总:
Matplotlib可视化①——二维图表绘制(折线图&直方图&散点图&条形图&箱形图)
Matplotlib可视化②——3D绘制散点图&曲面图&折线图&等高线图
Excel数据分析高级技巧①——动态图表制作(offset,vlookup,控件…)
Excel高级图表制作①——电池图/KPI完成情况对比图/重合柱形图
Excel高级图表制作②——帕累托图
Excel高级图表制作③——漏斗图/转化路径图
Seaborn是在Matplotlib的基础了进行更高级别的API封装,可以轻轻松松绘制出各式精美且方便数据分析的图表,今天主要总结了以下常用的几种:
直方图——distplot , kdeplot,看单变量的分布,是否正态,是否左右偏,有几个高峰等
箱型图——boxplot,看单变量的分布,常用来找异常值
散点图——striplot,swarmplot,看单变量的分布,与Excel中两变量相关性分布不太一样,这里的散点图更像是箱型图
变量关系图——jointplot,pairplot,双变量或多变量的两两关系图,这个就是Excel常见的散点图了
回归图——lmplot,regplot,可以画线性和非线性回归
热力图——heatmap,直观展示两两变量之间的相关程度
条形图——barplot,countplot,前者计算均值,后者计算个数,与Excel中的条形图非常类似
一、直方图
① dishist是hist的加强版,kdeplot是密度曲线图,dishist其实已经包含了kdepost
#选择数据并进行清洗
data = pd.read_csv('train.csv')
data.drop_duplicates(keep='first',inplace=True)
data.drop(['Cabin'],axis=1,inplace=True)
data.Age.fillna(data.Age.mean(),inplace=True)
data.dropna(how='any',inplace=True)
fig,axes = plt.subplots(2,2)
sns.distplot(data.Age,ax=axes[0,0],kde=True,hist=True) # displot有2个特别的参数kde和hist,True是保留,False是不保留,当hist为False且kde为True时就变成了kde图
sns.kdeplot(data.Age,ax=axes[0,1],shade=True) # kdeplot其实是在displot的基础上去掉了直方图,shade是否要填充
sns.distplot(data.Age,ax=axes[1,0],kde=False,color='b')
sns.distplot(data.Age,ax=axes[1,1],hist=False,kde=True,color='g',kde_kws={'shade': True},rug=True)
plt.show()