本系列课程适用人群:
- python零基础数据分析的朋友;
- 在校学生;
- 职场中经常要处理各种数据表格,或大量数据(十万级以上)的朋友;
- 喜欢图表可视化的朋友;
系列视频目前可在B站观看,会定期更新,欢迎大家吐槽!
本节概要:数据量较大时一般保存为csv或者txt文件,注意分隔符设置
视频地址:python读取csv、txt文件
本节代码:
"""
# =============================================================================
# 3.2 读取csv txt文件 : pandas.read_csv()
# =============================================================================
pandas.read_csv(filepath_or_buffer: Union[str, pathlib.Path, IO[~AnyStr]], sep=',', delimiter=None,
header='infer', names=None, index_col=None, usecols=None, squeeze=False, prefix=None,
mangle_dupe_cols=True, dtype=None, engine=None, converters=None, true_values=None,
false_values=None, skipinitialspace=False, skiprows=None, skipfooter=0, nrows=None,
na_values=None, keep_default_na=True, na_filter=True, verbose=False, skip_blank_lines=True,
parse_dates=False, infer_datetime_format=False, keep_date_col=False, date_parser=None,
dayfirst=False, cache_dates=True, iterator=False, chunksize=None, compression='infer',
thousands=None, decimal=b'.', lineterminator=None, quotechar='"', quoting=0, doublequote=True,
escapechar=None, comment=None, encoding=None, dialect=None, error_bad_lines=True,
warn_bad_lines=True, delim_whitespace=False, low_memory=True, memory_map=False,
float_precision=None)
**常用参数:**
- filepath_or_buffer :文件路径 ,和读取excel中io参数一样
- sep :分隔符,默认逗号
- encoding :一般utf-8 或者 gbk
"""
# 导入pandas工具包,并简写为pd
import pandas as pd
# =============================================================================
# # 读取csv数据
# =============================================================================
data1 = pd.read_csv('D:/python/课件/data/titanic_train.csv')
# =============================================================================
# # 读取txt数据
# =============================================================================
data2 = pd.read_csv('D:/python/课件/data/zhengqi_train.txt') # 读取后数据没有按照列分开
data3 = pd.read_csv('D:/python/课件/data/zhengqi_train.txt',sep='\t') #其他特殊符号:回车(\r),换行(\n),制表符(\t),空白字符\s 多个空白字符\s+