什么时候会用到 Parquet ?
![在这里插入图片描述](https://img-blog.csdnimg.cn/20201007101824197.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2VyYWluaW5n,size_16,color_FFFFFF,t_70#pic_center)
- 在 ETL 中, Spark 经常扮演 T 的职务, 也就是进行数据清洗和数据转换.
- 为了能够保存比较复杂的数据, 并且保证性能和压缩率, 通常使用 Parquet 是一个比较不错的选择.
- 所以外部系统收集过来的数据, 有可能会使用 Parquet, 而 Spark 进行读取和转换的时候, 就需要支持对 Parquet 格式的文件的支持.
使用代码读写 Parquet 文件
默认不指定 format 的时候, 默认就是读写 Parquet 格式的文件
import org.apache.spark.sql.{
DataFrame, SparkSession