也许这是有详细记录的,但我很困惑如何做到这一点(有很多 Apache 工具)。
当我创建 SQL 表时,我使用以下命令创建表:
CREATE TABLE table_name(
column1 datatype,
column2 datatype,
column3 datatype,
.....
columnN datatype,
PRIMARY KEY( one or more columns )
);
如何将这个现有表转换为 Parquet?该文件是否写入磁盘?如果原始数据有几GB,要等多久?
我可以将原始数据格式化为 Parquet 格式吗?
Apache Spark 可用于执行此操作:
1.load your table from mysql via jdbc
2.save it as a parquet file
Example:
from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()
df = spark.read.jdbc("YOUR_MYSQL_JDBC_CONN_STRING", "YOUR_TABLE",properties={"user": "YOUR_USER", "password": "YOUR_PASSWORD"})
df.write.parquet("YOUR_HDFS_FILE")
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)