parquet

Spark Dataframe/Parquet 中的枚举等效项

我有一个包含数亿行的表我想将其存储在 Spark 的数据帧中并作为 parquet 文件持久保存到磁盘我的 Parquet 文件的大小现在超过 2TB 我想确保我已经对此进行了优化这些列中很大一部分是字符串值它们可能很长但值通常也

apachespark parquet

SparkR 和 Sparklyr 之间导入 parquet 文件所需的时间差异

我正在使用 databricks 导入镶木地板文件SparkR and sparklyr data1 SparkR read df dbfs data202007 source parquet header TRUE inferSchema

r parquet Databricks sparkr sparklyr

将 .parquet 编码为 io.Bytes

目标将 Parquet 文件上传到 MinIO 这需要将文件转换为字节我已经能够做到这一点了 csv json and txt bytes data to csv encode utf 8 bytes json dumps self d

python encoding parquet Minio bytesio

是否可以使用 Java 读写 Parquet，而不依赖 Hadoop 和 HDFS？

我一直在寻找这个问题的解决方案在我看来如果不引入对 HDFS 和 Hadoop 的依赖就无法在 Java 程序中嵌入读写 Parquet 格式它是否正确我想在 Hadoop 集群之外的客户端计算机上进行读写我开始对 Apache

Java Hadoop parquet apachedrill dataformats

如何将多个 parquet 文件附加到 Pandas 中的一个数据帧

我正在使用 Spark 和 Pandas 解压缩 snappy parquet 文件我有 180 个文件我的 Jupyter 笔记本中有 7GB 数据根据我的理解我需要创建一个循环来获取所有文件用 Spark 解压缩它们并附加到

pandas apachespark parquet snappy

pandas df.to_parquet 写入多个较小的文件

是否可以使用 Pandas 的DataFrame to parquet将写入拆分为多个大约所需大小的文件的功能我有一个非常大的 DataFrame 100M x 100 并且正在使用df to parquet data snappy en

pandas save parquet pyarrow snappy

在 AWS Glue 中覆盖动态框架中的镶木地板文件

我使用动态框架在 S3 中写入镶木地板文件但如果文件已存在我的程序会附加一个新文件而不是替换它我用的句子是这样的 glueContext write dynamic frame from options frame table con

amazonwebservices parquet awsglue

Spark s3 写入（s3 与 s3a 连接器）

我正在从事一项在 EMR 上运行的作业它在 s3 上保存了数千个分区分区为年月日我有过去 50 年的数据现在当 Spark 写入 10000 个分区时使用以下命令大约需要 1 小时s3a联系它非常慢 df repartit

amazonwebservices apachespark amazons3 parquet amazonemr

记录 pyarrow 在 S3 上创建的 parquet 文件名

我们使用 pyarrow 将数据附加到存储在 S3 已分区中的现有 Parquet 数据集它每小时在 AWS lambda 上运行几次一个最小的例子是 import pyarrow as pa import pyarrow parqu

amazons3 parquet pyarrow apachearrow pythons3fs

使用已知模式保存空 DataFrame (Spark 2.2.1)

是否可以使用已知模式保存一个空的 DataFrame 以便将该模式写入文件即使它有 0 条记录 def example spark SparkSession path String schema StructType val datafr

apachespark parquet Databricks

使用 PyArrow 从 HDFS 读取镶木地板文件

我知道我可以使用 pyarrow 连接到 HDFS 集群pyarrow hdfs connect 我也知道我可以使用读取镶木地板文件pyarrow parquet s read table 然而 read table 接受文件路径而hdf

HDFS parquet pyarrow

如何将 Dataframe 列名称与 Scala 案例类属性相匹配？

本示例中的 Spark sql 列名来自case class Person case class Person name String age Int val people RDD Person An RDD of case class o

scala apachespark apachesparksql parquet

Spark 2.2 无法将 df 写入 parquet

我正在构建一个聚类算法我需要存储模型以供将来加载我有一个具有以下架构的数据框 val schema new StructType add StructField uniqueId LongType add StructField tim

scala apachespark apachesparksql parquet

如何使用 Apache Arrow 在 Windows 上使用 C++ 编写 Parquet 格式的文件？

我正在尝试使用 C 在 Windows 上编写 Parquet 文件我按照我找到的说明进行操作here https github com apache arrow blob master docs source developers cp

c Windows CMake parquet apachearrowcpp

对 Parquet 批量格式使用压缩

从 Apache Flink 1 15 版本开始您可以使用压缩功能将多个文件合并为一个 https nightlies apache org flink flink docs master docs connectors datastre

apacheflink parquet flinkstreaming

我可以通过索引访问 Parquet 文件而不将整个文件读入内存吗？

我刚刚读到 HDF5 允许您访问数据查找而无需将整个文件读入内存这种寻找行为在没有 Java 的 Parquet 文件中是否可能非 pyspark 解决方案我使用 Parquet 是因为它有强大的 dtype 支持 import h

parquet pyarrow fastparquet

Javascript - 从 AWS s3 存储桶读取镶木地板数据（使用快速压缩）

In nodeJS 我正在尝试读取镶木地板文件压缩 snappy 但没有成功 I used https github com ironSource parquetjs https github com ironSource parquet

javascript nodejs amazons3 parquet snappy

使用 pyarrow 与 pyspark 创建的 parquet 文件是否兼容？

我必须分两步将 JSON 中的分析数据转换为 parquet 对于大量现有数据我正在编写 PySpark 作业并执行 df repartition partitionby write partitionBy partitionby mod

python awslambda parquet amazonathena pyarrow

Apache Spark Parquet：无法构建空组

我使用 Apache Spark 2 1 1 使用过 2 1 0 它是相同的今天切换我有一个数据集 root muons array nullable true element struct containsNull true reco

apachespark parquet

如何识别 Pandas 的 Parquet 后端

据我所知 Pandas 可以使用不同的后端读取和写入 Parquet 文件 pyarrow and fastparquet 我有一个带有 Intel 发行版的 Conda 发行版并且它可以工作我可以使用pandas DataFrame

python pandas parquet