Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
Spark Dataframe/Parquet 中的枚举等效项
我有一个包含数亿行的表 我想将其存储在 Spark 的数据帧中并作为 parquet 文件持久保存到磁盘 我的 Parquet 文件的大小现在超过 2TB 我想确保我已经对此进行了优化 这些列中很大一部分是字符串值 它们可能很长 但值通常也
apachespark
parquet
SparkR 和 Sparklyr 之间导入 parquet 文件所需的时间差异
我正在使用 databricks 导入镶木地板文件SparkR and sparklyr data1 SparkR read df dbfs data202007 source parquet header TRUE inferSchema
r
parquet
Databricks
sparkr
sparklyr
将 .parquet 编码为 io.Bytes
目标 将 Parquet 文件上传到 MinIO 这需要将文件转换为字节 我已经能够做到这一点了 csv json and txt bytes data to csv encode utf 8 bytes json dumps self d
python
encoding
parquet
Minio
bytesio
是否可以使用 Java 读写 Parquet,而不依赖 Hadoop 和 HDFS?
我一直在寻找这个问题的解决方案 在我看来 如果不引入对 HDFS 和 Hadoop 的依赖 就无法在 Java 程序中嵌入读写 Parquet 格式 它是否正确 我想在 Hadoop 集群之外的客户端计算机上进行读写 我开始对 Apache
Java
Hadoop
parquet
apachedrill
dataformats
如何将多个 parquet 文件附加到 Pandas 中的一个数据帧
我正在使用 Spark 和 Pandas 解压缩 snappy parquet 文件 我有 180 个文件 我的 Jupyter 笔记本中有 7GB 数据 根据我的理解 我需要创建一个循环来获取所有文件 用 Spark 解压缩它们并附加到
pandas
apachespark
parquet
snappy
pandas df.to_parquet 写入多个较小的文件
是否可以使用 Pandas 的DataFrame to parquet将写入拆分为多个大约所需大小的文件的功能 我有一个非常大的 DataFrame 100M x 100 并且正在使用df to parquet data snappy en
pandas
save
parquet
pyarrow
snappy
在 AWS Glue 中覆盖动态框架中的镶木地板文件
我使用动态框架在 S3 中写入镶木地板文件 但如果文件已存在 我的程序会附加一个新文件而不是替换它 我用的句子是这样的 glueContext write dynamic frame from options frame table con
amazonwebservices
parquet
awsglue
Spark s3 写入(s3 与 s3a 连接器)
我正在从事一项在 EMR 上运行的作业 它在 s3 上保存了数千个分区 分区为年 月 日 我有过去 50 年的数据 现在 当 Spark 写入 10000 个分区时 使用以下命令大约需要 1 小时s3a联系 它非常慢 df repartit
amazonwebservices
apachespark
amazons3
parquet
amazonemr
记录 pyarrow 在 S3 上创建的 parquet 文件名
我们使用 pyarrow 将数据附加到存储在 S3 已分区 中的现有 Parquet 数据集 它每小时在 AWS lambda 上运行几次 一个最小的例子是 import pyarrow as pa import pyarrow parqu
amazons3
parquet
pyarrow
apachearrow
pythons3fs
使用已知模式保存空 DataFrame (Spark 2.2.1)
是否可以使用已知模式保存一个空的 DataFrame 以便将该模式写入文件 即使它有 0 条记录 def example spark SparkSession path String schema StructType val datafr
apachespark
parquet
Databricks
使用 PyArrow 从 HDFS 读取镶木地板文件
我知道我可以使用 pyarrow 连接到 HDFS 集群pyarrow hdfs connect 我也知道我可以使用读取镶木地板文件pyarrow parquet s read table 然而 read table 接受文件路径 而hdf
HDFS
parquet
pyarrow
如何将 Dataframe 列名称与 Scala 案例类属性相匹配?
本示例中的 Spark sql 列名来自case class Person case class Person name String age Int val people RDD Person An RDD of case class o
scala
apachespark
apachesparksql
parquet
Spark 2.2 无法将 df 写入 parquet
我正在构建一个聚类算法 我需要存储模型以供将来加载 我有一个具有以下架构的数据框 val schema new StructType add StructField uniqueId LongType add StructField tim
scala
apachespark
apachesparksql
parquet
如何使用 Apache Arrow 在 Windows 上使用 C++ 编写 Parquet 格式的文件?
我正在尝试使用 C 在 Windows 上编写 Parquet 文件 我按照我找到的说明进行操作here https github com apache arrow blob master docs source developers cp
c
Windows
CMake
parquet
apachearrowcpp
对 Parquet 批量格式使用压缩
从 Apache Flink 1 15 版本开始 您可以使用压缩功能将多个文件合并为一个 https nightlies apache org flink flink docs master docs connectors datastre
apacheflink
parquet
flinkstreaming
我可以通过索引访问 Parquet 文件而不将整个文件读入内存吗?
我刚刚读到 HDF5 允许您访问数据查找 而无需将整个文件读入内存 这种寻找行为在没有 Java 的 Parquet 文件中是否可能 非 pyspark 解决方案 我使用 Parquet 是因为它有强大的 dtype 支持 import h
parquet
pyarrow
fastparquet
Javascript - 从 AWS s3 存储桶读取镶木地板数据(使用快速压缩)
In nodeJS 我正在尝试读取镶木地板文件 压缩 snappy 但没有成功 I used https github com ironSource parquetjs https github com ironSource parquet
javascript
nodejs
amazons3
parquet
snappy
使用 pyarrow 与 pyspark 创建的 parquet 文件是否兼容?
我必须分两步将 JSON 中的分析数据转换为 parquet 对于大量现有数据 我正在编写 PySpark 作业并执行 df repartition partitionby write partitionBy partitionby mod
python
awslambda
parquet
amazonathena
pyarrow
Apache Spark Parquet:无法构建空组
我使用 Apache Spark 2 1 1 使用过 2 1 0 它是相同的 今天切换 我有一个数据集 root muons array nullable true element struct containsNull true reco
apachespark
parquet
如何识别 Pandas 的 Parquet 后端
据我所知 Pandas 可以使用不同的后端读取和写入 Parquet 文件 pyarrow and fastparquet 我有一个带有 Intel 发行版的 Conda 发行版 并且 它可以工作 我可以使用pandas DataFrame
python
pandas
parquet
1
2
3
4
5
6
7
»