PySpark + Cassandra：获取分区键的不同值

2024-03-05

我正在尝试获取 pyspark 中 cassandra 表的分区键的不同值。然而，pyspark似乎不理解我并完全迭代所有数据（很多）而不是查询索引。

这是我使用的代码，对我来说看起来非常简单：

from pyspark.sql import SparkSession

spark = SparkSession \
    .builder \
    .appName("Spark! This town not big enough for the two of us.") \
    .getOrCreate()

ct = spark.read\
    .format("org.apache.spark.sql.cassandra")\
    .options(table="avt_sensor_data", keyspace="ipe_smart_meter")\
    .load()

all_sensors = ct.select("machine_name", "sensor_name")\
    .distinct() \
    .collect()

列“machine_name”和“sensor_name”一起构成分区键（完整架构见下文）。在我看来，这应该是超级快的，事实上，如果我在 cql 中执行这个查询，只需要几秒钟：

select distinct machine_name,sensor_name from ipe_smart_meter.avt_sensor_data;

然而，spark 作业大约需要 10 个小时才能完成。从 Spark 告诉我的计划来看，它看起来确实想迭代所有数据：

== Physical Plan ==
*HashAggregate(keys=[machine_name#0, sensor_name#1], functions=[], output=[machine_name#0, sensor_name#1])
+- Exchange hashpartitioning(machine_name#0, sensor_name#1, 200)
   +- *HashAggregate(keys=[machine_name#0, sensor_name#1], functions=[], output=[machine_name#0, sensor_name#1])
      +- *Scan org.apache.spark.sql.cassandra.CassandraSourceRelation@2ee2f21d [machine_name#0,sensor_name#1] ReadSchema: struct<machine_name:string,sensor_name:string>

我不是专家，但这对我来说看起来不像“使用 cassandra 索引”。

我究竟做错了什么？有没有办法告诉 Spark 委托从 cassandra 获取不同值的任务？任何帮助将不胜感激！

如果这有帮助，这里是底层 cassandra 表的架构描述：

CREATE KEYSPACE ipe_smart_meter WITH replication = {'class': 'SimpleStrategy', 'replication_factor': '2'}  AND durable_writes = true;

CREATE TABLE ipe_smart_meter.avt_sensor_data (
    machine_name text,
    sensor_name text,
    ts timestamp,
    id bigint,
    value double,
    PRIMARY KEY ((machine_name, sensor_name), ts)
) WITH CLUSTERING ORDER BY (ts DESC)
    AND bloom_filter_fp_chance = 0.01
    AND caching = {'keys': 'ALL', 'rows_per_partition': 'NONE'}
    AND comment = '[PRODUCTION] Table for raw data from AVT smart meters.'
    AND compaction = {'class': 'org.apache.cassandra.db.compaction.DateTieredCompactionStrategy', 'max_threshold': '32', 'min_threshold': '4'}
    AND compression = {'chunk_length_in_kb': '64', 'class': 'org.apache.cassandra.io.compress.LZ4Compressor'}
    AND crc_check_chance = 1.0
    AND dclocal_read_repair_chance = 0.1
    AND default_time_to_live = 0
    AND gc_grace_seconds = 864000
    AND max_index_interval = 2048
    AND memtable_flush_period_in_ms = 0
    AND min_index_interval = 128
    AND read_repair_chance = 0.0
    AND speculative_retry = '99PERCENTILE';

看来自动 cassandra 服务器端下推谓词仅在选择、过滤或排序时才起作用。

https://github.com/datastax/spark-cassandra-connector/blob/master/doc/14_data_frames.md https://github.com/datastax/spark-cassandra-connector/blob/master/doc/14_data_frames.md

所以，如果你的distinct()，spark 获取所有行，然后，distinct().

解决方案1

你说你的cqlselect distinct...已经是超快了。我猜分区键的数量相对较少（machine_name 和sensor_name 的组合），但“ts”却有很多。

因此，最简单的解决方案就是使用 cql（例如，卡桑德拉驱动程序 https://datastax.github.io/python-driver/).

解决方案2

由于 cassandra 是一个查询优先的数据库，只需再创建一个表，该表仅包含不同查询所需的分区键。

CREATE TABLE ipe_smart_meter.avt_sensor_name_machine_name (
    machine_name text,
    sensor_name text,
    PRIMARY KEY ((machine_name, sensor_name))
);

然后，每次在原始表中插入一行时，都将 machine_name 和sensor_name 插入到新表中。由于它只有分区键，因此这是一个自然鲜明表供您查询。只需获取所有行即可。也许超快。无需明确的过程。

解决方案3

我认为解决方案2是最好的。但是，如果您不想对一条记录进行两次插入，另一种解决方案是更改表并创建一张物化视图表。

CREATE TABLE ipe_smart_meter.ipe_smart_meter.avt_sensor_data (
    machine_name text,
    sensor_name text,
    ts timestamp,
    id bigint,
    value double,
    dist_hint_num smallint,
    PRIMARY KEY ((machine_name, sensor_name), ts)
) WITH CLUSTERING ORDER BY (ts DESC)
;

CREATE MATERIALIZED VIEW IF NOT EXISTS ipe_smart_meter.avt_sensor_data_mv AS
  SELECT
    machine_name
    ,sensor_name
    ,ts
    ,dist_hint_num
  FROM ipe_smart_meter.avt_sensor_data
  WHERE
    machine_name IS NOT NULL
    AND sensor_name IS NOT NULL
    AND ts IS NOT NULL
    AND dist_hint_num IS NOT NULL
  PRIMARY KEY ((dist_hint_num), machine_name, sensor_name, ts)
  WITH
  AND CLUSTERING ORDER BY (machine_name ASC, sensor_name DESC, ts DESC)
;

The dist_hint_num列用于限制查询迭代和分布记录的分区总数。

例如，从 0 到 15。随机整数random.randint(0, 15)或基于哈希的整数hash_func(machine_name + sensor_name) % 16没问题。然后，当您查询如下时。 cassandra 仅从 16 个分区获取所有记录，这可能比您当前的情况更有效。

但是，无论如何，必须读取所有记录，然后distinct()（发生随机播放）。不节省空间。我认为这不是一个好的解决方案。

functools.reduce(
    lambda df, dist_hint_num: df.union(
        other=spark_session.read.format(
            'org.apache.spark.sql.cassandra',
        ).options(
            keyspace='ipe_smart_meter',
            table='avt_sensor_data_mv',
        ).load().filter(
            col('dist_hint_num') == expr(
                f'CAST({dist_hint_num} AS SMALLINT)'
            )
        ).select(
            col('machine_name'),
            col('sensor_name'),
        ),
    ),
    range(0, 16),
    spark_session.createDataFrame(
        data=(),
        schema=StructType(
            fields=(
                StructField(
                    name='machine_name',
                    dataType=StringType(),
                    nullable=False,
                ),
                StructField(
                    name='sensor_name',
                    dataType=StringType(),
                    nullable=False,
                ),
            ),
        ),
    ),
).distinct().persist().alias(
    'df_all_machine_sensor',
)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)