我正在尝试不同的方法来查询记录数组中的记录并将完整的行显示为输出。
我不知道哪个嵌套对象有字符串“pg”。但我想查询特定对象。对象是否有“pg”。如果“pg”存在,那么我想显示完整的行。如何在嵌套对象上编写“spark sql查询”而不指定对象索引。所以我不想使用children.name的索引
我的 Avro 记录:
{
"name": "Parent",
"type":"record",
"fields":[
{"name": "firstname", "type": "string"},
{
"name":"children",
"type":{
"type": "array",
"items":{
"name":"child",
"type":"record",
"fields":[
{"name":"name", "type":"string"}
]
}
}
}
]
}
我正在使用 Spark SQL 上下文来查询读取的数据帧。
所以如果输入是
Row no Firstname Children.name
1 John Max
Pg
2 Bru huna
aman
输出应返回 poq 1,因为它具有 child.name 的一个对象为 pg 的行。
val results = sqlc.sql("SELECT firstname, children.name FROM nestedread where children.name = 'pg'")
results.foreach(x=> println(x(0), x(1).toString))
上面的查询不起作用。但当我查询children[1].name 时它会起作用。
我还想知道我是否可以过滤一组记录然后爆炸。而不是首先分解并创建大量行然后进行过滤。