获取 BQ 公共数据集中的顶级专利国家/地区和代码

2023-12-30

我正在尝试使用分析函数来获取专利申请量排名前 2 的国家/地区，并在这两个排名前 2 的国家/地区中获取排名前 2 的申请类型。例如，答案将如下所示：

country  -   code 
US           P
US           A
GB           X
GB           P

这是我用来获取此信息的查询：

SELECT
  country_code,
  MIN(count_country_code) count_country_code,
  application_kind
FROM (
  WITH
    A AS (
    SELECT
      country_code,
      COUNT(country_code) OVER (PARTITION BY country_code) AS count_country_code,
      application_kind
    FROM
      `patents-public-data.patents.publications`),
    B AS (
    SELECT
      country_code,
      count_country_code,
      DENSE_RANK() OVER(ORDER BY count_country_code DESC) AS country_code_num,
      application_kind,
      DENSE_RANK() OVER(PARTITION BY country_code ORDER BY count_country_code DESC) AS application_kind_num
    FROM
      A)
  SELECT
    country_code,
    count_country_code,
    application_kind
  FROM
    B
  WHERE
    country_code_num <= 2
    AND application_kind_num <= 2) x
GROUP BY
  country_code,
  application_kind
ORDER BY
  count_country_code DESC

但是，不幸的是，由于过度/顺序/分区，我收到“内存超出”错误。这是消息：

查询执行期间超出资源：无法在分配的内存中执行查询。峰值使用量：限制的 112%。主要内存消耗：用于分析 OVER() 子句的排序操作：98% 其他/未归因：2%

我如何在不遇到这些内存错误的情况下执行上述查询（或其他类似的查询）？这可以在公共数据集上进行测试.

一种粗略的方法（仅当字段具有半低基数时才有效）是将其作为简单的聚合操作来执行，并对数据库外部内存中的结果进行排序。例如：

以下是 BigQuery 标准 SQL

#standardSQL
WITH A AS (
  SELECT country_code
  FROM `patents-public-data.patents.publications`
  GROUP BY country_code
  ORDER BY COUNT(1) DESC
  LIMIT 2
), B AS (
  SELECT
    country_code,
    application_kind,
    COUNT(1) application_kind_count
  FROM `patents-public-data.patents.publications`
  WHERE country_code IN (SELECT country_code FROM A)
  GROUP BY country_code, application_kind
), C AS (
  SELECT
    country_code,
    application_kind,
    application_kind_count,
    DENSE_RANK() OVER(PARTITION BY country_code ORDER BY application_kind_count DESC) AS application_kind_rank
  FROM B
)
SELECT
  country_code,
  application_kind,
  application_kind_count
FROM C
WHERE application_kind_rank <= 2

有结果

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

sql

googlebigquery

获取 BQ 公共数据集中的顶级专利国家/地区和代码的相关文章

在 SELECT IN 中使用 Oracle 参数时出现问题

我在将一串数字插入sql查询时遇到问题 SELECT FROM tablename a WHERE a flokkurid IN 3857 3858 3863 3285 ORDER BY sjodategund rodun or SELEC
MySQL - 从临时表插入

这看起来非常简单但我坚持使用简单的插入语句见下文 begin work CREATE TEMPORARY TABLE IF NOT EXISTS insert table AS select r resource id fr file
给定“java.sql.SQLIntegrityConstraintViolationException”是否可以确定错误的列

鉴于我有一个类型为 java sql SQLIntegrityConstraintViolationException 的异常是否可以以编程方式确定错误的列或多列我问这个问题是因为我想将错误映射回客户端的数据模型以指示错误的字段例如
在单个 select 语句中多次有条件地求和同一列？

我有一个表显示每个月在给定位置的各种类型的部署的员工部署情况 ID Location ID Date NumEmployees DeploymentType ID 例如一些记录可能是 1 L1 12 2010 7 1 Permanent
插入 Hive 表 - 非分区表到具有多个分区的分区表 - 无法插入目标表，因为列号/类型

当我尝试插入分区表时出现以下错误 SemanticException 错误 10044 第 1 23 行无法插入目标表因为列号类型不同表 insclause 0 有 6 列这 3 列已分区我们不需要任何必须从中转储存储的过滤器
串行类型的外键 - 确保始终手动填充

我有两个表国家和地区 CREATE TABLE Countries id SERIAL name VARCHAR 40 NOT NULL PRIMARY KEY id CREATE TABLE Regions id SERIAL coun
SQL：如何在按部分分组的查询中使用子查询？

如何在按部分分组的查询中使用子查询我使用 SQL Server 2008 R2 和 Delphi 2010 我收到此错误 Cannot perform an aggregate function on an expression cont
不带 GROUP BY 的聚合查询

这个查询似乎在我的旧机器上完美运行但是在我的 MySQL 5 7 14 和 PHP 5 6 25 的新机器上它会抛出错误致命错误未捕获异常 PDOException 并带有消息 SQLSTATE 42000 语法错误或访问冲突 1
PostgreSQL 中“-”处或附近的语法错误

我正在尝试运行查询来更新用户密码 alter user dell sys with password Pass 133 但因为它给了我这样的错误 ERROR syntax error at or near LINE 1 alter use
SQL 查询用于计算每个客户的订单数量和总金额

我有两张桌子Order与列 OrderID OrderDate CID EmployeeID And OrderItem与列 OrderID ItemID Quantity SalePrice 我需要返回客户 ID CID 每个客户的订单数
数据库字段中的逗号分隔值

我有一个产品表该表中的每一行对应一个产品并由唯一的 ID 标识现在每个产品都可以有多个与该产品关联的代码例如 Id Code 0001 IN ON ME OH 0002 ON VI AC ZO 0003 QA PS OO ME
如何通过 SQL 表关联 SQL 中的实体

我是数据库设计的初学者我需要为项目创建数据库我可以用面向对象的术语解释我想要做什么值得庆幸的是数据库专家会很友善地向我解释如何在数据库方面处理这个问题我想创建一个与位置实体州城市有关系的用户 ID 名称实体所以在编程语言
如何识别拼写不同的相似单词

我想从数据库中过滤掉重复的客户名称一位客户可能有多个同名但拼写差异不大的系统条目这是一个示例名为 Brook 的客户可能有 3 个系统条目有了这个变化布鲁克贝尔塔布鲁克贝尔塔比鲁克贝尔塔假设我们将此名称放入一个数据库列
如何在 DB2 中创建返回序列值的函数？

如何在 DB2 中创建一个从序列中获取值并返回该值的函数应该可以在 select 或 insert 语句中使用该函数例如 select my func from xxx insert into xxx values my func 基本
SQL 连接两个没有关系的表

我有具有相同结构的不同表我想通过其中一列将它们连接起来问题是他们不共享该专栏中的信息 Table 1 Type A Name Value Table 2 Type B Name Value 结果表在单列中 nameFromA name
日期语句之间的 JPQL SELECT [关闭]

Closed 这个问题是无法重现或由拼写错误引起 help closed questions 目前不接受答案我想将此 SQL 语句转换为等效的 JPQL SELECT FROM events WHERE events date BETWE
MYSQL从每个类别中随机选择一条记录

我有一个数据库Items表看起来像这样 id name category int 有几十万条记录每个item可以是 7 种不同的之一categories 对应于categories table id category 我想要一个从每个类别
如何通过SQL查询检查是否有JSON函数？

有SQL 2016 中的 JSON 函数 https learn microsoft com en us sql t sql functions json functions transact sql例如 JSON VALUE JSON Q
BigQuery 中 _PARTITIONDATE 与 _PARTITIONTIME 伪列的使用

在官方的最佳实践中我found https cloud google com bigquery docs best practices costs 按日期对表进行分区并查询相关分区例如 WHERE PARTITIONDATE 2017 0
如何获取自定义订单的结果？ [关闭]

Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案代替ASC or DESC 我希望我的查询结果采用特定的自定义顺序例如如果我想要的结果不是 A B C D 而是 P A L H 该怎么

随机推荐

用于 Synapse 专用池的 OPENROWSET()？

有计划支持专用池的开放行集吗优点更多更快的解析器选项External File Format例如行分隔符可以自动推断模式直接定义文件格式更方便这是安德斯的一个很棒的功能请求我看到您已经创建了一个功能请求我鼓励每个人都投票支
如何调用scrollViewDidScroll：与UIScrollView相同，但在自定义动画期间？

我有一个非常大的水平滚动 UIScrollView 它正在重用其子视图当它们超出可见区域时移动和更新它们类似于 UITableView 重用单元格这依赖于scrollViewDidScroll 委托调用它给我实际的contentOf
HDFS如何管理块大小？

我的文件大小为 65MB 默认 hdfs 块大小 64MB 那么将分配多少个 64MB 块给我的文件是 1 64MB 块 1 1MB 块还是 2 64MB 块如果是 2 64MB 块剩下的 63MB 会被浪费还是会分配给其他文件块大
从 mJSP 页面获取 URL

我将获取当前 JSP 网页的 URL 及其设置示例 index jsp 参数 12 你有什么想法吗谢谢您可以从HttpServletRequest http download oracle com javaee 6 api javax
将路径宽度更改为 svg 容器的 100%

我有一个 svg 背景图像但路径不是 100 的 svg 宽度我也尝试过更改 keepaspectratio 但没有成功
Logstash：如何将文件名添加为字段？

我使用 Logstash Elasticsearch Kibana 来概览我的 Tomcat 日志文件对于每个日志条目我需要知道它来自的文件的名称我想将其添加为字段有办法做到吗我用谷歌搜索了一下只发现这个问题 https sta
使用 Python Requests 库上传大型 XML 文件

我正在尝试用 Python 和 requests 库替换curl 借助curl 我可以使用curl T 选项将单个XML 文件上传到REST 服务器我无法对 requests 库做同样的事情一个基本场景的工作原理 payload
如何在java中实用地从jar中删除特定文件/文件夹

如何在 java 中实用地从 jar 中删除特定文件文件夹我有一个 jar ABC jar 包含文件文件夹和另一个 jar 说 child jar 在child jar下我想删除一个特定的文件我能怎么做这样我的 ABC jar 结
Hibernate Map ID 自动从字段中获取

我有类似的东西 Entity Table name claim schema test public class Claim implements Serializable Id GeneratedValue strategy Genera
使用 python 获取 Windows 资源管理器中所选文件的路径

我想在桌面上选择一些文件然后使用 python 脚本将通过键盘组合按下启动获取所有选定文件的路径我知道如何通过组合键触发脚本但我的文件路径有问题任何帮助将不胜感激我明白pyHook仅读取低级键盘事件你想做的是不可能用你的方法
如何在 Web 组件中使用子元素

我正在构建用于教育目的的普通 Web 组件这是我的自定义复选框 class Checkbox extends HTMLElement constructor super this shadow this attachShadow mode
WCF OData 服务和 EF 6 问题 - 无法使用 Odata 服务公开实体

我将 WCF 数据服务 Odata 与 NET Framework 4 5 1 和 EF 6 1 结合使用我使用代码优先方法来创建 EF 模型当我将此 EF 模型 AddProjectModel cs 引用到 WCF OData 服务
在 Eclipse 中创建方法存根的快捷方式

我认为在 Eclipse 中创建方法存根的一些快捷方式可能会有用有谁知道该怎么做 Type public method see Java Editor Templates in preferences for more options o
检测 Java 对象是否已被修改？

假设我有一个标准 Java bean 即它包含的成员是String List HashMap etc 我的问题是检测此类对象的实例是否已从先前原始状态进行修改的最简单方法是什么我想知道这一点的原因是在以下情况下我可以确定是否应该更
重新加载 vue-tables-2 (Vuex) 的数据

Module https github com matfish2 vue tables 2 https github com matfish2 vue tables 2 我正在创建一个 CRUD 应用程序如何在 vue tables 2
从 PHP 中的分隔字符串中提取浮点数

我想将一串分隔的维度值转换为浮点数例如 152 15 x 12 34 x 11mm into 152 15 12 34 and 11 并存储在一个数组中这样 dim 0 152 15 dim 1 12 34 dim 2 11 我还需要处
在放置新分配的对象时不调用析构函数可以吗？

假设我有一个固定的内存缓冲区 char buffer And I 使用placement new 在该缓冲区中分配我的结构 struct S std tuple
如果表单数据边界包含在附件中怎么办？

让我们看下面的例子multipart form data 取自 w3 com http www w3 org TR html401 interact forms html h 17 13 4 2 Content Type multipart
将模板应用于具有属性的子节点

我想将模板应用于具有指定属性的子节点的节点并且我很好奇是否可以使用
获取 BQ 公共数据集中的顶级专利国家/地区和代码

我正在尝试使用分析函数来获取专利申请量排名前 2 的国家地区并在这两个排名前 2 的国家地区中获取排名前 2 的申请类型例如答案将如下所示 country code US P US A GB X GB P 这是我用来获取此信息的查

获取 BQ 公共数据集中的顶级专利国家/地区和代码

获取 BQ 公共数据集中的顶级专利国家/地区和代码 的相关文章

随机推荐

热门标签

获取 BQ 公共数据集中的顶级专利国家/地区和代码的相关文章