以向量化方式连接给定开始、停止编号的范围数组 - NumPy

2024-04-11

我有两个感兴趣的矩阵，第一个是“词袋”矩阵，有两列：文档 ID 和术语 ID。例如：

bow[0:10]

Out[1]:
    array([[ 0, 10],
           [ 0, 12],
           [ 0, 19],
           [ 0, 20],
           [ 1,  9],
           [ 1, 24],
           [ 2, 33],
           [ 2, 34],
           [ 2, 35],
           [ 3, 2]])

此外，我有一个“索引”矩阵，其中矩阵中的每一行都包含词袋矩阵中给定文档 ID 的第一行和最后一行的索引。例如：第 0 行是 doc id 0 的第一个和最后一个索引。例如：

index[0:4]

Out[2]:
    array([[ 0,  4],
           [ 4,  6],
           [ 6,  9],
           [ 9, 10]])

我想做的是随机抽取文档 ID 样本，并获取这些文档 ID 的所有单词行包。词袋矩阵大约有 150M 行（~1.5Gb），因此使用 numpy.in1d() 太慢。我们需要快速返回这些数据以供下游任务使用。

我想出的天真的解决方案如下：

def get_rows(ids):
    indices = np.concatenate([np.arange(x1, x2) for x1,x2 in index[ids]])
    return bow[indices]

get_rows([4,10,3,5])

通用样本

提出问题的通用示例是这样的 -

indices = np.array([[ 4, 7],
                    [10,16],
                    [11,18]]

预期输出是 -

array([ 4,  5,  6, 10, 11, 12, 13, 14, 15, 11, 12, 13, 14, 15, 16, 17])

我想我终于破解了它cumsum https://docs.scipy.org/doc/numpy-1.13.0/reference/generated/numpy.cumsum.html矢量化解决方案的技巧 -

def create_ranges(a):
    l = a[:,1] - a[:,0]
    clens = l.cumsum()
    ids = np.ones(clens[-1],dtype=int)
    ids[0] = a[0,0]
    ids[clens[:-1]] = a[1:,0] - a[:-1,1]+1
    out = ids.cumsum()
    return out

样本运行 -

In [416]: a = np.array([[4,7],[10,16],[11,18]])

In [417]: create_ranges(a)
Out[417]: array([ 4,  5,  6, 10, 11, 12, 13, 14, 15, 11, 12, 13, 14, 15, 16, 17])

In [425]: a = np.array([[-2,4],[-5,2],[11,12]])

In [426]: create_ranges(a)
Out[426]: array([-2, -1,  0,  1,  2,  3, -5, -4, -3, -2, -1,  0,  1, 11])

如果我们给定开始和停止两个1D数组，我们只需要使用它们来代替第一列和第二列。为了完整起见，这是完整的代码 -

def create_ranges(starts, ends):
    l = ends - starts
    clens = l.cumsum()
    ids = np.ones(clens[-1],dtype=int)
    ids[0] = starts[0]
    ids[clens[:-1]] = starts[1:] - ends[:-1]+1
    out = ids.cumsum()
    return out

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Arrays

NumPy

Optimization

vectorization

以向量化方式连接给定开始、停止编号的范围数组 - NumPy 的相关文章

在 Play2 和 Scala 中解析没有数据类型的 JSON

people name Jack age 15 name Tony age 23 name Mike age 19 这是我试图解析的 json 示例我希望能够对每个人进行 foreach 操作并打印他们的姓名和年龄我知道当 json 数
PyQt 使用 ctrl+Enter 触发按钮

我正在尝试在我的应用程序中触发确定按钮我当前尝试的代码是这样的 self okPushButton setShortcut ctrl Enter 然而它不起作用这是有道理的我尝试查找一些按键序列here http ftp ics
通过 $_SESSION 从一个脚本发送到另一个脚本期间数据丢失

我正在尝试将一个充满属性的对象从一个 PHP 发送到另一个 PHP SESSION object obj where obj是一个用 foreach 循环指定的对象 foreach array of objects as obj SESSI
Tensorboard SyntaxError：语法无效

当我尝试制作张量板时出现语法错误尽管开源代码我还是无法理解我尝试搜索张量板的代码但不清楚即使我不擅长Python 我这样写路径C Users jh902 Documents logs因为我正在使用 Windows 10 但我不确定
为什么一旦我离开内置的运行服务器，Django 就无法找到我的管理媒体文件？

当我使用内置的简单服务器时一切正常管理界面很漂亮 python manage py runserver 但是当我尝试使用 wsgi 服务器为我的应用程序提供服务时django core handlers wsgi WSGIHandle
Python 3：将字符串转换为变量[重复]

这个问题在这里已经有答案了我正在从 txt 文件读取文本并且需要使用我读取的数据之一作为类实例的变量 class Sports def init self players 0 location name self players pla
使用 Python Oauthlib 通过服务帐户验证 Google API

我不想使用适用于 Python 的 Google API 客户端库但仍想使用 Python 访问 Google APIOauthlib https github com idan oauthlib 创建服务帐户后谷歌开发者控制台 http
Django REST Framework - CurrentUserDefault 使用

我正在尝试使用CurrentUserDefault一个序列化器的类 user serializers HiddenField default serializers CurrentUserDefault 文档说为了使用它请求必须作为
将 Matlab 的 datenum 格式转换为 Python

我刚刚开始从 Matlab 迁移到 Python 2 7 在读取 mat 文件时遇到一些问题时间信息以 Matlab 的日期数字格式存储对于那些不熟悉它的人日期序列号将日历日期表示为自固定基准日期以来已经过去的天数在 MATLAB
如何使用 Python 3 检查目录是否包含文件

我到处寻找这个答案但找不到我正在尝试编写一个脚本来搜索特定的子文件夹然后检查它是否包含任何文件如果包含则写出该文件夹的路径我已经弄清楚了子文件夹搜索部分但检查文件却难倒了我我发现了有关如何检查文件夹是否为空的多个建议并且我尝
Spider 必须返回 Request、BaseItem、dict 或 None，已“设置”

我正在尝试从以下位置下载所有产品的图像我的蜘蛛看起来像 from shopclues items import ImgData import scrapy class multipleImages scrapy Spider name m
如果 PyPy 快 6.3 倍，为什么我不应该使用 PyPy 而不是 CPython？

我已经听到很多关于PyPy http en wikipedia org wiki PyPy项目他们声称它比现有技术快 6 3 倍CPython http en wikipedia org wiki CPython口译员开启他们的网站 ht
每当使用 import cv2 时 OpenCV 都会出错

我在终端上使用 pip3 install opencv contrib python 安装了 cv2 并且它工作了但是每当我尝试导入 cv2 或运行导入了 cv2 的 vscode 文件时在 python IDLE 上它都会说 Trac
制作一份 Python 文档的 PDF 文件

Python 官方网站提供 PDF 文档下载但它们是按章节分隔的我下载了源代码并构建了 PDF 文档这些文档也是单独的 PDF 我怎么能够从源代码中的 Makefile 构建一个 PDF 文件我认为这样阅读起来会更方便如果连接单独
如何使用 Boto3 启动具有 IAM 角色的 EC2 实例？

我无法弄清楚如何使用指定的 IAM 角色在 Boto3 中启动 EC2 实例以下是迄今为止我如何成功创建实例的一些示例代码 import boto3 ec2 boto3 resource ec2 region name us west 2
等待子进程使用 os.system

我用了很多os system在 for 循环内调用创建后台进程如何等待所有后台进程结束 os wait告诉我没有子进程 ps 我使用的是Solaris 这是我的代码 usr bin python import subprocess imp
在virtualenv中下载sqlite3

我正在尝试使用命令创建应用程序python3 manage py startapp webapp但我收到一条错误消息 django core exceptions ImproperlyConfigured 加载时出错 pysqlite2 或
pytest找不到模块[重复]

这个问题在这里已经有答案了我正在关注pytest 良好实践 https docs pytest org en latest explanation goodpractices html test discovery或者至少我认为我是但是
如何将Python3设置为Mac上的默认Python版本？

有没有办法将 Python 3 8 3 设置为 macOS Catalina 版本 10 15 2 上的默认 Python 版本我已经完成的步骤看看它安装在哪里 ls l usr local bin python 我得到的输出是这样的
JSON：TypeError：Decimal（'34.3'）不是JSON可序列化的[重复]

这个问题在这里已经有答案了我正在运行一个 SQL 查询它返回一个小数列表当我尝试将其转换为 JSON 时出现类型错误查询 res db execute SELECT CAST SUM r SalesVolume 1000 0 AS

随机推荐

ansible 有 yaml 编辑模块吗？

我需要修改 yaml 文件施洛德配置 http schleuder2 nadir org documentation v2 2 index html 并且我想从 ansible 剧本中执行此操作是否有模块可以执行此操作很难用谷歌搜索这
scanf("%d", &value) 中的字符输入[重复]

这个问题在这里已经有答案了简而言之我的代码是 include
非负矩阵分解中的评分预测

我正在关注这个博客http www quuxlabs com blog 2010 09 matrix factorization a simple tutorial and implementation in python http www
在Android Studio中编译Cordova时出现“java：package org.apache.cordova不存在”

Android 开发世界的新手我才刚刚开始无论如何我们正在努力我已经下载了 Cordova 2 8 可能需要升级 Java JDK 1 7 和新的 Android Studio Andriod SDK 安装了所有 4 x 软件包并
通过 Jquery 从 Datebox 中清除日期

下面的代码在日期框模式弹出窗口中显示一个按钮但我想清除单击该按钮时的日期我尝试了很多东西但无法通过 jQuery 方法做到这一点
函数只能在主线程中调用，为什么？

在下面的代码中我调用函数 displayMyAlertMessage 两次我调用的第一个函数工作完美但第二个函数给我一个错误指出该函数只能从主线程调用在我的情况下我该如何做到这一点我正在使用这段代码 IBAction func
Android WebRTC 自定义捕获器

我已经编译了 webRTC 演示应用程序我看到捕获帧是由VideoCaptureAndroid java与本机代码紧密耦合的文件我需要添加将我自己的帧推送到 webRTC 库以在视频通道上发送的功能我可以用 C NDK 或 Java
linux 相当于“host.docker.internal”的东西是什么[重复]

这个问题在这里已经有答案了在 Mac 和 Windows 上可以使用host docker internal Docker 18 03 在容器内是否有一种适用于 Linux 的工具可以开箱即用无需传递环境变量或使用各种 CLI 命令提
HttpWebRequest.GetResponse() 失败时如何获取错误信息

我正在启动 HttpWebRequest 然后检索它的响应有时我会收到 500 或至少 5 错误但没有描述我可以控制两个端点并希望接收端获得更多信息例如我想将异常消息从服务器传递到客户端使用 HttpWebRequest 和
MapBox水/陆检测

我开始使用MapBox iOS SDK https www mapbox com mapbox ios sdk 有没有可能的方法通过坐标查询 MapView 并返回地形类型水土地作为结果我一直在读API doc https www
Spark 应用程序在 1 小时后在 EMR 中突然被终止，并且 livy 会话过期。原因和解决方案是什么？

我在 AWS EMR 集群上使用 JupyterHub 我使用的是 EMR 版本 5 16 我使用 pyspark3 笔记本提交了 Spark 应用程序我的应用程序正在尝试将 1TB 数据写入 s3 我正在使用 EMR 的自动缩放功能来缩
检查 Android 中我的应用程序是否是首次用户

在我的应用程序中首先它显示一个启动屏幕在另一项活动之后必须显示我的主要活动这是我的设计计划第二个活动即在主要活动之前必须向应用程序的首次用户显示如果他她关闭应用程序启动屏幕将自动重定向到主要活动我该怎么做呢有任何想法
一台控制器多条路线

我已经搜索了一段时间但我似乎不知道这是否可能我需要的是一个控制器用于两条不同的路径我拥有的是一种模型有两种类型自己的和竞争的所以我想要的是这样的两条路径都到达一个控制器 example com hotels example c
如何获取控制器中流程实例的ID？

我的环境 Alfresco Share v5 2 d r134641 b15 Aikau 1 0 101 3 Spring Surf 5 2 d Spring WebScripts 6 13 Freemarker 2 3 20 alfres
我的新 Reactjs 应用程序出现 404 错误，它是否正在寻找 main.js 文件？

这个应用程序应该呈现我在这里的内容 Users ldco2016 Projects reactquiz src components App jsx import React Component from react import Reac
如何在ng2 Guard canActivate中获取目标路由？

如何获取用户尝试在角度 2 的 canActivate 防护中打开的路线我怎样才能让警卫监视每个路线参数的变化例如路线内的 id 发生变化吗 import Injectable from angular core import Obs
pre_controller 钩子不会加载像 docs state 这样的基类？

根据此处的 Codeigniter 文档 http ellislab com codeigniter user guide general hooks html http ellislab com codeigniter user guid
我可以在 Fragment 中注册 MVP Presenter

我一直在遵循 MVP 设计模式Google https github com googlesamples android architecture tree todo mvp 重构我的应用程序我有一个 MainActivity 和许多 F
将 EBNF 转换为 BNF

我的计算机语言课已经过去几年了所以我已经忘记了 BNF 和 EBNF 的要点而且我身边也没有教科书具体来说我忘记了如何将 EBNF 转换为 BNF 据我所知我知道要点之一是转换 term into
以向量化方式连接给定开始、停止编号的范围数组 - NumPy

我有两个感兴趣的矩阵第一个是词袋矩阵有两列文档 ID 和术语 ID 例如 bow 0 10 Out 1 array 0 10 0 12 0 19 0 20 1 9 1 24 2 33 2 34 2 35 3 2 此外我有一个索

以向量化方式连接给定开始、停止编号的范围数组 - NumPy

以向量化方式连接给定开始、停止编号的范围数组 - NumPy 的相关文章

随机推荐

热门标签