scipy.sparse使用简例

2023-11-09

CDIMC-Net^[1] 中有个对整个数据集求 kNN 图的函数 get_kNNgraph2^[2]，是用 dense 的 numpy.ndarray 存的，空间复杂度 O ( n 2 ) O(n^2) O(n2)，大数据集很吃内存，但其实 kNN 图很稀疏。这里用 scipy.sparse 的 API 改写。

Code

csr_matrix：row slicing 高效，因为一行对应一个 datum 的邻接链表，取 batch 是对行取，所以用它。
lil_matrix：说是「改变稀疏结构很高效」，用在图的构造时，构造完再转 csr_matrix（本来直接用 csr_matrix 构造，然后它建议用 lil_matrix）。

import numpy as np
from scipy.sparse import csr_matrix, lil_matrix
# import torch


def get_kNNgraph2(data,K_num):
    """原来的构图函数
    https://github.com/DarrenZZhang/CDIMC-Net/blob/main/CDIMC-net-handwritten_final.py#L46
    """
    # each row of data is a sample

    x_norm = np.reshape(np.sum(np.square(data), 1), [-1, 1])  # column vector
    x_norm2 = np.reshape(np.sum(np.square(data), 1), [1, -1])  # column vector
    dists = x_norm - 2 * np.matmul(data, np.transpose(data))+x_norm2
    num_sample = data.shape[0]
    graph = np.zeros((num_sample,num_sample),dtype = np.int)
    for i in range(num_sample):
        distance = dists[i,:]
        small_index = np.argsort(distance)
        graph[i,small_index[0:K_num]] = 1
    graph = graph-np.diag(np.diag(graph))
    resultgraph = np.maximum(graph,np.transpose(graph))
    return resultgraph


def get_kNNgraph2_sparse(X, K_num, batch_size=256):
    """sparse version of kNN graph calculation"""
    n = X.shape[0]  # full size
    # `(n, n)`  NOT `[n, n]`
    G = lil_matrix((n, n), dtype=np.int8)
    x_norm_all = np.sum(np.square(X), axis=1, keepdims=True).T  # [1, n]
    for _begin in range(0, n, batch_size):
        _end = min(_begin + batch_size, n)
        X_batch = X[_begin: _end]
        # euclidean distance
        x_norm = np.sum(np.square(X_batch), axis=1, keepdims=True)  # [batch_size, 1]
        D = x_norm - 2 * np.matmul(X_batch, np.transpose(X)) + x_norm_all  # [batch_size, n]
        small_index = np.argsort(D, axis=1)[:, :K_num]  # [batch_size, K_num]
        # mask the kNN
        for i in range(small_index.shape[0]):
            _row_id = _begin + i
            _small_idx = small_index[i]
            G[_row_id, _small_idx] = 1

    # no self-loop
    G.setdiag(0)
    # symmetrize
    G = G.maximum(G.transpose())
    # convert to `csr_matrix` for fast row slicing
    G = G.tocsr()
    return G


"""验证一致性"""
N = 6  # num of data
D = 3  # data dim
K = N // 2
for i in range(150):
    # print(i)
    X = np.random.permutation(N * D).reshape(N, D)

    G1 = get_kNNgraph2(X, K)
    G2 = get_kNNgraph2_sparse(X, K).todense()

    diff = (G1 != G2).sum()
    if diff != 0:
        print("diff:", i, diff)  # 无输出

    # print("PyTorch sparse matrix")
    # x_nz, y_nz = G2.nonzero()
    # I = torch.cat([
        # torch.from_numpy(x_nz),
        # torch.from_numpy(y_nz),
    # ], 0).long()
    # V = torch.ones(x_nz.shape[0]).float()
    # break

print("DONE")

References

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

机器学习

python

scipysparse

torchsparse

NumPy

scipy.sparse使用简例的相关文章

如何在刻度标签和轴之间添加空间

我已成功增加刻度标签的字体但现在它们距离轴太近了我想在刻度标签和轴之间添加一点呼吸空间如果您不想全局更改间距通过编辑 rcParams 并且想要更简洁的方法请尝试以下操作 ax tick params axis both whic
将字符串转换为带有毫秒和时区的日期时间 - Python

我有以下 python 片段 from datetime import datetime timestamp 05 Jan 2015 17 47 59 000 0800 datetime object datetime strptime t
使用 openCV 对图像中的子图像进行通用检测

免责声明我是计算机视觉菜鸟我看过很多关于如何在较大图像中查找特定子图像的堆栈溢出帖子我的用例有点不同因为我不希望它是具体的而且我不确定如何做到这一点如果可能的话但我感觉应该如此我有大量图像数据集有时其中一些图像是数据集的
如何收集列表、字典等中重复计算的结果（或制作修改每个元素的列表的副本）？

There are a great many existing Q A on Stack Overflow on this general theme but they are all either poor quality typical
导入错误：没有名为 _ssl 的模块

带 Python 2 7 的 Ubuntu Maverick 我不知道如何解决以下导入错误 gt gt gt import ssl Traceback most recent call last File
如何打印没有类型的defaultdict变量？

在下面的代码中 from collections import defaultdict confusion proba dict defaultdict float for i in xrange 10 confusion proba di
Flask 和 uWSGI - 无法加载应用程序 0 (mountpoint='')（找不到可调用或导入错误）

当我尝试使用 uWSGI 启动 Flask 时出现以下错误我是这样开始的 gt cd gt root localhost uwsgi socket 127 0 0 1 6000 file path to folder run py ca
如何在 Sublime Text 2 的 OSX 终端中显示构建结果

我刚刚从 TextMate 切换到 Sublime Text 2 我非常喜欢它让我困扰的一件事是默认的构建结果显示在 ST2 的底部我的程序产生一些很长的结果显示它的理想方式如在 TM2 中是并排查看它们如何在 Mac 操作系统
打破嵌套循环[重复]

这个问题在这里已经有答案了有没有比抛出异常更简单的方法来打破嵌套循环在Perl https en wikipedia org wiki Perl 您可以为每个循环指定标签并且至少继续一个外循环 for x in range 10 fo
为 pandas 数据透视表中的每个值列定义 aggfunc

试图生成具有多个值列的数据透视表我知道我可以使用 aggfunc 按照我想要的方式聚合值但是如果我不想对两列求和或求平均值而是想要一列的总和同时求另一列的平均值该怎么办那么使用 pandas 可以做到这一点吗 df pd D
从 scikit-learn 导入 make_blobs [重复]

这个问题在这里已经有答案了我收到下一个警告 D Programming Python ML venv lib site packages sklearn utils deprecation py 77 DeprecationWarning
当玩家触摸屏幕一侧时，如何让 pygame 发出警告？

我使用 pygame 创建了一个游戏当玩家触摸屏幕一侧时我想让 pygame 给出类似你不能触摸屏幕两侧的错误我尝试在互联网上搜索但没有找到任何好的结果我想过在屏幕外添加一个方块当玩家触摸该方块时它会发出警告但这花了很长
Python：尝试检查有效的电话号码

我正在尝试编写一个接受以下格式的电话号码的程序XXX XXX XXXX并将条目中的任何字母翻译为其相应的数字现在我有了这个如果启动不正确它将允许您重新输入正确的数字然后它会翻译输入的原始数字我该如何解决 def main phon
如何改变Python中特定打印字母的颜色？

我正在尝试做一个简短的测验并且想将错误答案显示为红色欢迎来到我的测验您想开始吗是的祝你好运法国的首都是哪里法国随机答案不正确的答案我正在尝试将其显示为红色我的代码是 print Welcome to my Quiz be
通过数据框与函数进行交互

如果我有这样的日期框架氮 EG 00 04 NEG 04 08 NEG 08 12 NEG 12 16 NEG 16 20 NEG 20 24 datum von 2017 10 12 21 69 15 36 0 87 1 42 0 76
如何将 PIL 图像转换为 NumPy 数组？

如何转换 PILImage来回转换为 NumPy 数组这样我就可以比 PIL 进行更快的像素级转换PixelAccess允许我可以通过以下方式将其转换为 NumPy 数组 pic Image open foo jpg pix numpy
使用基于正则表达式的部分匹配来选择 Pandas 数据帧的子数据帧

我有一个 Pandas 数据框它有两列一列进程参数列包含字符串另一列值列包含相应的浮点值我需要过滤出部分匹配列过程参数中的一组键的子数据帧并提取与这些键匹配的数据帧的两列 df pd DataFrame Proce
协方差矩阵的对角元素不是 1 pandas/numpy

我有以下数据框 A B 0 1 5 1 2 6 2 3 7 3 4 8 我想计算协方差 a df iloc 0 values b df iloc 1 values 使用 numpy 作为 cov numpy cov a b I get ar
Spark.read 在 Databricks 中给出 KrbException

我正在尝试从 databricks 笔记本连接到 SQL 数据库以下是我的代码 jdbcDF spark read format com microsoft sqlserver jdbc spark option url jdbc sql
Python - 字典和列表相交

给定以下数据结构找出这两种数据结构共有的交集键的最有效方法是什么 dict1 2A 3A 4B list1 2A 4B Expected output 2A 4B 如果这也能产生更快的输出我可以将列表不是 dict1 组织到任何其他数

随机推荐

优质数对的数目[位运算特点+抽象能力考察+分组快速统计]

位运算特点抽象能力考察分组快速统计前言一优质数对的数目二思路与优化过程总结参考文献前言位运算是计算机最基本的计算是最快的运算方式与或非各有特点抽象能力考察我理解成一种拿核心去累赘的能力分组快速统计我们不必
1Python入门小结（1）

Python入门小结 1 万丈高楼平地起简介 Python是一种通用编程语言其在科学计算和机器学习领域具有广泛的应用本小节包含的内容变量运算符与数据类型位运算条件语句循环语句异常处理变量运算符与数据类型注释 Pyth
我使用过的Linux命令之stty - 显示和修改终端行设置

原文链接 http codingstandards iteye com blog 826924 用途说明 stty命令用于显示和修改终端行设置 change and print terminal line settings 常用参数 stt
【Linux学习】虚拟机VMware 安装Qt5 一条龙讲解

如何在Linux下安装Qt5呢若已在Linux下载好安装包可直接从第三步进行阅读目录第一步下载所需版本Qt 第二步将Qt安装包传输到Linux 第三步 Linux下安装Qt 第四步配置 Qt 环境本文安装版本 linux上的
浅谈软件构件和软件构件测试

什么是构件构件也称为组件是一个独立发布的功能部分通过接口可以访问它的服务其特点是 l 软件系统中具有相对独立功能可以明确辨识接口由契约指定和语境有明显依赖关系可独立部署且多由第三方提供的可组装软件实体 l 软件构件须承载有
前端导出后端文件的方法

一般存在两种方式 1 请求接口之后后端返回文件路径前端直接下载 2 请求接口之后后端以文件流的形式返回给前端前端再下载到本地第一种方式 window location href res request responseURL 直接
CVPR 2017论文

近期在看CVPR2017的文章顺便就把CVPR2017整理一下分享给大家更多的 Computer Vision的文章可以访问Computer Vision Foundation open access CVPapers Machine
Vue实现给按钮的点击事件绑定id参数

当我们需要给按钮所绑定的值做出判断并记录时 eg 为答题的正确以及题号做判断第一种情况使用v for循环 div div 我是id div div 1 2 3 然后在 vue 的实例中就可以拿到对应的 id b index this l
持久化数据&缓存数据双写一致性

背景缓存中数据更新一般有两个入口数据缓存过期数据在访问时发现缓存中无数据时重新查库然后更新至缓存场景和问题等同于缓存查询相关solution参考缓存数据查询的注意事项缓存未过期数据库数据有变动主动更新至缓存比较常见的场景
Windows+Ubuntu 22.04.1 LTS 64bit 双系统配置

为了开发linux下的软件花了半天的时间安装了双系统记录一下过程方便以后重装帮同学装安装尽量使用官网教程一提前准备 1 确保硬盘有足够空余空间 2 关闭windows快速启动会影响开机进入多系统引导 windows 10如何关
函数栈帧的创建与销毁

目录引言基础知识内存模型寄存器的种类与功能常用的汇编指令函数栈帧创建与销毁 main 函数栈帧的创建 NO1 NO2 NO3 NO4 NO5 NO6 main 函数栈帧变量的创建调用Add 函数栈帧的预备工作传参 NO1 N
小蜜团队万字长文《读后简略概括》

1 对话系统主要分为三类闲聊型任务导向型问答型闲聊型就是瞎聊想聊啥就聊啥任务导向型考虑多轮对话根据对话的不同状态和槽位值进行回复策略的选择问答型一问一答识别询问者的意图从知识库中选取答案进行返回 2 任务导向型
perl编写之前的一些习惯细节

变量环境变量的传递文件文件目录文件名路径的解析操作命令行参数调用shell命令变量的debug 主体结构的划分编写简单package的模板脚本执行的关键信息保存在日志里代码整理下述信息仅供自己编写新脚本之前的回顾内容
web前端html+css基础项目实例
【C++笔记】数据结构栈、堆，内存占用中栈区、堆区的区别和理解

在计算机领域堆栈是一个不容忽视的概念我们编写的C语言程序基本上都要用到但对于很多的初学着来说堆栈是一个很模糊的概念堆栈一种数据结构一个在程序运行时用于存放的地方这可能是很多初学者的认识因为我曾经就是这么想的和汇编语言中的堆
matlab机器人工具箱（1）

1 机器人工具箱 2 Figure的基本组成 figure和axes的概念在实际绘图中一张图可能会有好几个子图这时axes表示生成的各个小图而figure则是绘制各图的大画布所以在之后设置图形属性时有时用到gca Axes 有
Python爬虫自动刷“问卷网”问卷（不锁IP）

大学很多项目都会要求征集问卷但很难找到渠道迅速收集大量样本如果是自己通过问卷网设计的问卷可以在设置不锁IP 默认情况下用本方法快速刷取大量样本且能保证问卷结果满足自身项目需求即使没有了解过爬虫稍有python基础看过本程序后
C++后台开发之我见

C 后台开发之我见 2017 2 6 工作也快两年了偶然看到自己以前写过的一些技术博客发现自己自毕业后一直没有更新过自己的技术博客趁现在是刚过完春节快要回公司工作之际谈谈我个人对后台开发的一些个人见解希望能够对在校的学生或者刚刚接
Python爬虫从入门到精通:今日作业_requests基础04_爬取药监总局中的企业详情数据_Python涛哥

今日作业爬取药监总局中的企业详情数据爬取药监总局中的企业详情数据 url http scxk nmpa gov cn 81 xk 需求将首页中每一家企业详情页对应的数据每一家企业详情页对应的数据将前5页企业的数据爬取即可难点用
scipy.sparse使用简例

CDIMC Net 1 中有个对整个数据集求 kNN 图的函数 get kNNgraph2 2 是用 dense 的 numpy ndarray 存的空间复杂度 O n 2 O n 2

scipy.sparse使用简例

Code

References

scipy.sparse使用简例 的相关文章

随机推荐

热门标签

scipy.sparse使用简例的相关文章