Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
Pandas、大数据、HDF 表以及调用函数时的内存使用情况
简短的问题 当 Pandas 在 HDFStore 上工作时 例如 mean 或 apply 它是否将内存中的完整数据作为 DataFrame 加载 还是将逐条记录作为 Serie 进行处理 详细描述 我必须处理大型数据文件 并且我可以指定
pandas
memory
HDF5
largedata
使用 ff 包导入文本文件
我有一个包含 450 万行和 90 列的文本文件要导入到 R 中 read table我得到了cannot allocate vector of size 错误消息 因此我尝试使用 ff 包导入 然后再对数据进行子集化以提取我感兴趣的观察结
r
import
ff
largedata
SELECT COUNT() 与 mysql_num_rows();
我有一个大表 60 数百万条记录 我正在使用 PHP 脚本来浏览该表 PHP 脚本 带分页 加载速度非常快 因为 表引擎是InnoDB因此SELECT COUNT 非常慢并且mysql num rows 不是一个选项 所以我将总行数 我用来
php
mysql
select
Optimization
largedata
在 R 中计算大矩阵的零空间
我找不到任何函数或包来计算 a 的零空间或 QR 分解 bigmatrix from library bigmemory 在 R 中 例如 library bigmemory a lt big matrix 1000000 1000 typ
r
matrix
rbigmemory
largedata
更新或插入 SQL Server 时忽略错误行
我的项目必须处理巨大的数据库 在最坏的情况下 它可能是超过8000万行 现在 我有 2 张桌子T1 and T2 我必须从表中复制数据T1到餐桌T2 如果表中的一行T1表中已存在T2 相同主键 然后更新该行其他列的数据T1 to T2 否则
c
sqlserver
storedprocedures
largedata
如何设计一个存储非常大数据的表?
我需要在Oracle中设计一个表 每天将存储2 5TB的数据 它可以增长到 200TB 超过 200TB 时记录将被清除 将其保留在 OLTP 中是一个可行的选择 还是需要将其转移到数据仓库 DB 请建议我在设计该表或数据库的架构时应牢记的
sqlserver
Oracle
largedatavolumes
largedata
如何绘制大时间序列(数千次给药次数/药物剂量)?
我正在尝试绘制医院中如何开出单一药物的图解 在这个虚拟数据库中 我在 2017 年 1 月 1 日之后遇到了 1000 名患者 绘图的目的是了解该药物的给药模式 在接近入院 出院或患者住院期间是否更频繁 高剂量给药 Get random d
r
TimeSeries
largedata
medical
在关键服务器上对字符串进行内存受限的外部排序,并合并和计算重复项(数十亿个文件名)
我们的服务器生成如下文件 c521c143 2a23 42ef 89d1 557915e2323a sign xml在其日志文件夹中 第一部分是GUID 第二部分是名称模板 我想计算具有同名模板的文件的数量 例如 我们有 c521c143
c
Algorithm
Sorting
Dictionary
largedata
优化Python:大数组、内存问题
我在运行 python numypy 代码时遇到速度问题 我不知道如何让它更快 也许其他人 假设有一个表面有两个三角剖分 一个是细三角剖分 fine 有 M 个点 一个是粗剖分 有 N 个点 此外 还有每个点的粗网格数据 N 个浮点数 我正
python
Arrays
performance
NumPy
largedata
多处理中的共享内存
我有三个大清单 第一个包含位数组 模块位数组 0 8 0 另外两个包含整数数组 l1 bitarray 1 bitarray 2 bitarray n l2 array 1 array 2 array n l3 array 1 array
python
multiprocessing
sharedmemory
largedata
基于多列值的重复键的两个大型 Pandas DataFrame 的条件合并/连接 - Python
我来自 R 老实说 这是使用 R data tables 在一行中完成的最简单的事情 并且对于大型数据表来说 该操作也相当快 但是我真的很难用Python实现它 前面提到的用例都不适合我的应用程序 当前的主要问题是 Python 解决方案中
python
pandas
MERGE
conditionalstatements
largedata
在 PowerShell 中解析大型 JSON 文件
Context 在这篇文章中 ConvertFrom Json 大文件 https stackoverflow com q 76784490 268581 我询问有关反序列化 1 2GB JSON 文件的问题 这个答案发布在那里 https
json
PowerShell
largedata
如何处理来自 S3 的大文件并在 Spring Batch 中使用它
我有一个 CSV 文件 其中包含数百万条记录 大小约为 2GB 我的用例是从 S3 读取 CSV 文件并对其进行处理 请在下面找到我的代码 在下面的代码中 我从 S3 存储桶读取文件并使用inputStream直接在 Spring 批处理中
Java
amazons3
SpringBatch
largedata
largefiles
计算大数据的分位数
我有大约 300 个文件 每个文件包含 1000 个时间序列实现 每个文件约 76 MB 我想计算全套 300000 个实现中每个时间步的分位数 0 05 0 50 0 95 我无法将 1 个文件中的实现合并在一起 因为它会变得太大 做到这
r
quantile
largedata
D3:如何显示大数据集
我有一个包含 10 5 个数据点的大型数据集 现在我正在考虑以下与大数据集相关的问题 有没有有效的方法来可视化非常大的数据集 就我而言 我有一个用户集 每个用户有 10 3 个项目 总共有 10 5 项 我想一次显示每个用户的所有项目 以便
d3js
largedata
使用 dask 合并大型数据集
我有两个数据集 一个约为 45GB 包含 1 年的日常交易 第二个数据集为 3 6GB 包含客户 ID 和详细信息 我想将两者合并到一个公共列上以创建一个数据集 这超出了服务器的内存 因为每个客户可能有多个交易 我正在开发一个具有 16 个
pandas
Dask
largedata
有效地广播具有多个变量的大型数据集
我在尝试着dcast大型数据集 数百万行 我有一行用于到达时间和出发地 另一行用于出发时间和目的地 有一个id识别这两种情况下的单位 它看起来类似于 id time movement origin dest 1 10 06 2011 15
r
reshape2
largedata
Bigdata
R程序中非常大矩阵的svd
我的 txt 文件中有一个矩阵 60 000 x 60 000 我需要获取该矩阵的 svd 我使用R 但我不知道R是否可以生成它 我认为可以计算 部分 svd使用irlba包装和bigmemory and bigalgebra无需使用大量内
r
matrix
SVD
largedata
H2 数据库表上的 SQL 查询抛出 ArrayIndexOutOfBoundsException
我有一个 H2 数据库 一些查询在该数据库上工作 而其他查询则抛出一个ArrayIndexOutOfBoundsException 例如 SELECT COLUMN 1 FROM MY TABLE works fine SELECT COU
sql
H2
indexoutofboundsexception
DBvisualizer
largedata
将 Excel 表数据传输到 SQL 2008R2 的最快方法
有谁知道从 Excel 表 VBA 数组 获取数据到 SQL 2008 上的表的最快方法without使用外部实用程序 即 bcp 请记住 我的数据集通常有 6500 15000 行 大约 150 250 列 我最终在自动 VBA 批处理脚
Excel
vba
sqlserver2008
import
largedata
1
2
3
»