largedata

Pandas、大数据、HDF 表以及调用函数时的内存使用情况

简短的问题当 Pandas 在 HDFStore 上工作时例如 mean 或 apply 它是否将内存中的完整数据作为 DataFrame 加载还是将逐条记录作为 Serie 进行处理详细描述我必须处理大型数据文件并且我可以指定

pandas memory HDF5 largedata

使用 ff 包导入文本文件

我有一个包含 450 万行和 90 列的文本文件要导入到 R 中 read table我得到了cannot allocate vector of size 错误消息因此我尝试使用 ff 包导入然后再对数据进行子集化以提取我感兴趣的观察结

r import ff largedata

SELECT COUNT() 与 mysql_num_rows();

我有一个大表 60 数百万条记录我正在使用 PHP 脚本来浏览该表 PHP 脚本带分页加载速度非常快因为表引擎是InnoDB因此SELECT COUNT 非常慢并且mysql num rows 不是一个选项所以我将总行数我用来

php mysql select Optimization largedata

在 R 中计算大矩阵的零空间

我找不到任何函数或包来计算 a 的零空间或 QR 分解 bigmatrix from library bigmemory 在 R 中例如 library bigmemory a lt big matrix 1000000 1000 typ

r matrix rbigmemory largedata

更新或插入 SQL Server 时忽略错误行

我的项目必须处理巨大的数据库在最坏的情况下它可能是超过8000万行现在我有 2 张桌子T1 and T2 我必须从表中复制数据T1到餐桌T2 如果表中的一行T1表中已存在T2 相同主键然后更新该行其他列的数据T1 to T2 否则

c sqlserver storedprocedures largedata

如何设计一个存储非常大数据的表？

我需要在Oracle中设计一个表每天将存储2 5TB的数据它可以增长到 200TB 超过 200TB 时记录将被清除将其保留在 OLTP 中是一个可行的选择还是需要将其转移到数据仓库 DB 请建议我在设计该表或数据库的架构时应牢记的

sqlserver Oracle largedatavolumes largedata

如何绘制大时间序列（数千次给药次数/药物剂量）？

我正在尝试绘制医院中如何开出单一药物的图解在这个虚拟数据库中我在 2017 年 1 月 1 日之后遇到了 1000 名患者绘图的目的是了解该药物的给药模式在接近入院出院或患者住院期间是否更频繁高剂量给药 Get random d

r TimeSeries largedata medical

在关键服务器上对字符串进行内存受限的外部排序，并合并和计算重复项（数十亿个文件名）

我们的服务器生成如下文件 c521c143 2a23 42ef 89d1 557915e2323a sign xml在其日志文件夹中第一部分是GUID 第二部分是名称模板我想计算具有同名模板的文件的数量例如我们有 c521c143

c Algorithm Sorting Dictionary largedata

优化Python：大数组、内存问题

我在运行 python numypy 代码时遇到速度问题我不知道如何让它更快也许其他人假设有一个表面有两个三角剖分一个是细三角剖分 fine 有 M 个点一个是粗剖分有 N 个点此外还有每个点的粗网格数据 N 个浮点数我正

python Arrays performance NumPy largedata

多处理中的共享内存

我有三个大清单第一个包含位数组模块位数组 0 8 0 另外两个包含整数数组 l1 bitarray 1 bitarray 2 bitarray n l2 array 1 array 2 array n l3 array 1 array

python multiprocessing sharedmemory largedata

基于多列值的重复键的两个大型 Pandas DataFrame 的条件合并/连接 - Python

我来自 R 老实说这是使用 R data tables 在一行中完成的最简单的事情并且对于大型数据表来说该操作也相当快但是我真的很难用Python实现它前面提到的用例都不适合我的应用程序当前的主要问题是 Python 解决方案中

python pandas MERGE conditionalstatements largedata

在 PowerShell 中解析大型 JSON 文件

Context 在这篇文章中 ConvertFrom Json 大文件 https stackoverflow com q 76784490 268581 我询问有关反序列化 1 2GB JSON 文件的问题这个答案发布在那里 https

json PowerShell largedata

如何处理来自 S3 的大文件并在 Spring Batch 中使用它

我有一个 CSV 文件其中包含数百万条记录大小约为 2GB 我的用例是从 S3 读取 CSV 文件并对其进行处理请在下面找到我的代码在下面的代码中我从 S3 存储桶读取文件并使用inputStream直接在 Spring 批处理中

Java amazons3 SpringBatch largedata largefiles

计算大数据的分位数

我有大约 300 个文件每个文件包含 1000 个时间序列实现每个文件约 76 MB 我想计算全套 300000 个实现中每个时间步的分位数 0 05 0 50 0 95 我无法将 1 个文件中的实现合并在一起因为它会变得太大做到这

r quantile largedata

D3：如何显示大数据集

我有一个包含 10 5 个数据点的大型数据集现在我正在考虑以下与大数据集相关的问题有没有有效的方法来可视化非常大的数据集就我而言我有一个用户集每个用户有 10 3 个项目总共有 10 5 项我想一次显示每个用户的所有项目以便

d3js largedata

使用 dask 合并大型数据集

我有两个数据集一个约为 45GB 包含 1 年的日常交易第二个数据集为 3 6GB 包含客户 ID 和详细信息我想将两者合并到一个公共列上以创建一个数据集这超出了服务器的内存因为每个客户可能有多个交易我正在开发一个具有 16 个

pandas Dask largedata

有效地广播具有多个变量的大型数据集

我在尝试着dcast大型数据集数百万行我有一行用于到达时间和出发地另一行用于出发时间和目的地有一个id识别这两种情况下的单位它看起来类似于 id time movement origin dest 1 10 06 2011 15

r reshape2 largedata Bigdata

R程序中非常大矩阵的svd

我的 txt 文件中有一个矩阵 60 000 x 60 000 我需要获取该矩阵的 svd 我使用R 但我不知道R是否可以生成它我认为可以计算部分 svd使用irlba包装和bigmemory and bigalgebra无需使用大量内

r matrix SVD largedata

H2 数据库表上的 SQL 查询抛出 ArrayIndexOutOfBoundsException

我有一个 H2 数据库一些查询在该数据库上工作而其他查询则抛出一个ArrayIndexOutOfBoundsException 例如 SELECT COLUMN 1 FROM MY TABLE works fine SELECT COU

sql H2 indexoutofboundsexception DBvisualizer largedata

将 Excel 表数据传输到 SQL 2008R2 的最快方法

有谁知道从 Excel 表 VBA 数组获取数据到 SQL 2008 上的表的最快方法without使用外部实用程序即 bcp 请记住我的数据集通常有 6500 15000 行大约 150 250 列我最终在自动 VBA 批处理脚

Excel vba sqlserver2008 import largedata