dataprocessing

从R中的字符串中匹配提取国家名称

我一直在从网站上抓取评论数据在此过程中我能够获取包含用户名评论数量评论日期和国家地区信息的字符串向量它们看起来大致是这样的 raw lt c Anna 1025 North Carolina USA DEC 20 2017 Ja

r webscraping dplyr stringr dataprocessing

我正在尝试处理数据框这包括创建新列并根据其他列中的值更新其值更具体地说我有一个预定义的源我想对其进行分类该来源可以分为三个不同的类别 source dtp source dtot 和 source cash 我想向数据框中添加三

python pandas DataFrame dataprocessing

我有以下问题假设这是我的 CSV id f1 f2 f3 1 4 5 5 1 3 1 0 1 7 4 4 1 4 3 1 1 1 4 6 2 2 6 0 所以我有可以按 id 分组的行我想创建一个如下所示的 csv 作为输出 f1 f

python pandas DataFrame dataprocessing

背景我有 4 组有刷直流电机的数据全部来自同一实验扭矩与速度 T 与 w 扭矩与效率 T 与 n 扭矩与输入功率 T 与 Pin 扭矩与输出功率 T 与 Pout 然而每个数据集都有第一个和最后一个数据对的 x 值略有不同每个数据

python interpolation dataprocessing

使用 GetFile 处理器将 csv 导入 NiFi 工作流程我有一列由 id 组成每个id代表一个特定的字符串大约有3个id 例如如果我的 csv 包含 name age id John 10 Y Jake 55 N Finn

apachenifi dataprocessing

我需要格式化一个大的 JSON 文件以提高可读性但我找到的每个资源主要是在线都不处理 1 2 MB 以上的数据我需要格式化大约 30 MB 有什么方法可以做到这一点或者有什么方法可以编写代码来做到这一点使用 python gt

json dataprocessing

我对 CKEditor 还很陌生两天前开始使用它而且我仍在与一些配置作斗争例如从编辑器中删除标签例如如果用户在源模式下键入以下内容我想将其删除查看文档我发现这可以使用 HTML 过滤器来完成我这样定义了它但它不起作用 v

javascript ckeditor dataprocessing

我从 API 调用返回以下内容作为更大数据集的一部分时间 datetime datetime 2017 5 21 18 18 1 tzinfo tzutc 价格 0 052600 时间 datetime datetime 2017 5 2

python pandas TimeSeries dataprocessing

我有一个 Java 对象列表我需要应用聚合函数例如在数据库上进行选择来减少它注意数据是根据多个数据库和服务调用计算得出的我期望有数千行并且每次执行每行始终具有相同数量的单元格该数量在执行之间会发生变化 Samples 如果

Java database MapReduce dataprocessing

使用时read csv对于 Pandas 如果我想要将给定的列转换为类型格式错误的值将中断整个操作而不会指示有问题的值例如运行如下内容 import pandas as pd import numpy as np df pd rea

python csv pandas dataprocessing

我正在尝试清理一些数据我的价值观是负面的但它们不可能是负面的我想将所有负值替换为相应的正值 A B C 1 9 0 2 Hello 1 2 0 3 World 我希望这成为 A B C 1 9 0 2 Hello 1 2 0 3

python pandas dataprocessing

我正在尝试使用 Google Data Fusion 免费版本将简单的 CSV 文件从 GCS 加载到 BQ 管道因错误而失败它读着 com google api gax rpc InvalidArgumentException io g

在实践中而非理论上小批量与实时流有什么区别从理论上讲我理解迷你批次是在给定时间范围内进行批处理的东西而实时流更像是在数据到达时执行某些操作但我最大的问题是为什么不使用带有 epsilon 时间范围例如一毫秒的迷你批次或者我想

我发现层归一化是比批量归一化更现代的归一化方法并且在 Tensorflow 中编码非常简单但我认为层归一化是为 RNN 设计的批量归一化是为 CNN 设计的我可以使用 CNN 的层归一化来处理图像分类任务吗选择批量归一化或层的标准

这个问题在这里已经有答案了给定一个由一系列整数年龄组成的数据帧列我想将整数范围转换为序数变量我当前的代码不起作用我该怎么做 df lt read table http dl dropbox com u 822467 df csv

r dataprocessing rfactor

我正在尝试在 R 中创建一个函数该函数允许我根据行是否包含带有零的单列来过滤数据集此外有时我只想删除所有列中为零的行另外这就是有趣的地方并非所有列都包含数字并且列数可能会有所不同我尝试将一些数据与我想要获得的结果粘贴到此处

r Filtering Bioinformatics dataprocessing

我正在弄清楚两者之间的差异pickle load and pickle loads 有人说那是什么样的物体pickle load 进程是 file like object 但是 pickle loads 对应于文件对象您选择使用哪个函数

python pickle dataprocessing