为从 CSV 文件导入的每一行添加 UUID

2023-11-29

我们想要将 .csv 文件中的 10 万行导入到 Cassandra 表中。

每行没有唯一的值,因此我们想要向每个导入的行添加 UUID,在从 CSV 文件导入数据时如何自动执行此操作。

.CSV 文件中的示例行(第一行是列名称)

DateTime,Latitude,Longitude,Depth,Magnitude,MagType,NbStations,Gap,Distance,RMS,Source,EventID,Version
2014-09-11T12:36:11.000+00:00,67.689,-162.763,14.6,3.9,ml,,,,0.79,ak,ak11387003,1410441826879

想要将 UUID 添加到每一行,如下所示

UID, DateTime,Latitude,Longitude,Depth,Magnitude,MagType,NbStations,Gap,Distance,RMS,Source,EventID,Version
c37d661d-7e61-49ea-96a5-68c34e83db3a,2014-09-11T12:36:11.000+00:00,67.689,-162.763,14.6,3.9,ml,,,,0.79,ak,ak11387003,1410441826879

无法直接从 CQL 执行此操作复制命令,但您可以先在 Cassandra 外部处理 CSV 文件。

例如,下面是一个 Python 脚本,它将从文件 in.csv 中读入,将 UUID 列附加到每行,然后写入 out.csv:

#!/usr/bin/python
# read in.csv adding one column for UUID

import csv
import uuid

fin = open('in.csv', 'rb')
fout = open('out.csv', 'w')

reader = csv.reader(fin, delimiter=',', quotechar='"')
writer = csv.writer(fout, delimiter=',', quotechar='"')

firstrow = True
for row in reader:
    if firstrow:
        row.append('UUID')
        firstrow = False
    else:
        row.append(uuid.uuid4())
    writer.writerow(row)

可以使用 CQL COPY 导入生成的文件(在相应地创建架构之后)。如果您使用此示例,请务必阅读Python 的 uuid 函数选择您需要的一个(可能uuid1 or uuid4).

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

为从 CSV 文件导入的每一行添加 UUID 的相关文章

  • cassandra 中的突变是什么?

    cassandra 中的突变是什么 它在做什么 我没有找到任何有关它的完整信息 您可以回答或分享带有手册或说明的链接吗 谢谢 Mutation 是一个由 thrift 生成的类 定义在cassandra thrift文件 您可以在以下位置找
  • 卡桑德拉主键。整数与 varchar 的性能影响

    在Cassandra中 如果主键是varchar而不是int或bigint 是否会有性能损失 我有 id 作为主键 我不会对此做任何数学运算 我使用 id 只是为了插入 检索比较 我想将其更改为字符串以满足我的要求之一 性能会下降吗 不会有
  • MongoDB 支持浮点类型吗?

    我正在将 mysql 数据库迁移到 mongodb 但我读过 MongoDb 数据类型 然后没有引用浮点类型 如 float double decimal 我如何在 mysql 模式中拥有一些带有十进制类型的字段 我该怎么做或我能做什么 M
  • 避免 cassandra 中的僵尸数据

    最近 我在客户设置 3 节点集群时遇到了一个问题 其中一个节点出现故障 并在 12 天后才上线 在我们的场景中 大多数表的默认 gc grace seconds 已设置为 1 天 并且有很多表 当此故障节点出现时 来自该节点的陈旧数据被复制
  • 通过updateTable创建多个GSI

    我在用着更新表 http docs aws amazon com AWSJavaScriptSDK latest AWS DynamoDB html updateTable property根据 DynmaoDB 的规定 根据文档 如果我们
  • Cassandra - 选择而不复制

    假设我创建了一个键空间和表 CREATE KEYSPACE IF NOT EXISTS keyspace rep 0 WITH replication class SimpleStrategy replication factor 0 CR
  • 适用于 AWS 区域的 Cassandra Ec2MultiRegionSnitch 或 GossipingPropertyFileSnitch

    我们在美国 AWS 区域有 3 个 Cassandra 节点 在新加坡 AWS 区域有 3 个节点 如果我必须构建多数据中心 我们是否必须使用 Ec2MultiRegionSnitch 或者我们可以使用 GossipingPropertyF
  • 将 Datastax Enterprise Cassandra 迁移到 Apache Cassandra

    我们目前使用的是 DSE 4 8 和 5 12 我们想迁移到 apache cassandra 因为我们不使用 Spark 或搜索 所以想节省一些钱迁移到 apache 这可以在不停机的情况下实现吗 我看到 sstableloader 以其
  • Hector 和 Cassandra 问题 NoSuchFieldError:DEFAULT_MEMTABLE_THROUGHPUT_IN_MB

    我正在通过 Hector 测试与 Cassandra 数据库的连接 但是当我运行 Junit 测试时 我不断收到以下消息 java lang NoSuchFieldError DEFAULT MEMTABLE THROUGHPUT IN M
  • Cassandra 数据建模:时间戳作为分区键

    我需要能够返回在指定时间间隔内执行操作的所有用户 Cassandra 中的表定义如下 create table t timestamp from timestamp to user text PRIMARY KEY from to user
  • 根据统计数据获取cassandra中的数据点

    我正在测试 Cassandra 2 0 作为存储时间序列数据的可能替代品 我制作了一个简单的表并将一些数据转储到其中 CREATE TABLE DataRaw channelId int sampleTime timestamp value
  • 不使用 CPU 时 Cassandra 超时

    我使用 Phantom DSL 和 Datastax Cassandra 驱动程序时遇到 Cassandra 超时 然而 Cassandra 似乎并没有超载 以下是我得到的异常 com datastax driver core except
  • MongoDB:如何使用单个命令更新多个文档?

    我惊讶地发现以下示例代码仅更新单个文档 gt db test save id 1 foo bar gt db test save id 2 foo bar gt db test update foo bar set test success
  • 如何决定使用哪种NoSQL技术? [关闭]

    Closed 这个问题正在寻求书籍 工具 软件库等的推荐 不满足堆栈溢出指南 help closed questions 目前不接受答案 MongoDB 基于文档 HBase 基于列 和 Neo4j 对象图 的优缺点是什么 我特别有兴趣了解
  • Cassandra公共IP未连接

    我在 ubuntu 服务器中使用 cassandra 当我尝试使用 CLI 与公共 IP 地址进行连接时 它返回连接被拒绝 而如果我尝试使用 localhost 它工作正常 我在 cassandra yaml 和 storage conf
  • 什么时候不应该使用 Cassandra? [关闭]

    Closed 这个问题是基于意见的 help closed questions 目前不接受答案 相关话题已经有很多讨论了卡桑德拉 http cassandra apache org lately Twitter Digg Facebook
  • PHP 中的 MongoDB - 如何将项目插入集合中的数组中?

    这必须很容易 但我似乎无法弄清楚 假设我有一个集合users这是集合中的第一项 id ObjectId 4d8653c027d02a6437bc89ca name Oscar Godson email email protected cdn
  • 在 Java 中连接和使用 Cassandra

    我已经阅读了一些关于 Cassandra 是什么以及它可以做什么的教程 但我的问题是如何在 Java 中与 Cassandra 交互 教程会很好 如果可能的话 有人可以告诉我是否应该使用 Thrift 还是 Hector 哪一个更好以及为什
  • 如何停止在 mongodb 集合中插入重复文档

    让我们有一个MongoDB包含三个文档的集合 db collection find id user A title Physics Bank Bank A id user A title Chemistry Bank Bank B id u
  • 是否有像数据库的 JDBC 一样的 NoSQL/键值存储抽象库?

    我使用过很多 SQL 抽象库 例如 ODBC JDBC 和 ActiveRecord NoSQL 键值存储世界中有哪些抽象选项 我主要是问这个问题 这样如果我选择键值存储 那么我就可以使用抽象库而不会被锁定 考虑到周围键值存储的数量 我认为

随机推荐

  • 在什么情况下需要关闭 HTTP 连接?

    在什么情况下需要关闭 HTTP 连接 HTTP 不是一种具有 连接 的协议类型 它是一种具有 连接 的协议 这就是他们所说的 无状态 这意味着每个请求都与其他请求分开 这就是为什么我们有会话 cookie 之类的东西 人们必须设法允许信息在
  • Android 翻转图像动画

    我想通过翻译动画在android中翻转图像 例如 假设我有一张卡 当翻译动画开始时 它会将卡片显示到新位置 现在这里的卡应该翻转吗 从背面到正面 我怎样才能做到这一点 APIdemos 中的示例名称是 旋转3d动画 java 也只需检查下面
  • 宏的逆柯里化?

    假设我们有一个 define FOO x y something 我想构建这样的宏 define BAR that BAR x y 会打电话FOO x y 如果可能的话 我该怎么做 我尝试了以下操作 define BAR x FOO x B
  • Highcharts 删除 x 轴上的空间

    我正在尝试使用 Highcharts 库构建面积图 突然我发现在我的实际数据开始之前 x 轴上有一些间距 我想用适当的数据从 0 0 轴开始绘制图表
  • BeancreationException+NosuchBeandefinition异常

    我正在使用 Spring Boot 开发 Spring 4 应用程序 在 com test tm 包中 应用类 SpringBootApplication EnableJpaRepositories repositoryFactoryBea
  • flash AS3 如何删除舞台事件侦听器

    我正在 flash 和 as3 中构建动画 我有一个添加舞台的功能 eventListener stage addEventListener Event ENTER FRAME setScrollPercent false 0 true 由
  • Swift Array contains 函数使构建时间变长

    我不确定这是否属于 Stack Overflow 如果不属于 请告诉我 我有这段代码将联系人添加到数组中 如果数组中已存在具有该电话 姓名组合的联系人 则不会再次添加它 意味着没有重复项 它按预期工作 但它大大增加了构建时间 我正在寻找更好
  • SGEN、InternalsVisibleTo 和程序集签名

    我正在尝试做一些不寻常的事情 我有这个类 Foo public class Foo public Foo string name this Name name internal Foo public string Name get inte
  • CSS - 如何创建这样的圆形饼图画布?

    非常喜欢这个元素 但如何创建它呢 我不确定该元素的正确名称是什么 非常感谢 这种效果可以通过分层几层来实现arc s bright blue full circle d beginPath d arc 50 50 50 0 2 Math P
  • 使用 Java 解析 Postfix 中的收件箱

    我使用 Postfix 作为邮件服务器 并将其配置为将电子邮件接收到某个目的地 我想编写一个 Java 代码来解析传入的电子邮件并执行一些操作 知道从哪里开始或使用什么吗 我看到两种方法 例如使用 jcup 或 jflex 解析邮箱 或邮件
  • C# 从流中压缩和压缩 csv

    我有一个 MemoryStream 从 DataTable 中提取数据 目前 这会输入 MailMessage 附件并邮寄出附加到邮件的 csv 我需要做的就是对其进行压缩和压缩 所以现在我正在迭代 DataTable 的每一行 添加适当的
  • 在用户定义类的实例上启用列表(实例)或元组(实例)

    有没有一种方法可以使用标准类型构造函数 例如 int set dict list tuple 等 以用户定义的方式将用户定义类的实例强制为这些类型之一 例如 class Example def init self self a 1 self
  • 无法从气流 Pod 中提取 xcom - Kubernetes Pod Operator

    在运行使用 docker 镜像运行 jar 的 DAG 时 xcom push 真给出了它在单个 pod 中创建另一个容器以及 docker 镜像 DAG jar task KubernetesPodOperator namespace t
  • MySQL - 使用 SET 语句更新查询取决于前一个 SET 语句的结果

    这是我希望通过 UPDATE 语句实现的目标的表格表示 ID A B C D Calc A Calc B Calc C 1 6 5 2 10 A B Calc A D B Calc B 2 8 5 2 10 A B Calc A D B
  • 具有有序条形图并使用构面

    I am trying to make a graph with ordered bars according to frequency and also using a variable two separate two variable
  • 从 DataGridView 中删除行

    为了初始化我的 VouchersDGV 数据网格视图 我正在使用以下内容 DGV AllowUserToDeleteRows True For i 1 To DGV RowCount 1 DGV Rows Remove DGV Rows i
  • 防止 C# 中 HtmlButton 的回发

    我正在 cs 文件中动态创建 HtmlButton 使用将其添加到面板 HtmlButton b1 new HtmlButton b1 Attribute Add onclick javascript validateNclick this
  • Firebase 中的 OR 查询

    我正在尝试建立一个消息系统 我计划收集消息 然后根据发送者和接收者查询消息 为此 我需要查询例如 由鲍勃发送并由托尼接收的所有消息以及由托尼发送并由鲍勃接收的所有消息 我很不清楚如何执行这个 或 语句 截至目前我有 MessageRef o
  • 如何以编程方式在 jqGrid 中分页到下一页/上一页

    是否有一个 jqGrid 方法可以跳到下一页 上一页行 我试图用 jQuery 以编程方式单击按钮本身 但尚未成功 转到第 123 页 grid grid grid setGridParam page 123 grid trigger re
  • 为从 CSV 文件导入的每一行添加 UUID

    我们想要将 csv 文件中的 10 万行导入到 Cassandra 表中 每行没有唯一的值 因此我们想要向每个导入的行添加 UUID 在从 CSV 文件导入数据时如何自动执行此操作 CSV 文件中的示例行 第一行是列名称 DateTime