使用 py2neo WriteBatch 将大图数据插入 Neo4j

2024-01-06

我有一个由以下文件表示的图表：

VertexLabel.txt -> 每行包含每个顶点的属性。
EdgeLabel.txt -> 每行包含每条边的属性。
EdgeID.txt -> 每行包含 3 个分隔的整数，对应于标签文件中的索引：源索引目标索引边缘索引。

大约有 44K 个顶点和 240K 个边。我正在尝试使用Neo4j.Writebatch http://nigelsmall.com/py2neo/1.6/batches/批量插入图形数据。

from py2neo import Graph, neo4j, node, rel

graph_db = Graph()
nodes = {}
batchNodes = {}
edges = {}
edgeList = []

# Read vertex label file into nodes, where node[i] is indexed according to the order the nodes appear in the file.
# Each entry is of type node, e.g. node("FILM", title = "Star Trek"), node("CAST", name = "William Shatner")
...  

# Read edge label file into edges, where edges[i] is indexed according to the order the edges appear in the file.
# Each entry is a tuple (edge_type, edge_task), e.g. ("STAFF", "Director")
...  

# Read edge id file into edgeList
# Each entry is the tuple (source_index, target_index, edge_index), e.g. (1, 4, 8)
...  

# Iterate nodes, store in graph
# Note, store result of batch.create into batchNodes
batch = neo4j.WriteBatch(graph_db)
count = 0
for n in nodes:
    batchNodes[n] = batch.create(nodes[n])
    count += 1

    # Submit every 500 steps
    if count % 500 == 0:
        count = 0
        batch.submit()
        batch = neo4j.WriteBatch(graph_db)

# Submit remaining batch
batch.submit()

# Iterate edgeList, store in graph
batch = neo4j.WriteBatch(graph_db)
count = 0
for i, j, k in edgeList:
    # Lookup reference in batchNodes
    source = batchNodes[i]
    target = batchNodes[j]
    edge = edges[k]
    batch.create(rel(source, edge[0], target, {"task": edge[1]}))
    count += 1

    # Submit every 500 steps
    if count % 500 == 0:
        count = 0
        batch.submit()
        batch = neo4j.WriteBatch(graph_db)

# Submit remaining batch
batch.submit()

我收到以下错误：

Traceback (most recent call last):   File "test4.py", line 87, in <module>
    batch.create(rel(source, edge[0], target, {"task": edge[1]}))   File "C:\Python34\lib\site-packages\py2neo\batch\write.py", line 181, in create
    start_node = self.resolve(entity.start_node)   File "C:\Python34\lib\site-packages\py2neo\batch\core.py", line 374, in resolve
    return NodePointer(self.find(node))   File "C:\Python34\lib\site-packages\py2neo\batch\core.py", line 394, in find
    raise ValueError("Job not found in batch") ValueError: Job not found in batch

我认为batchNodes实际上并不包含对我想要查找以添加关系的节点的正确引用（可能重新初始化批处理对象会使引用无效）。在这种情况下，我该如何执行这个任务呢？

我正在使用 Neo4j 2.1.7（社区版）和 py2neo 2.0.4。

为了导入类似 CSV 的数据，我建议从 Neo4j 2.1 开始使用 LOAD CSV

load csv with headers from "file://...VertexLabel.txt" as row
where has(row.name)
create (:Actor {row.name})

同样，您可以加载您的关系

在 :Actor(name) 上创建索引；在 :Movie(title) 上创建索引；

load csv with headers from "file://...EdgeID.txt" as row
match (a:Actor {row.name})
match (m:Movie {row.title})
create (a)-[:ACTED_IN]->(m)

从 Neo4j 2.2 开始，您还可以使用 neo4j-import 一个超级快速的工具来导入 csv 数据，它还支持 id-groups，在 csv 中提供标签和类型等。

see: http://neo4j.com/developer/guide-importing-data-and-etl/ http://neo4j.com/developer/guide-importing-data-and-etl/ and: http://neo4j.com/developer/guide-import-csv/ http://neo4j.com/developer/guide-import-csv/

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

neo4j

py2neo

使用 py2neo WriteBatch 将大图数据插入 Neo4j 的相关文章

plesk 上的 docker 中的 Neo4j（3.4.17、3.5.13、4.0.0）不使用 /ssl 中提供的 SSL 证书，而是尝试删除它们并进行自己的自签名

此配置在某些时候对我有用但由于没有启用自动续订在短暂的 VPS 暂停后就停止了根据文档我在一个文件夹中提供了 neo4j cert 和 neo4j key 然后将其安装在 ssl 的容器上不幸的是 neo4j 将停留在清理自生成
Neo4j：无法创建具有嵌套属性的节点

我到处寻找但找不到这个问题的答案我需要创建一个节点Config它有一个带有 2 个键值对的动态属性对象例如 name and type 查询时键应该最终为properties name and properties type 但我
Neo4JClient：如何创建关系？

我看到了一篇具有相同标题的帖子但不幸的是无法通过查看给定的示例找到解决方案我通过以下方式创建了节点 private static void createExampleNetwork GraphClient client try Cyph
如何在java中使用cypher加载CSV文件？

我是密码新手我想在java中使用cypher加载csv 我用谷歌搜索并找到了以下作品 LOAD CSV WITH HEADERS FROM http neo4j com docs 2 3 1 csv import movies csv A
参数映射不能用于 MERGE 模式

我收到错误参数映射不能在合并模式中使用我如何解决此错误我正在使用下面的代码我非常感谢任何帮助提前致谢 MERGE u Person names RETURN u and data2 names name Keanu Reeves1
如何使用 spring-data-neo4j 配置 neo4j EmbeddedGraphDatabase （现已弃用）？

我正在使用 spring data neo4j 3 1 1 Release 和 neo4j 2 1 2 我设法制作了一个运行良好的 spring 配置但它使用了 org neo4j kernel EmbeddedGraphDatabase
Neo4j - 根据关系属性查找两个节点之间的最短路径

我试图弄清楚是否有某种方法可以根据关系总和获得两个节点之间的最短距离给出以下示例 neo4j 图像示例 https i stack imgur com fiJe1 png 上图代码 CREATE some point 1 Point ti
如何从 Neo4j 服务器插件登录？

我正在尝试调试我正在编写的 Neo4J 服务器插件中的问题有可以输出的日志吗在哪里或如何执行此操作并不明显好问题我想你可以使用 Java 日志记录吗这应该被路由到正常的日志系统中
Cypher：从集合中提取唯一值

I have MATCH x rels gt y RETURN extract r in rels r property as collected where collected是路径上所有关系的属性的集合例如 null 4 null 4
spring-data-neo4j 基本一对多关系不持久

EDIT 示例项目可在github https github com troig neo4jCustomRepository 我在后端项目中使用 Neo4J Rest 图形数据库托管在 grapheneDb 中和 Spring Data
在 Ubuntu 中更改 Neo4j 中的数据存储位置

我已经成功安装了neo4j 端口号为7474 并且工作正常我的问题是数据存储在 var lib neo4j 该目录中的该位置很快就会满我想更改数据存储位置这怎么可能我尝试编辑该文件 etc neo4j neo4j server pr
SET label : 将标签名称作为参数传递

我有一个这样的查询将 data 展开为行 MERGE p Book guid row bookGuid set p name row name p Science 我想传递标签科学作为参数因为该标签对于我在 data 中传递的所有行
使用 py2neo 从 csv 文件创建 neo4j 图形数据库

我目前正在攻读博士课程并且对 Py2neo 很感兴趣因此我使用它来使用社交图谱进行一些实验然而我遇到了新手麻烦抱歉问这些简单的问题我得到了一个 xml 数据集其中包含有关期刊出版物的数据我已将其转换为 csv 表大约有 70
如何在图数据库（如 Neo4j）中对现实世界的关系进行建模？

我有一个关于在图形数据库中建模的一般性问题但我似乎无法解决这个问题您如何建模这种类型的关系牛顿发明了微积分 In a 简单图 http docs neo4j org chunked snapshot graphdb neo4j rel
没有 Neo4Django 的 Django 和 Neo4j

我正在使用 Neo4j 以及 Postgres 构建一个 Django 应用程序我发现这个 Django 集成称为新4django https github com scholrly neo4django 我想知道是否可以只使用neo4r
Cypher Neo4j 无法加载外部资源

在 Windows 环境中我尝试加载带有以下语句的 csv 文件 LOAD CSV WITH HEADERS FROM file E Neo4j customers csv AS row 它似乎无法正常工作并返回无法加载外部资源文件
lucene 如何与 Neo4j 配合使用

我是新来的Neo4j and Solr Lucene 我读到我们可以在 Neo4j 中使用 lucene 查询这是如何工作的 Neo4j中使用lucene查询有什么用我还需要一个建议我需要编写一个应用程序来搜索和分析数据 which
Neo4j 服务器无法使用非托管扩展启动

我正在尝试在 neo4j 服务器版本 CE 2 3 2 上使用非托管扩展所以我正在尝试一个简单的你好世界的例子 http neo4j com docs stable server unmanaged extensions htmlNeo
如何使用 Bolt 协议将对象数组（批量插入）插入到 Neo4j 中（javascript）

1 将带有对象数组的http post发送到服务器 id 1 title one id 2 title two 2 在服务器上接收帖子并使用bolt批量插入neo4j let data req body set up bolt let db
使用 MongoDB 作为我们的主数据库，我应该使用单独的图数据库来实现实体之间的关系吗？

我们目前正在为一家专业公司内部实施类似 CRM 的解决方案由于存储信息的性质以及信息的不同值和键我们决定使用文档存储数据库因为它完全适合目的在本例中我们选择 MongoDB 作为此 CRM 解决方案的一部分我们希望存储实体之间的关

随机推荐

根据模板类型在类中提供/启用方法

我正在编写代码并决定添加对标量类型的支持以便能够在std complex
重新创建 Oracle DUAL 表

有什么方法可以在Oracle中创建重新创建双表吗不小心掉落了您可能应该联系 Oracle 支持你有备份吗如果是这样请从备份中恢复该表否则如果您无法联系 Oracle Oracle对DUAL有特殊的优化但是不知道表本身有没有
如何使用 jasmine 测试需要很长时间响应的异步函数？

我正在使用一个函数从 Web api 获取数据基本上使用 ajax 我现在正在测试它waits 像这样 describe xxxxxxxxxxxxxxxxxxxxx function var r it fetchFilter functi
手动登录后如何使 Chrome Headless

我正在测试我的网站我希望 chrome 浏览器在手动输入登录凭据后变为无头状态我的硒代码用于连接到网站 var driverService ChromeDriverService CreateDefaultService ChromeO
Rails 3 - 如何在标签助手中自定义文本标签？

这可能是一个有点低的问题但是有没有什么优雅的方法如何更改标签文本label helper f label name generate
Swift、自定义 UITableViewCell 和 UIImageView。需要将单元格大小调整为图像高度

我正在尝试制作应用程序它将在表格视图中显示图像我有带有图像视图的自定义单元格它只需要从 url 下载图像数据 IBOutlet weak var tweetImage UIImageView var imageData MediaIt
如何停止可能已获取或直接执行的脚本中的执行

如果我的脚本来源为 my script sh source my script sh 然后要停止脚本中的执行我会使用return 如果我的脚本直接执行 my script sh bash my script sh 然后我会插入一个exit
Symfony2 用于子域路由的多个配置和路由文件

我们正在构建一个 Symfony2 应用程序它将使用子域为不同部分提供服务 api tld com API 系统 docs tld com 文档 asset tld com 图像服务系统我们的做法是为每个子域创建一个应用程序目录并将标
为什么一个ctor不能调用另一个ctor来初始化对象

class Foo public Foo Foo 1 Foo int x int y 0 i x private int i 有人能给我一些关于我可以这样做的理由吗如果不是为什么因为语言规范不允许语言就是这样如果您习惯了 Java
如何使用 AVAudioRecorder 恢复录音？

我正在编写一个应用程序使用AVAudioRecorder班级它工作得很好除非有电话打进来我正在按照苹果使用 AVAudioRecorder 委托方法的指南来处理这个问题 void audioRecorderBeginInterrup
无法使用 Google Apps 帐户与 PHPMailer 发送电子邮件

请注意我使用的是 Google Apps 帐户而不是 Gmail 帐户我试图简单地使用我的 google apps 帐户和 php ini 发送电子邮件我可以使用端口 587 主机 smtp googlemail com 并启用 S
如何从 dc.js 行图中删除空条，每当维度为空或为空时，行图上就会出现一个空条

如何从 dc js 行图中删除空条每当维度为空或为空时行图上就会出现一个空条你必须使用假组 const remove empty bins source group gt return all gt return source gro
如何在 Visual C++ 中小写环境变量？

是否可以从 Visual C 项目设置中小写环境变量例如 TargetName ConfigurationName 等而不必将它们指定为新的环境变量我想将所有内容保留为小写以匹配我的 UNIX 版本 Thanks 对的这是可能的只
Delphi 自定义消息处理程序

当用户双击 dbgrid 时我会显示一个非模式表单当他们关闭该表单时我想刷新网格为了实现这一目标我尝试了以下方法 1 定义自定义消息常量 const WM REFRESH MSG WM USER 1 defined in a gl
使用模板绑定设置边框背景

Value TemplateBinding HeaderColor 我创建了自己的控件我想知道是否可以将 Border Background 绑定到模板属性目前我正在使用 StaticResource 设置它如下所示
Apache Karaf 如何对要安装和启动的包进行排序？

我定义了四个捆绑包 bundle 1 export package x version 1 bundle 2 import package x ver 1 2 and export package y y uses x bundle 3 e
如何在Delphi中调用EnumSystemLocales？

我正在尝试打电话EnumSystemLocales http msdn microsoft com en us library windows desktop dd317828 28v vs 85 29 aspx在德尔福例如 http w
如何在 psql 中包含与当前执行脚本相关的文件？

我有一个 PostgreSQL 脚本比如说 MAIN sql in sql 其中有类似的行 i components helper functions sql 如果 PWD 与我的脚本的目录相同 sql 但如果不是它会查找相对于 PWD
如何在不调用 onCreate() 的情况下返回第一个活动

我有3个活动活动A 活动B 活动C 这就是流程A gt B gt C 现在我想从 C 进入活动 A 即 C gt A 而不调用活动 A 的 onCreate 到目前为止我的代码是但是它会调用Activity的onCreate 我想调用R
使用 py2neo WriteBatch 将大图数据插入 Neo4j

我有一个由以下文件表示的图表 VertexLabel txt gt 每行包含每个顶点的属性 EdgeLabel txt gt 每行包含每条边的属性 EdgeID txt gt 每行包含 3 个分隔的整数对应于标签文件中的索引源索引目标

使用 py2neo WriteBatch 将大图数据插入 Neo4j

使用 py2neo WriteBatch 将大图数据插入 Neo4j 的相关文章

随机推荐

热门标签