在巨大的数据集上创建独特的节点和关系 NEO4J

2024-05-03

我的问题与这个非常相似：如何通过neo4j中导入的csv文件创建独特的节点和关系？ https://stackoverflow.com/questions/25090255/how-to-create-unique-nodes-and-relationships-by-csv-file-imported-in-neo4j我有一个大约有 250 万行的文本文件，有两列，每一列都带有节点 ID：

每行代表一个关系（因此有 250 万个关系）：first_column nodeid-> FOLLOWS -> secondary_column nodeid。该文件中有大约 80,000 个唯一节点。

根据上面的链接，我做了：

USING PERIODIC COMMIT 1000
LOAD CSV FROM 'file:///home/user_name/Desktop/bigfile.csv' AS line FIELDTERMINATOR ' '
MERGE (n:Userid { id: toInt(line[0]) })
WITH line, n
MERGE (m:Userid { id: toInt(line[1]) })
WITH m,n
MERGE (n)-[:FOLLOWS]->(m)

我假设这段代码

如果节点 n 或 m 不存在，则创建它（如果存在则查找它），并创建从 n 到 m 的关系。
如果 n 或 m 存在，并且已经有许多其他边（关系）指向和来自其他节点，这只会添加从 n 到 m 的另一条边（当节点已经存在时，不会创建一个全新的节点）

我的主要问题是我想知道如何使这个过程更快。这是在 Ubuntu 上完成的，我将 conf/neo4j-wrapper.conf 文件中的内存值从 512 MB 更改为 2048 MB。（我可以在虚拟机上增加的最大值）

我应该尝试使用导入工具吗？基于本网站 neo4j.com/developer/guide-import-csv/ 上的“Super Fast Batch Importer For Huge Datasets”下的示例，

./bin/neo4j-import --into mydatabase.db --id-type INTEGER \
                   --nodes allnodes.csv \
                   --delimiter " " \
                   --relationships:FOLLOWS bigfile.csv

为此，我需要重新格式化文件，以便： allnodes.csv 显示

userID:ID(Userid)
1234
5678
...

并且 bigfile.csv 显示

:START_ID(Userid)   :END_ID(Userid)
1234                 345
1234                 568
345                  984
*Two columns delimited by space*

当我运行此导入时，出现此错误：

Input error: Expected '--nodes' to have at least 1 valid item, but had 0 []
Caused by:Expected '--nodes' to have at least 1 valid item, but had 0 []
java.lang.IllegalArgumentException: Expected '--nodes' to have at least 1 valid item, but had 0 []

我该如何修复这个错误？对于 csv 文件，我是否将它们放在运行此命令的同一文件夹中（neo4j 文件夹）？

您的命令行可能包含两个 CSV 文件的错误路径。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

在巨大的数据集上创建独特的节点和关系 NEO4J 的相关文章

使用从两列计算出的键对 CSV 进行排序，获取前 n 个最大值

这里是 Python 业余爱好者假设这里我有一个示例 csv 文件的片段 Country Year GDP Population Country1 2002 44545 24352 Country2 2004 14325 75677 Co
Hive：如何分解嵌入 CSV 文件中的 JSON 列？

从 CSV 文件带有标题和管道分隔符中我得到了以下两个内容其中包含一个 JSON 列内部有一个集合如下所示第一种情况使用没有名称的 JSON 集合 ProductId IngestTime ProductOrders 918
如何在 python 中没有 csv.reader 迭代器的情况下解析单行 csv 字符串？

我有一个 CSV 文件需要重新排列和重新编码我想跑 line line decode windows 1250 encode utf 8 在由 CSV 读取器解析和分割之前的每一行或者我想自己迭代行运行重新编码并仅使用单行解析表单
spring-data-neo4j 基本一对多关系不持久

EDIT 示例项目可在github https github com troig neo4jCustomRepository 我在后端项目中使用 Neo4J Rest 图形数据库托管在 grapheneDb 中和 Spring Data
写入抓取数据的 csv 文件时如何拆分项目名称

我有兴趣使用 R 从网上抓取的数据创建 csv 或类似的 Excel 兼容文件到目前为止我通过执行以下操作来存储数据 require textreadr spiegel lt read html http www spiegel de
如何使用 aerospike 加载器在 aerospike 中加载嵌套的 csv 文件？

我已将 JSON 文件转换为 CSV 格式现在使用 aerospike 加载器将 CSV 加载到 Aerospike 中我可以为简单的结构执行此操作但如何修改 allDatatype json 的内容以在 Aerospike 中加载嵌
Cypher Linked List：如何按索引取消移位和替换

我正在尝试按照此处的推荐使用 Neo Cypher 创建链表结构创建时CYPHER存储相同标签的节点关系顺序 https stackoverflow com questions 33263822 cypher store order of
Nodejs 中的 tail-stream 模块不打印文件的最后一条记录

我正在使用 tail stream 从 csv 文件获取数据并将每个 csv 记录转换为 json 格式并打印它但是尾流不会打印文件的最后一行而是将其保留为缓冲区如果我更新文件则从上一个最后一行缓冲的最后一行到更新的最后一行
将字典写入 csv 时遇到问题，其中键作为标题，值作为列

我有一本字典看起来像 mydict foo 1 2 bar 3 4 asdf 5 6 我正在尝试将其写入 CSV 文件使其看起来像 foo bar asdf 1 3 5 2 4 6 我花了最后一个小时寻找解决方案我发现的最接近的解决方
在 CSV 文件的最上面一行写入

我有这个sample csv 文件 a 1 apple b 2 banana c 3 cranberry d 4 durian e 5 eggplant 并有以下代码 samplefile open sample csv rb rows s
从日志文件 python 创建 csv 标题

我的日志文件每行都包含一些信息如下所示 Info1 NewOrder key 123 Info3 10 Info5 abc Info3 10 Info1 OldOrder key 456 Info6 xyz Info1 NewOrder
减少每日状态表以仅包含状态更改

我有一个包含 10 万以上用户的大型每日状态表 5 7 亿行目前它位于 MySQL 或 CSV 中该表包含三列 user id status 和 date 理想情况下我希望将表缩减为一个新表其中包含每个状态期间的 user id s
带有未转义引号的Java CSV解析器[关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
使用 py2neo 从 csv 文件创建 neo4j 图形数据库

我目前正在攻读博士课程并且对 Py2neo 很感兴趣因此我使用它来使用社交图谱进行一些实验然而我遇到了新手麻烦抱歉问这些简单的问题我得到了一个 xml 数据集其中包含有关期刊出版物的数据我已将其转换为 csv 表大约有 70
Err_Response_Headers_Multiple_Content_Disposition

我需要导出 2csv单击一个按钮即可打开文件下面是我生成2的代码csv files using System Data using System Data SqlClient using System Text using System
从 mvc web api httpresponse 生成 csv 并通过 angularjs 接收以供下载

我正在尝试从我的 Web api 生成一个 CSV 文件并通过 angularjs 接收该文件我有一个如下所示的 API 控制器 HttpPost public HttpResponseMessage GenerateCSV FieldP
C＃生成的csv文件通过电子邮件发送嵌入到Lotus Note中电子邮件的底部

我遇到了一个奇怪的问题即使用 NET SmtpClient 通过电子邮件发送的 CSV 附件出现在电子邮件底部而不是 Lotus Note 中的附件我只是不知道如何解决这个问题而且我无法访问客户端计算机这使得调试非常困难我可以采
使用 IFS bash 进行 CSV 解析：选择“;”作为分隔符

我有一个包含 130 列的 CSV 我需要用它来做 3 个 csv 我用 while 和 IFS 循环因为我需要对每一行的变量进行一些处理这是我所做的 while IFS read my 130 vars what i do with
Tweepy StreamListener 到 CSV

我是 python 新手我正在尝试开发一个应用程序使用 Tweepy 和 Streaming API 从 Twitter 检索数据并将数据转换为 CSV 文件问题是此代码不会创建输出 CSV 文件也许是因为我应该将代码设置为在实现例
NumPy genfromtxt：正确使用filling_missing

我正在尝试处理保存到 CSV 的数据这些数据可能在未知数量的列最多大约 30 列中缺少值我正在尝试使用将这些缺失值设置为 0 genfromtxt s filling missing争论这是在 Win 7 上的 ActiveSta

随机推荐

c# - 系统的是/否值

有没有办法获得 Net 框架中系统语言的是否值当我只需要是和否时我不想为每种语言制作语言文件你确实可以使用windows资源我曾经做过一个例子不幸的是在Delphi中但你当然也可以在Dotnet中做到这一点它真的
如何在WinForms中将字典绑定到ListBox

是否可以将字典绑定到列表框保持列表框和成员属性之间的同步 var choices new Dictionary
gcloud 部署应用程序找不到导入包 - golang

我已经将应用程序的一个版本部署到 GAE 但现在部署新版本时遇到问题当我尝试时gcloud app deploy version VERSION 我收到一堆错误显示远程构建找不到我的导入包 Beginning deployment of
Android Studio 无法正确构建 flutter 应用程序

我正在开发一个应用程序当我打开它时build gradle文件出现了几个错误 def localProperties new Properties def localPropertiesFile rootProject file loc
C# Asp.net Membership.GetAllUsers 通过电子邮件订购

我正在使用 Membership GetAllUsers 来获取我的用户列表我希望返回的列表按电子邮件地址排序因为我需要标记一些具有重复电子邮件的帐户 Membership GetAllUsers 似乎默认按用户名排序有办法改变这种行
引用附加变量？

我怎样才能在 bash 脚本中做到这一点 bin sh func export NAME SUFFIX result of some command NAME my name func This variable will become m
Java 无法从 AIX 解析 DNS 地址：UnknownHostException

我遇到了这个奇怪的错误在 AIX 上如果我可以从命令行访问我的服务器使用 ping telnet 但是如果我尝试使用 java 我会遇到 UnknownHostException 这是因为 Java 无法以某种方式使用 DNS 但我
第一次调用后 LiveData 未观察到

我实现了 LiveData 和 ViewModel 来模仿 AsyncTaskLoader 我从 DCIM 中的相机目录加载文件名然后附加一个 fileObserver 来观察删除文件图片时的情况然后回调告诉 LiveData 在发
如何在 C# 中创建真正不可变的双向链表？

这更多的是一个理论问题在 C 中是否可以通过任何方式创建一个真正不可变的双向链表我认为一个问题在于两个相邻节点的相互依赖我所说的真正是指使用只读字段这可以通过棘手的构造函数逻辑来完成例如 public sealed class
从 Javascript 读取当前文档的大小

我开始玩回旋镖 https github com yahoo boomerang用于测量性能这是非常有前途的虽然它允许我测量延迟带宽和页面加载时间但我也有兴趣尝试获取在服务器端渲染初始 HTML 页面所需的时间虽然记录浏览器开始解
div表格中的单元格间距

我希望每个单元之间有 4 个左右的像素空间我希望灰色标题有空格而不是一块灰色我尝试尝试 background clip padding box padding 14px margin等但无法弄清楚如何在div表中的单元格之间放置一些像
mysql中更新查询中的多个set和where子句

我认为这是不可能的因为我找不到任何东西但我想我会在这里检查一下以防我没有寻找正确的东西我的数据库中有一个设置表其中有两列第一列是设置名称第二列是值我需要同时更新所有这些我想看看是否有一种方法可以在一个查询的同时更新这些值
将项目子文件夹中的文件放入输出目录

我想在 C 项目中创建一个文件夹来包含一些配置文件但是我不希望将这些文件复制到bin Release MyFolder 我宁愿将它们复制到bin Release直接地我认为这可以通过拥有一个虚拟文件夹例如解决方案文件夹来实现
当我删除 @synthesize 语句时出现编译器错误“使用未声明的标识符”

在最新的 LLVM 版本中综合属性的要求已被删除因此我能够删除我所有的 synthesize声明除了以下声明NSFetchedResultsController 有谁知道为什么当我删除时编译器会警告我 synthesize fetch
Rails：如何将替代 Accept: content-types 视为 JSON？

到目前为止我已经找到了两种方法request format json 在 Rails 中为 true 即传入请求被视为 JSON 一种是如果您请求资源并以 json另一个是如果您提供标头Accept application json在你的要
在java中使用自定义比较器在数组中搜索

为什么总是返回49999无论strToSearch变量保持即使使用 clank 搜索变量它也会返回相同的结果我是不是错过了什么 String arr new String 100000 String strToSearch 12 fo
可以在delphi数据集中创建一个假数据字段吗？

我想在 DataSet 不是 ClientDataSet 中创建一个假数据字段该字段不应存储在数据库中它不是计算字段应允许用户输入输入数据该字段具有业务逻辑含义因此用户更新其值后应该更新其他字段使用 OnFieldChang
无法在 GAE 应用程序中使用 google-cloud

我的 Google App Engine 应用程序中的以下行 webapp py 无法导入谷歌云 https googlecloudplatform github io google cloud python 图书馆 from google
如何使用 web.xml 阻止 IP 地址？

如何通过 web xml 上的某些配置来阻止 IP 地址我需要过滤器吗我该如何实施你不能纯粹通过配置来做到这一点web xml 不不过 Servlet 过滤器是实现此类功能的好地方 The Filter接口提供HttpServlet
在巨大的数据集上创建独特的节点和关系 NEO4J

我的问题与这个非常相似如何通过neo4j中导入的csv文件创建独特的节点和关系 https stackoverflow com questions 25090255 how to create unique nodes and relat

在巨大的数据集上创建独特的节点和关系 NEO4J

在巨大的数据集上创建独特的节点和关系 NEO4J 的相关文章

随机推荐

热门标签