胡萝卜2 - 我可以从文件夹中聚集文档吗？

2024-04-08

我正在尝试对我在研究项目中收集的文档进行聚类。我正在尝试使用 Carrot2 工作台，但无法找到如何将胡萝卜指向包含文档的文件夹。请问我该怎么做？（我有少量文档（.txt）需要比较，它们位于独立的研究机器上，因此我无法连接到网络并在那里处理它们）。

任何帮助感激不尽！

（我试图找出文档中的相似点/主题/组；如果 Carrot2 不是正确的工具，那么将不胜感激其他建议！）

非常感谢，

John

目前 Carrot2 Workbench 不支持直接从本地文件夹对文件进行聚类。这里有几个解决方案：

将所有文本文件转换为Carrot2 XML 格式 http://doc.carrot2.org/#section.architecture.input-xml并在 Carrot2 Workbench 中对 XML 文件进行聚类。
在 Apache Solr 中索引您的文件并从 Carrot2 Workbench 查询您的 Solr 索引。
将您的文件转换为 Lucene 索引并从 Carrot2 Workbench 查询该索引。我为该任务编写了一个简单的实用程序，名为文件夹2索引 http://download.carrotsearch.com/folder2index/0.0.2/folder2index-0.0.2.zip (源代码 https://github.com/carrot2/folder2index).

假设您使用的是 Windows，索引过程如下：
1. 乌压缩folder2index工具某处，假设您将其解压缩到c:\carrot2\folder2index-0.0.1.
2. 从某个目录索引文本文件（假设c:\txt-input）并在中创建索引c:\txt-input-index，做这个：
  
  A。打开命令行控制台（开始菜单 -> 运行程序 -> 键入cmd并按 Enter 键）。
  
  b.在控制台中，输入：
```
cd c:\carrot2\folder2index-0.0.2
java -jar folder2index-0.0.2.jar --index c:\txt-input-index --folders c:\txt-input --use-tika
```
  过了一会儿，您应该会看到类似以下内容：
```
...
Index created: c:\txt-input-index
```
3. 一旦你对文件建立了索引，你就可以在 Carrot2 Workbench 中对它们进行集群，使用Lucene文档来源 http://doc.carrot2.org/#section.getting-started.lucene。使用content文件名来引用文本文件的内容；文件的名称存储在fileName field.
一些注意事项：
- 目前仅对 PDF、HTML 和 TXT 文件进行索引，其他文件将被忽略。
- 如果索引已存在，则将文件添加到索引中。这意味着如果您使用相同的参数运行该命令两次，索引将包含重复的文档。要重新索引刚刚添加了一些文件的文件夹，最好先删除索引目录。
- 您可以使用 Carrot2 Workbench 中的查询字段从索引中选择特定文件，例如：
  
  *:*-- 检索所有内容（最多达到请求的结果数）
  
  mining-- 检索其中包含单词“mining”的所有文档（同样，最多达到请求的结果数）
  
  "data mining"-- 检索包含确切短语“数据挖掘”的文档
  
  fileName:92*-- 检索名称以“92”开头的文件的内容

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

carrot2

胡萝卜2 - 我可以从文件夹中聚集文档吗？的相关文章

jQuery - 正则表达式选择和removeClass()？

我收到了几个自动生成的 HTML 文档长达数千行我需要清理源代码大多数情况下需要删除 table col 之类的类名这是一个两步问题选择具有 table col 的任何及所有类其中是 0 999 之间的整数从元素中删除匹配的
如何执行 GitHub 上的 hello_world 示例：linuxkit/linuxkit？

情况与问题我正在尝试跟随本指南 https medium com notsinge making your own linuxkit with docker for mac 5c1234170fb1关于如何使用 docker for m
C++ boost::graph 从有向图中获取父顶点

我有一个有向图通过 boost graph 库中的 adjacency graph 实现我试图找到某个顶点的父顶点过去通过 pygraph 我只是简单地反转了有向图然后进行了邻居搜索但似乎使用 boost reverse gra
Pandas 忽略 NaN 删除重复项

在 Pandas df 中我尝试删除多个列中的重复项每行有很多数据NaN 这只是一个例子数据是一个混合包因此存在许多不同的组合 df drop duplicates IDnum name formNumber 1 NaN AP GR
使用 URL 启动应用程序

我读过有关 android 中的意图的内容但这是我的问题我想通过点击网络浏览器中的链接来启动我的 Android 手机上的应用程序例子如果链接是 mycam http camcorder com http camcorder com
如何在JQuery中选择除单击元素之外的所有类？

我有一个在 Drupal 上开发的网站我使用一个名为 collapsiblock 的模块它基本上是一个 JQuery 插件来实现类似手风琴的效果它对我来说工作得很好尽管它还处于测试阶段但我想修改它以便当用户单击手风琴的一项时
点击列表视图项目上的手势

我试图在点击列表视图中的项目后打开另一个视图我尝试过添加一个TapGestureRegonizer甚至添加ViewCell与网格等这些似乎都不起作用我在标签中添加了点击手势这似乎有效但对于列表视图项目却不起作用对于列表视图之类的
Rails：按两列之和排序

所以我有一个Photo模型可以在以下网址下载full size and presentation size 当用户下载照片时我会在照片的full downloads and presentation downloads属性这一切都很好
Android：如何从资源文件创建文件对象？

我的资产文件夹中有一个文本文件我需要将其转换为文件对象而不是输入流当我尝试这个时我得到没有这样的文件异常 String path file android asset datafile txt URL url new URL p
Application Insights 遥测筛选不起作用

我已经按照指南操作了here https learn microsoft com en us azure application insights app insights api filtering sampling filtering
Signtool 无法使用时间戳对 SHA2 和 SHA1 进行双重签名

我们需要使用signtool exe使用SHA1和SHA2对我们的二进制文件进行双重签名我们的证书支持256位SHA2 使用Windows 8 SDK的signtool e g Signtool exe 签名 as fd sha256 t
如何在 R 中对交集/组索引的结果重新编号？

我在 R 中对交集组索引的重新编号结果苦苦挣扎了几天示例数据框如下所示 t lt data frame mid c 102 102 102 102 102 102 102 103 103 103 103 103 103 103 aid
__init__() 内部和外部变量之间的差异（类和实例属性）

除了名称之外这些类之间还有什么区别吗 class WithClass def init self self value Bob def my func self print self value class WithoutClass va
Delphi 属性真实世界示例在哪里？

我知道通过TMS奥勒留 http www tmssoftware com site aurelius asp例如我们可以使用新 2010 属性功能在运行时将数据库表字段序列化为对象属性而我不是这种深层面向对象模式的专家因此我研究了
只要有待处理的取消屏蔽任务留下但不再存在，我如何运行 asyncio 循环？

我正在尝试向现有的 asyncio 循环添加一些代码以提供 Ctrl C 上的干净关闭下面是它正在做的事情的抽象 import asyncio signal async def task1 print Starting simulate
如何获得没有周末的 DateTime.DaysInMonth ？

如何在 C 中获取一个月中没有星期五和星期六的天数强制 LINQ 解决方案 int days Enumerable Range 1 DateTime DaysInMonth year month Select day gt new Dat
如何不在uinavigationcontroller中调用viewdidload？

我正在寻找针对我的情况的解决方案我的应用程序如下 VC1 上有一个文本字段和按钮用户键入名称然后单击一个按钮该按钮打开VC2 用户在 VC2 中提供附加信息然后按保存我使用 segue 返回 VC1 并将这些附加信息作为字符串
如何将 Istanbul Code Coverage 与转译的 Typescript 结合使用？

我整个早上都在阅读有关此问题的文章试图正确设置我的环境但由于某种原因我不明白我的设置 app source mixed js and ts scripts copied source js typescripts js transpi

随机推荐

为什么我的 Azure Function 功能密钥不断重新生成？

我有六种不同的 Azure 函数每天会被调用数百次不过其中一个与其他任何一个实际上没有什么不同开发了一项新的功能每隔几天它就会更改功能键该功能密钥用于对功能进行身份验证因此每当它发生变化时就会中断我们的流程原始密钥以及
如何使用 C# 从 FTP 服务器获取一系列文件

我陷入了这样一个境地我将通配符参数与 FtpWebRequest 对象一起使用很糟糕 FtpWebRequest reqFTP FtpWebRequest FtpWebRequest Create new Uri ftp ftpServ
方程解析库 C++ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
如何进行 git rebase 并保留提交时间戳？

我想进行变基以从我的历史记录中删除某个提交我知道该怎么做但是如果我这样做提交时间戳将设置为我完成变基的那一刻我希望提交保留时间戳我在这里看到了最后一个答案 https stackoverflow com a 19522951 3
在 vega-lite 中实现自定义点击处理程序的正确方法是什么

我似乎无法通过阅读文档来弄清楚这一点有没有办法实现onClick我的任何标记的事件处理程序由于 Vega Lite 尚不支持信号您可以修补生成的 Vega 您可以将信号添加到已编译的 Vega 规范中然后通过 Vega 视图 API
Logback：如何将日志目录从“tomcat/bin”更改为与应用程序相关的？

我想用slf4j with logback用于记录您可以在下面看到我的 logback xml
Android SmsRetrieverClient 的短信验证不解析消息

尝试按照此处的步骤实现短信自动读取以进行验证 https developers google com identity sms retriever request https developers google com identity s
如何在 Spring Data REST 项目中使用 DTO？

Spring Data REST 自动仅公开域对象但大多数情况下我们必须处理数据传输对象那么如何以SDR方式做到这一点呢一种如何合作的方法DTO https en wikipedia org wiki Data transfer ob
如何在 Visual Studio Code 中获取 Unity 函数名称的智能感知？

我正在关注有关 Unity 的教程我发现讲师在编写方法名称时具有智能感知功能然而我只有类和变量的智能感知我的意思是像 Rigidbody 这样的 Unity 类和我自己的变量我还读过自动补全在 Visual Studio 中不起
Android apk 构建的条件资源包含/排除

我不断回到这个问题因为似乎没有一个干净的解决方案有没有人有一个好的策略来从 Android 子项目中排除资源我有两种情况 1 基础库项目具有 en es 等本地化文件子项目1使用所有本地化一切都很好子项目 2 仅本地化为英语但
Bookdown：如何更改章节标题的大小？

我正在使用 bookdown 为研讨会生成幻灯片我使用菜单中的大字母选项来显示幻灯片但是章节标题字体太大我在哪里如何修改那个 Thanks Paul 你可以用 css 来控制它yihui https stackoverflow
Keycloak Java 管理客户端在触发验证电子邮件时返回 400 错误

我在 Spring Boot 2 2 上使用 keycloak 服务器版本 8 0 1 和 keycloak java admin 客户端版本 8 0 1 使用 webflux 和 netty 而不是 tomcat 如果此类信息有帮助的话
Python - “ascii”编解码器无法解码字节

我正在使用 Python 2 6 和 Jinja2 创建 HTML 报告我为模板提供了许多结果模板循环遍历它们并创建 HTML 表当调用 template render 时我突然开始收到此错误 td result result st
sorl-缩略图不起作用

我已经尝试了几个小时来让 sorl thumbnail 工作但它就是行不通困难的部分是它没有显示错误所以我不知道出了什么问题我按照说明安装了它我的完整代码可以在这里找到 https github com samos123 Samo
在同一个表上触发 INSERT 和 UPDATE

众所周知实体框架无法保存地理数据所以我的想法是在我的模型中将经度和纬度指定为十进制执行用于创建表的 SQL 脚本后我将启动另一个脚本来添加地理列然后我想通过触发器在每次插入或更新经度和纬度时更新此列下面的触发器是好的还是坏
在新机器上部署.net应用程序并得到“系统无法执行指定的程序”

我有一个启动 Excel 的 net 控制台应用程序我让它在我的开发环境中运行但我无法让它在我的生产环境中运行当我尝试运行它时收到以下错误系统无法执行指定的程序我已经在我的生产服务器上安装了 net 2 0 sp2 有任何想法吗
PyQT 列表视图不响应数据更改信号

我一直在关注一些教程并尝试设置列表模型我的主窗口有两个访问同一模型的列表视图当我更新一个列表中的一项时另一个列表不会自行更新直到它获得焦点我单击它所以看起来 dataChanged 信号没有被发出但我无法弄清楚我的代码与我所基
旋转时使用拖动手柄调整 div 大小

我可以找到类似的问题涉及 jQuery UI lib 或者只有 css 没有可拖动的句柄但没有任何纯数学问题我尝试执行的是拥有一个可调整大小和可旋转的 div 到目前为止很容易我可以做到但旋转时会变得更加复杂调整大小以相反的方式
JavaScript 函数是否可以将其自己的函数调用作为字符串返回？

在 JavaScript 中函数是否可以将其自己的函数调用作为字符串返回 function getOwnFunctionCall return the function call as a string based on the para
胡萝卜2 - 我可以从文件夹中聚集文档吗？

我正在尝试对我在研究项目中收集的文档进行聚类我正在尝试使用 Carrot2 工作台但无法找到如何将胡萝卜指向包含文档的文件夹请问我该怎么做我有少量文档 txt 需要比较它们位于独立的研究机器上因此我无法连接到网络并在那里处理它们

胡萝卜2 - 我可以从文件夹中聚集文档吗？

胡萝卜2 - 我可以从文件夹中聚集文档吗？ 的相关文章

随机推荐

热门标签

胡萝卜2 - 我可以从文件夹中聚集文档吗？的相关文章