我正在尝试对我在研究项目中收集的文档进行聚类。我正在尝试使用 Carrot2 工作台,但无法找到如何将胡萝卜指向包含文档的文件夹。请问我该怎么做? (我有少量文档(.txt)需要比较,它们位于独立的研究机器上,因此我无法连接到网络并在那里处理它们)。
任何帮助感激不尽!
(我试图找出文档中的相似点/主题/组;如果 Carrot2 不是正确的工具,那么将不胜感激其他建议!)
非常感谢,
John
目前 Carrot2 Workbench 不支持直接从本地文件夹对文件进行聚类。这里有几个解决方案:
将所有文本文件转换为Carrot2 XML 格式 http://doc.carrot2.org/#section.architecture.input-xml并在 Carrot2 Workbench 中对 XML 文件进行聚类。
在 Apache Solr 中索引您的文件并从 Carrot2 Workbench 查询您的 Solr 索引。
-
将您的文件转换为 Lucene 索引并从 Carrot2 Workbench 查询该索引。我为该任务编写了一个简单的实用程序,名为文件夹2索引 http://download.carrotsearch.com/folder2index/0.0.2/folder2index-0.0.2.zip (源代码 https://github.com/carrot2/folder2index).
假设您使用的是 Windows,索引过程如下:
乌压缩folder2index
工具某处,假设您将其解压缩到c:\carrot2\folder2index-0.0.1
.
-
从某个目录索引文本文件(假设c:\txt-input
)并在中创建索引c:\txt-input-index
, 做这个:
A。打开命令行控制台(开始菜单 -> 运行程序 -> 键入cmd
并按 Enter 键)。
b.在控制台中,输入:
cd c:\carrot2\folder2index-0.0.2
java -jar folder2index-0.0.2.jar --index c:\txt-input-index --folders c:\txt-input --use-tika
过了一会儿,您应该会看到类似以下内容:
...
Index created: c:\txt-input-index
一旦你对文件建立了索引,你就可以在 Carrot2 Workbench 中对它们进行集群,使用Lucene文档来源 http://doc.carrot2.org/#section.getting-started.lucene。使用content
文件名来引用文本文件的内容;文件的名称存储在fileName
field.
一些注意事项:
目前仅对 PDF、HTML 和 TXT 文件进行索引,其他文件将被忽略。
如果索引已存在,则将文件添加到索引中。这意味着如果您使用相同的参数运行该命令两次,索引将包含重复的文档。要重新索引刚刚添加了一些文件的文件夹,最好先删除索引目录。
-
您可以使用 Carrot2 Workbench 中的查询字段从索引中选择特定文件,例如:
*:*
-- 检索所有内容(最多达到请求的结果数)
mining
-- 检索其中包含单词“mining”的所有文档(同样,最多达到请求的结果数)
"data mining"
-- 检索包含确切短语“数据挖掘”的文档
fileName:92*
-- 检索名称以“92”开头的文件的内容
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)