文档与多个关键字的相关性

2024-01-06

Suppose D是一个文本文档,并且

K = < k1, ..., kN >

表示文档中包含的一组术语。例如:

D = "What a wonderful day, isn't it?"
K = <"wonderful","day">

我的目标是看看文件是否D谈论中的所有单词K作为一个整体。例如:

D = "The Ebola in Africa is spreading at high speed"
K = <"Ebola","Africa">

是一种情况D密切相关K, while:

D = "NEWS 1: Ebola is a dangerous disease that is causing thousands of deaths. Many governments are taking precautions to prevent its spread. NEWS 2: population in Africa is increasing."
K = <"Ebola","Africa">

是一种情况D不相关K,因为“埃博拉”和“非洲”在文件的不同点中以单独的句子提及,并且不相关。

我怎样才能综合这个“相关性”的概念D to K?是否有一些最先进的技术可以利用?

Thanks.


A 向量空间模型 http://en.wikipedia.org/wiki/Vector_space_model可能就是您正在寻找的。

您可以将 D 转换为与 K 相同的格式,即单词列表,例如。这是通过称为标记器的东西来完成的。

之后,您可以删除没有意义的无用单词,例如“and”,“the”,“it”等。要删除的单词称为停用词 http://www.ranks.nl/stopwords,存储在停止列表中。

您还应该将所有单词转换为小写(甚至大写),以便“What”和“what”不会被归类为不同的单词。

此后,文档可以表示为单词及其频率的列表(看一下倒排索引 http://en.wikipedia.org/wiki/Inverted_index).

计算余弦相似度 http://en.wikipedia.org/wiki/Vector_space_model文档 (D) 和查询 (K) 之间。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

文档与多个关键字的相关性 的相关文章

  • 如何将 jsoup 文档另存为文本文件

    我试图将网页上的所有可读单词保存到一个文本文档中 同时忽略 html 标记 使用 JSoup 解析网页上的所有单词 我对如何从代码中分离真实单词的唯一猜测是通过元素 是否可以将 jsoup 文档的多个元素转换为文本文件 i e Elemen
  • 根据余弦相似度值进行聚类

    我从一组 URL 中提取了单词 并计算了每个 URL 内容之间的余弦相似度 而且我还标准化了 0 1 之间的值 使用最小 最大 现在我需要根据余弦相似度值对 URL 进行聚类以查找找出类似的 URL 哪种聚类算法最合适 请建议我一种动态聚类
  • 如何在共享点中以编程方式检出文档库中的文档

    如何使用 sharepoint 中的 webservices 或 objetmodel 以编程方式将文档设置为签入 签出模式 你需要SPListItem File CheckOut http msdn microsoft com en us
  • 创建巨大倒排索引的方法

    I want to create a big inverted index of around 106 terms What method would you suggest I m thinking in fast binary key
  • Python中N-Gram、tf-idf和Cosine相似度的简单实现

    我需要比较存储在数据库中的文档并得出 0 到 1 之间的相似度分数 我需要使用的方法必须非常简单 实现普通版本的 n gram 可以定义使用多少克 以及 tf idf 和余弦相似度的简单实现 有什么程序可以做到这一点吗 或者我应该从头开始写
  • 匹配两个列表之间的相似元素

    我是 python 新手 所以如果这是一个愚蠢的问题 我深表歉意 我有两个清单 L1 marvel audi mercedez honda and L2 marvel comics bmw mercedez benz audi 我想提取其中
  • 文本文件的信息增益计算?

    我正在尝试 使用信息增益 PCA 和遗传算法进行文本分类 但表演完之后预处理 词干提取 停用词删除 TFIDF 在文档中我很困惑如何继续进行信息获取部分 my out file包含word在那里TFIDF value like 字 TFID
  • 如何替换窗口中的文档?

    var newDoc document implementation createHTMLDocument someTitle swap newDoc with document DOMImplementation createHTMLDo
  • 维基百科文本下载

    我正在寻找为我的大学项目下载完整的维基百科文本 我是否必须编写自己的蜘蛛才能下载此内容 或者是否有在线维基百科的公共数据集 为了给你一些我的项目的概述 我想找出我感兴趣的几篇文章中有趣的单词 但是为了找到这些有趣的单词 我计划应用 tf i
  • 如何在基于文档的 macOS 应用程序中处理不同的文档类型?

    如何在一个 macOS 文档应用程序中处理两种不同的自定义文档类型 从 macOS Document App 模板开始 我定义了两种类型 它们也注册在 info plist 中 extension UTType static var tes
  • SPFileVersionCollection - 为什么版本按混合顺序排序?

    SPFileVersionCollection 和 SPListItemVersionCollection 版本控制对我来说似乎不一致 不一致对我来说不是问题 但排序顺序是问题 SPListItemVersionCollection 我可以
  • 限制 JTextField 中输入的长度不起作用

    我试图限制用户可以在文本字段中输入的字符的最大长度 但它似乎不起作用 这是代码 text2 new JTextField Enter text here 8 我做错了什么吗 如何才能使限制正常工作 您当前的代码没有设置最大长度 而是定义可见
  • TFIDF 计算混淆

    我在网上找到了以下计算TFIDF的代码 https github com timtrueman tf idf blob master tf idf py 我在函数 def idf word documentList 中添加了 1 这样我就不
  • 带有子元素的 Solr 文档?

    是否可以以某种方式创建包含子元素的 solr 文档 例如 我将如何表示这样的事情
  • Lucene 的 StopFilter 中使用的默认停用词列表是什么?

    Lucene 有一个默认的 stopfilter http lucene apache org core 4 0 0 analyzers common org apache lucene analysis core StopFilter h
  • 从 C# Windows 窗体在 MS Word 中打开 MS Word 文档

    我希望能够通过单击表单上的按钮 从 C 表单中打开 MS Word 中已制作的 Word 文档 但不知道如何操作 请帮忙 Thanks 上次我使用 Excel 时 我使用以下代码打开它 Process Start FileLocation
  • 从 Java 中提取 Lotus Notes Document 的完整 ACL

    我正在尝试找到一种方法来保存特定 Lotus Notes 文档的完整用户列表访问权限 我知道我可以从catalog nsf 获取数据库级ACL 但不能获取文档级访问权限 此外 我相信文档的 作者 字段不会列出只读访问用户 有谁知道如何获取特
  • 了解召回率和精确率

    我目前正在学习信息检索 并且我对召回率和精确率的例子很困惑 搜索者使用搜索引擎来查找信息 结果第一个屏幕上有 10 个文档 第二个屏幕上有 10 个文档 假设已知搜索引擎索引中有 10 个相关文档 Soo 总共有 20 个搜索 其中 10
  • MongoDB:如何使用单个命令更新多个文档?

    我惊讶地发现以下示例代码仅更新单个文档 gt db test save id 1 foo bar gt db test save id 2 foo bar gt db test update foo bar set test success
  • 如何删除带有空“”文档 ID 的 couchdb 文档?

    我在数据库中看到的文档是这样的 id rev 1 2f11e026763c10730d8b19ba5dce7565 禁止 必须提供最新的 rev以更新现有包 我在文档中看到的所有内容都显示引用带有 ID 的文档 但这当然不可能发生 我不太确

随机推荐