文档与多个关键字的相关性

2024-01-06

Suppose D是一个文本文档，并且

K = < k1, ..., kN >

表示文档中包含的一组术语。例如：

D = "What a wonderful day, isn't it?"
K = <"wonderful","day">

我的目标是看看文件是否D谈论中的所有单词K作为一个整体。例如：

D = "The Ebola in Africa is spreading at high speed"
K = <"Ebola","Africa">

是一种情况D密切相关K, while:

D = "NEWS 1: Ebola is a dangerous disease that is causing thousands of deaths. Many governments are taking precautions to prevent its spread. NEWS 2: population in Africa is increasing."
K = <"Ebola","Africa">

是一种情况D不相关K，因为“埃博拉”和“非洲”在文件的不同点中以单独的句子提及，并且不相关。

我怎样才能综合这个“相关性”的概念D to K？是否有一些最先进的技术可以利用？

Thanks.

A 向量空间模型 http://en.wikipedia.org/wiki/Vector_space_model可能就是您正在寻找的。

您可以将 D 转换为与 K 相同的格式，即单词列表，例如。这是通过称为标记器的东西来完成的。

之后，您可以删除没有意义的无用单词，例如“and”，“the”，“it”等。要删除的单词称为停用词 http://www.ranks.nl/stopwords，存储在停止列表中。

您还应该将所有单词转换为小写（甚至大写），以便“What”和“what”不会被归类为不同的单词。

此后，文档可以表示为单词及其频率的列表（看一下倒排索引 http://en.wikipedia.org/wiki/Inverted_index).

计算余弦相似度 http://en.wikipedia.org/wiki/Vector_space_model文档 (D) 和查询 (K) 之间。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Document

informationretrieval

keywordsearch

文档与多个关键字的相关性的相关文章

如何将 jsoup 文档另存为文本文件

我试图将网页上的所有可读单词保存到一个文本文档中同时忽略 html 标记使用 JSoup 解析网页上的所有单词我对如何从代码中分离真实单词的唯一猜测是通过元素是否可以将 jsoup 文档的多个元素转换为文本文件 i e Elemen
根据余弦相似度值进行聚类

我从一组 URL 中提取了单词并计算了每个 URL 内容之间的余弦相似度而且我还标准化了 0 1 之间的值使用最小最大现在我需要根据余弦相似度值对 URL 进行聚类以查找找出类似的 URL 哪种聚类算法最合适请建议我一种动态聚类
如何在共享点中以编程方式检出文档库中的文档

如何使用 sharepoint 中的 webservices 或 objetmodel 以编程方式将文档设置为签入签出模式你需要SPListItem File CheckOut http msdn microsoft com en us
创建巨大倒排索引的方法

I want to create a big inverted index of around 106 terms What method would you suggest I m thinking in fast binary key
Python中N-Gram、tf-idf和Cosine相似度的简单实现

我需要比较存储在数据库中的文档并得出 0 到 1 之间的相似度分数我需要使用的方法必须非常简单实现普通版本的 n gram 可以定义使用多少克以及 tf idf 和余弦相似度的简单实现有什么程序可以做到这一点吗或者我应该从头开始写
匹配两个列表之间的相似元素

我是 python 新手所以如果这是一个愚蠢的问题我深表歉意我有两个清单 L1 marvel audi mercedez honda and L2 marvel comics bmw mercedez benz audi 我想提取其中
文本文件的信息增益计算？

我正在尝试使用信息增益 PCA 和遗传算法进行文本分类但表演完之后预处理词干提取停用词删除 TFIDF 在文档中我很困惑如何继续进行信息获取部分 my out file包含word在那里TFIDF value like 字 TFID
如何替换窗口中的文档？

var newDoc document implementation createHTMLDocument someTitle swap newDoc with document DOMImplementation createHTMLDo
维基百科文本下载

我正在寻找为我的大学项目下载完整的维基百科文本我是否必须编写自己的蜘蛛才能下载此内容或者是否有在线维基百科的公共数据集为了给你一些我的项目的概述我想找出我感兴趣的几篇文章中有趣的单词但是为了找到这些有趣的单词我计划应用 tf i
如何在基于文档的 macOS 应用程序中处理不同的文档类型？

如何在一个 macOS 文档应用程序中处理两种不同的自定义文档类型从 macOS Document App 模板开始我定义了两种类型它们也注册在 info plist 中 extension UTType static var tes
SPFileVersionCollection - 为什么版本按混合顺序排序？

SPFileVersionCollection 和 SPListItemVersionCollection 版本控制对我来说似乎不一致不一致对我来说不是问题但排序顺序是问题 SPListItemVersionCollection 我可以
限制 JTextField 中输入的长度不起作用

我试图限制用户可以在文本字段中输入的字符的最大长度但它似乎不起作用这是代码 text2 new JTextField Enter text here 8 我做错了什么吗如何才能使限制正常工作您当前的代码没有设置最大长度而是定义可见
TFIDF 计算混淆

我在网上找到了以下计算TFIDF的代码 https github com timtrueman tf idf blob master tf idf py 我在函数 def idf word documentList 中添加了 1 这样我就不
带有子元素的 Solr 文档？

是否可以以某种方式创建包含子元素的 solr 文档例如我将如何表示这样的事情
Lucene 的 StopFilter 中使用的默认停用词列表是什么？

Lucene 有一个默认的 stopfilter http lucene apache org core 4 0 0 analyzers common org apache lucene analysis core StopFilter h
从 C# Windows 窗体在 MS Word 中打开 MS Word 文档

我希望能够通过单击表单上的按钮从 C 表单中打开 MS Word 中已制作的 Word 文档但不知道如何操作请帮忙 Thanks 上次我使用 Excel 时我使用以下代码打开它 Process Start FileLocation
从 Java 中提取 Lotus Notes Document 的完整 ACL

我正在尝试找到一种方法来保存特定 Lotus Notes 文档的完整用户列表访问权限我知道我可以从catalog nsf 获取数据库级ACL 但不能获取文档级访问权限此外我相信文档的作者字段不会列出只读访问用户有谁知道如何获取特
了解召回率和精确率

我目前正在学习信息检索并且我对召回率和精确率的例子很困惑搜索者使用搜索引擎来查找信息结果第一个屏幕上有 10 个文档第二个屏幕上有 10 个文档假设已知搜索引擎索引中有 10 个相关文档 Soo 总共有 20 个搜索其中 10
MongoDB：如何使用单个命令更新多个文档？

我惊讶地发现以下示例代码仅更新单个文档 gt db test save id 1 foo bar gt db test save id 2 foo bar gt db test update foo bar set test success
如何删除带有空“”文档 ID 的 couchdb 文档？

我在数据库中看到的文档是这样的 id rev 1 2f11e026763c10730d8b19ba5dce7565 禁止必须提供最新的 rev以更新现有包我在文档中看到的所有内容都显示引用带有 ID 的文档但这当然不可能发生我不太确

随机推荐

限制域类中的字符串长度

我有一个持久性无知的域模型它使用抽象存储库来加载域对象我的存储库数据访问层 DAL 的具体实现使用实体框架从 SQL Server 数据库获取数据数据库的许多 varchar 列都有长度限制现在假设我有以下域类 public cl
为什么程序有时会“跳过”printfs？

我有以下代码 if strcmp ent child gt d name eeprom printf tread from driver found a match DEBUG get child path child path child
当值包含美元符号时，如何按属性值选择元素？

我有以下 HTML 元素
Python - 仅对列表中的某些元素进行洗牌

我试图仅将列表中的元素从第三个位置打乱到最后一个位置以便前两个元素始终保持在原位例如 list a b c d e into list a b d e c 由于某种原因这不起作用 list a b c d e import rando
如何创建二维码应用程序？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案您能解释一下 QR 码实际上是如何创建的以及如何跟踪它们吗生成的代码存储在数据库中我实际上对二维码阅读器应用程序的工作原理感到困惑
滚动子 div 会滚动窗口，我该如何阻止它？

我有一个带有滚动条的 div 当它到达末尾时我的页面开始滚动我有办法阻止这种行为吗您可以通过执行以下操作来禁用整个页面的滚动 div div
Python Turtle：旋转自定义光标图像

我们班上正在尝试坦克游戏我可以加载坦克图像但图像不会旋转我进行了搜索但找不到解决方案或者简单的解决方案如果存在的话这是我到目前为止所拥有的非常基本我希望有一个简单的解决方案来旋转图像以左右转 import turtle
create-react-app 无法在 Windows 10 中创建新的 React 应用程序

I have Create react app version 1 4 3安装当我尝试创建新的 App 时我在命令提示符中收到以下消息请帮助我找到并解决问题 C Users GSI KOL Desktop server gt crea
在 WinForms RichTextBox 中重置 RTF 格式而不丢弃其文本？

我正在尝试重置 RichTextBox WinForms 而不是 WPF 中的格式我以前使用过 richTextBox Text richTextBox Text 然而这似乎突然让我失望了现在无论我设置什么richTextBox T
Objective-C/cocoa相当于Python的os.path.split()获取目录名和文件名

当我有路径时我可以在Python中使用os path split 来获取目录名和文件名 gt gt gt x a b c hello txt gt gt gt import os path gt gt gt os path split x
如何通过ID获取json数组中的数据

我有一个问题你可以帮助我吗我有一个 json 数组 category id 1 product id product 1 type ball id 2 product id product 2 type pen 我的问题是如果我有一个
事件驱动的 CMS - 优点和缺点

我正在尝试确定事件驱动的 CMS 的一些优点和缺点事件驱动并不罕见您可以在许多涉及客户端的脚本语言中看到它例如 Actionscript javascript jquery 在事件及其响应发生在服务器上的 CMS 中怎么样这种方法有
Visual Studio 使用什么来确定构建是否是最新的？

我编写了一个 VS 插件它拦截 Visual Studio 的构建命令并使用另一个构建系统来进行构建我的构建以正确的格式显示错误以便您可以在 VS 中单击它们但要实现完全无缝集成剩下的一步是防止 VS 的运行或调试命令抱怨
如何绘制 lmer 模型结果的预测值和标准误差？

我对四个位置和四个基质取自每个位置进行了移植实验我已经确定了每个种群在每个位置和基质组合中的存活率该实验重复三次我创建了一个lmm 如下所示 Survival model lt lmer Survival Location Sub
“new Image()”和“new Option()”等构造函数的记录在哪里？

不是在 Mozilla 而是 for image 谢谢Rickard https stackoverflow com users 600633 rickard用于识别 http www w3 org html wg drafts html
iOS 8 iPhone 模拟器应用程序大小不正确

我决定从头开始重写我的一个应用程序以清理代码并可能针对 iOS 8 进行优化但是当我在 iPhone 模拟器中运行新版本时分辨率似乎不正确应用程序的顶部和底部边缘周围有信箱但旧版本即使在同一个 Xcode 6 模拟器上运行也没有即
如何更改 android 小部件选择对话框中显示的图像？

如何更改渲染 Specify the android previewImage属性 http developer android com guide topics appwidgets index html preview在您的应用程序小部
pair 对作为 unordered_map 问题的键

My code typedef pair
如何在iOS中计算地理边界框？

我想在 iOS 中进行地理边界框计算它可以是大约输入参数当前位置示例 41 145495 73 994901 半径米示例 2000 所需输出敏龙示例 41 9995495 最小纬度示例 74 004901 MaxLong
文档与多个关键字的相关性

Suppose D是一个文本文档并且 K lt k1 kN gt 表示文档中包含的一组术语例如 D What a wonderful day isn t it K lt wonderful day gt 我的目标是看看文件是否D谈论中的

文档与多个关键字的相关性

文档与多个关键字的相关性 的相关文章

随机推荐

热门标签

文档与多个关键字的相关性的相关文章