根据余弦相似度值进行聚类

2023-12-07

我从一组 URL 中提取了单词，并计算了每个 URL 内容之间的余弦相似度。而且我还标准化了 0-1 之间的值（使用最小-最大）。现在我需要根据余弦相似度值对 URL 进行聚类以查找找出类似的 URL。哪种聚类算法最合适？。请建议我一种动态聚类方法，因为它会很有用，因为我可以按需增加 URL 的数量，而且它会更自然。如果您觉得我这样，请纠正我我以错误的方式取得了进展。谢谢您的期待。

K-means聚类可以用于在线学习，你只需要先验选择聚类的数量。另外，我认为你不应该标准化你的数据，因为余弦已经提供了 [0:1] 范围内的值。您的最小-最大标准化可能会导致信息丢失。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

根据余弦相似度值进行聚类的相关文章

如何在单页应用程序中使用 #-URL？

本文 http danwebb net 2011 5 28 it is about the hashbangs提出了一个非常令人信服的论点因为 URL 是长期存在的它们被添加书签并传递所以它们应该是有意义的并且使用哈希进行真正的路由
如何向 URL 添加查询参数？

在 Tritium Moovweb SDK 中向 URL 添加查询参数的最佳实践是什么寻找一些在您不知道 URL 是否包含的情况下有效的方法和其他查询参数已经下面是 Tritium 的一个简短片段应该可以帮助您完成 Moovweb
spacy 如何使用词嵌入进行命名实体识别 (NER)？

我正在尝试使用以下方法训练 NER 模型spaCy识别位置人名和组织我试图理解如何spaCy识别文本中的实体但我无法找到答案从这个问题 https github com explosion spaCy issues 491在 Gi
FastText - 由于 C++ 扩展未能分配内存，无法加载 model.bin

我正在尝试使用 FastText Python APIhttps pypi python org pypi fasttext https pypi python org pypi fasttext虽然据我所知此 API 无法加载较新的
将文本中的 URL 替换为 HTML 链接

不过这是一个设计例如我放置了一个链接例如 http example com http example com in textarea 我如何让 PHP 检测到它是http 链接然后将其打印为 print a href http w
Jekyll + GitHub Pages 网站中的尾部斜杠导致 404

我希望在我的网站上解析以下所有 URL 该网站是使用 Jekyll 构建并托管在 GitHub Pages 上的 https michaeledelstone com about https michaeledelstone com abo
如何将句子或文档转换为向量？

我们有将单词转换为向量的模型例如 word2vec 模型是否存在类似的模型可以使用为单个单词学习的向量将句子文档转换为向量 1 跳克法以及使用它的工具谷歌 word2vec https code google com p wor
Python NLP 英式英语与美式英语

我目前正在用Python 进行NLP 工作然而在我的语料库中既有英式英语也有美式英语实现实现我正在考虑将英式英语转换为美式英语但是我没有找到一个好的工具包来做到这一点有什么建议么我也找不到包但试试这个请注意我必须
是否允许在 URL 中使用非英语 (ASCII) 字符以进行 SEO？

我有很多 UTF 8 内容我想将它们插入到 URL 中以用于 SEO 目的例如我想要包含在 URI 中的帖子标签 site com tags id TAG NAME 但是标准仅允许 ASCII 字符 URI 中允许的字符但没有保留
使用 Huggingface 变压器仅保存最佳权重

目前我正在使用 Huggingface transformers 构建一个新的基于 Transformer 的模型其中注意力层与原始模型不同我用了run glue py检查我的模型在 GLUE 基准测试上的性能但是我发现huggi
URL 重写 OpenCart 产品 SEO

我想重写我的 opencart 网上商店的产品网址 Opencart 本身有一个 seo 实现这真的很糟糕我已经更新了 seo 实现以便能够对多个类别使用相同的关键字请参阅 Opencart 重复 URL 关键字 https sta
使用 NLTK 生成字典以将推文分类为预定义类别

我有一个 Twitter 用户 screen names 列表我需要根据他们的兴趣领域将他们分为 7 个预定义类别教育艺术体育商业政治汽车技术我用 Python 提取了用户的最后 100 条推文并在清理推文后为每个用户创
使用印度名字训练 Spacy NER

我正在尝试自定义 Spacy 的 NER 来识别印度名字遵循本指南https spacy io usage training https spacy io usage training这是我正在使用的数据集https gist githu
在Python中表示语料库句子的一种热门编码

我是 Python 和 Scikit learn 库的初学者我目前需要从事一个 NLP 项目该项目首先需要通过 One Hot Encoding 来表示一个大型语料库我已经阅读了 Scikit learn 关于 preprocessi
在 Android 上解析查询字符串

Java EE 有ServletRequest getParameterValues http java sun com j2ee sdk 1 3 techdocs api javax servlet ServletRequest html
是否可以在带有标记的链接上使用空 href

我将基本标签设置为这样然后我想创建一个链接http mnapoli github com PHP DI http mnapoli github com PHP DI 在相对路径中 I tried a href link a 它在 Chro
带有查询参数的渲染 url

无法找到简单问题的解决方案答案应该是显而易见的如何在 hamlet 模板中使用查询参数渲染 url I e ItemsR 将生成http localhost 3000 items我如何生成类似的东西http localhost 3000
如何在 bertopic 建模中获取每个主题的所有文档

我有一个数据集并尝试使用 berTopic 建模将其转换为主题但问题是我无法获取主题的所有文档 berTopic 每个主题仅返回 3 个文档 topic model BERTopic verbose True embedding mod
Java：如何从转义的 URL 获取文件？

我收到了一个定位本地文件的 URL 事实上我收到的 URL 不在我的控制范围内 URL 按照 RFC2396 中的定义进行有效转义如何将其转换为 Java File 对象有趣的是 URL getFile 方法返回一个字符串而不是文件
URL 中的 %2F 中断并且未引用所需的 .php 文件 [重复]

这个问题在这里已经有答案了我需要将作为变量作为 URL 的一部分传递我的结构如下所示 www domain com listings page 1 city Burnaby South type Townhome bedroom 2

随机推荐

如何在Python中重定向stderr？通过Python C API？

这是我最近提出的两个问题的组合 1 C 中的 Python 实例方法 2 如何在Python中重定向stderr 我想从 python 脚本记录 stdout 和 stderr 的输出我想问的是根据 1 创建一个新类型似乎相当复杂如果
href 表达式的作用是什么？

我时常在网页中看到以下href 但是我不明白这是要做什么或技术有人可以详细说明一下吗 a href a An a 元素是无效的 HTML 除非它有href or name属性如果您希望它正确呈现为链接即下划线手形指针等那么只有当
当模型具有 clean 方法时，如果模型表单排除了某些字段，如何处理模型表单的验证？

我有这个模型 class IeltsExam Model student OneToOneField Student on delete CASCADE has taken exam BooleanField default False l
在加载之前操作 WebKit CSS 数据？

是否可以在 WebKit 解析 CSS 数据之前对其进行操作我尝试过使用委托方法 NSURLRequest webView WebView sender resource id identifier willSendRequest NSU
如何获取Hive编译器生成的MapReduce Jobs源码？

我想知道SQL编译器生成的代码是什么Hive 即如果我执行一个 sql 语句我希望看到由 SQL hive 编译器生成的 MapReduce 作业的代码我怎么才能得到它对于 Hive 它将物理计划序列化为 xml 文件第 15 页
如何从实例字段按名称渲染组件/助手？

有没有办法使用控制器视图字段中的组件所以不要使用 contact select label Label contacts form prop or input field label Label contacts form prop o
重新增长运算符 new() 分配的内存？

是否可以重新增长分配的内存operator new 当这样分配时 char buf new char 60 The C FAQ指出分配的内存new无法通过 realloc 调整大小那么重新增长分配的内存的正确方法是什么new 正确的做法是
C# 对象初始值设定项：从另一个对象设置属性

我有以下对象在构造函数中添加一个新的 Guid 作为 Id public class MyObject public MyObject Id Guid NewGuid ToString public String Id get set p
Firebase 云功能：“状态”：“INVALID_ARGUMENT”

我正在本地测试 Firebase 云功能当我使用本地 URL 调用此函数时http localhost 5001 projectName us central1 functionName如上所述here exports createSes
如何在 Firebase 实时数据库上进行地理医疗查询？

我的 MySQL 数据库中存储了一个坐标并且在 Firebase 实时数据库中更新了其他多个坐标如何从 Firebase 实时数据库找到附近的坐标 Firebase 实时数据库是否允许 GEO 查询我的实时数据库结构如下如何从 Fi
取消设置数组中的项目破坏了循环数据的逻辑

我的控制器中有以下逻辑 public function showvlans vlans this gt switches model gt show known vlans this gt uri gt segment 5 this gt
UnboundLocalError：分配前引用的局部变量“n” - 我如何识别并删除它？或者在这种情况下进行调试？

我仍然做了一个正确的 for 循环但我收到以下错误 UnboundLocalError 赋值前引用的局部变量 n 如何修复上述错误 import numpy as np n 0 import math def polygonPerimete
Struts 2 jquery 自动完成器与forceValidOption =“假”

我已经设置了 Struts 2 jquery 自动完成标签forceValidOption假为
如何在spring中重写JndiObjectFactoryBean并在java中设置解密密码

我在 tomcat 中有一个数据源它的密码是使用某种算法加密的我想在与数据库建立连接时解密相同的密码以下是我的 spring 配置代码
如何使用VBS脚本自动登录

我对此很陌生我目前正在办公室从事一个项目并且我已经有了有关如何在一个窗口中打开多选项卡 IE 的脚本这是我使用的脚本 Const navOpenInBackgroundTab H1000 site1 http site1 com si
想要在 IE8 上的新选项卡中打开[重复]

这个问题在这里已经有答案了可能的重复在新标签页中打开网址当我在做的时候window open 我的页面在新窗口中打开但我希望它在浏览器的新选项卡中打开怎样才能做到这一点呢我 99 确定你不能 Redmond 浏览器可能总是有一个
android ProgressBar在下载过程中更新

在我的文件下载应用程序中有一个 ListView 每一行都包含属性文件和一个用于下载其状态的进度栏我使用视图持有者模式但进度栏不更新 Override protected void onProgressUpdate Long valu
Selenium 驱动的 ChromeDriver 找不到 Chrome 二进制文件

我刚刚卸载了 Chrome 因为它表现得很奇怪现已修复之后 Python 中的 Selenium 无法识别 Chrome 驱动程序二进制文件这非常奇怪因为它应该完全不受影响并且位于不同的位置和不同的版本从我在桌面上使用的 Chro
如何从 OData Atom feed 反序列化对象？

我正在尝试解析来自 OData REST 服务的响应当响应是JSON格式时很容易使用ReadAsJsonDataContractWCF REST 入门工具包中的方法然而如果响应是 Atom feed 事情似乎会更加复杂这是一个例子
根据余弦相似度值进行聚类

我从一组 URL 中提取了单词并计算了每个 URL 内容之间的余弦相似度而且我还标准化了 0 1 之间的值使用最小最大现在我需要根据余弦相似度值对 URL 进行聚类以查找找出类似的 URL 哪种聚类算法最合适请建议我一种动态聚类

根据余弦相似度值进行聚类

根据余弦相似度值进行聚类 的相关文章

随机推荐

href 表达式 的作用是什么？

热门标签

根据余弦相似度值进行聚类的相关文章

href 表达式的作用是什么？