关联词的邻近度

2024-02-23

假设我有一段大约一段时间的对话文本记录。 1小时。我想知道哪些词彼此相邻。我将使用什么类型的统计技术来确定哪些单词聚集在一起以及它们彼此之间的接近程度如何？

我怀疑某种聚类分析或主成分分析。

要确定单词的邻近度，您必须构建一个图表：

每个单词都是一个顶点（或“节点”），并且
左右词是边

所以“我喜欢狗”有 2 个边和 3 个顶点。

现在，下一步将根据此模型决定“关闭”的定义是什么。

这就是统计数据的用武之地。

确定相关词的“组”

MCL 聚类 - 这将为您提供许多聚类，这些聚类在算法上被看到在一起的可能性很高。
K MEANS 聚类 - 这将为您提供“k”组单词。
阈值——这是最可靠、最直观的方法。绘制您理解的一小部分数据（例如，您读过的新闻剪辑或文章中的段落）的所有关系，并运行您的方法来生成图表，并使用 graphviz 或 cytoscape 等工具可视化该图表。一旦你看到了相关性，你就可以计算出清楚地聚集在一起的不同单词之间通常有多少条边。例如，您可能会发现，聚集在一起的两个单词每 5 个实例就会有一条边。使用它作为截止点并编写您自己的图形分析脚本，该脚本输出的单词对在顶点图中每 5 个单词实例至少有 1 个边。
1. 通过ROC曲线评估3。您可以将截止值滴定得越来越高，直到“簇”非常少。如果您随后针对具有已知预期结果的段落运行算法（由已经知道哪些单词应报告为相关的人创建），您可以使用比较相关单词的接收者操作特征来评估算法的精度输出达到预先计算的黄金标准。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Algorithm

Text

statistics

clusteranalysis

关联词的邻近度的相关文章

识别鼠标移动的算法

我想知道是否有任何研究算法可以指定鼠标在识别等字符时的偏差量使用鼠标绘制某种光学字符识别但可能是一个更简单的版本是否有某种算法可以让我说用户绘制的问号确实是一个问号而不是其他具有一定准确性的东西就像 Windows 平板电脑软
如何将焦点集中到 python Tkinter 文本小部件？

我希望能够打开应用程序 GUI 并让它自动将光标放置到特定的文本小部件中最好的情况是应用程序启动后有人就可以开始输入而无需单击文本小部件这只是显示问题的一个小示例 from Tkinter import root Tk Windo
对矩阵进行舍入，保留行和列总计

想要以保留行和列总计的方式对矩阵进行舍入的伪代码问题从向量开始 X and Y of 非负整数 with Sum X Sum Y 想要圆X Y Sum X 同时保留行和列总计这是婚姻问题的一种 Xa需要进行一定次数的握手拨打该号
计算具有 3 个循环的算法的复杂度

我尝试解决以下练习以下代码片段最坏情况运行时间的增长顺序是什么作为 N 的函数 int sum 0 for int i 1 i lt N i for int j 1 j lt i i j for int k 1 k lt j j k s
如何设计一种算法来计算倒数式数学数字难题

我一直想这样做但每次我开始思考这个问题时它的指数性质都会让我大吃一惊我希望能够理解的问题解决器和代码是针对倒计时数学问题的给定一组数字 X1 到 X5 计算如何使用数学运算将它们组合起来生成 Y 您可以应用乘法除法加法和减法那
使用 Numba 加速矢量距离计算

以下是我为 3 D 环形几何中的距离平方计算编写的一些函数用于该 3 D 空间中的粒子集合 import itertools import time import numpy as np import scipy import num
运行时间为 O(n) 且就地排序的排序算法

有没有运行时间为O n 并且还分类到位在某些情况下最好的情况是 O n 但这可能是因为项目集合已经排序你正在看 O nlogn 一些较好的平均值话虽如此排序算法的 Wiki 还是相当不错的有一个表格比较了流行的算法说明了它们的
当平方和为N时，如何找到四个变量的所有可能值？

A 2 B 2 C 2 D 2 N给定一个整数N 打印出整数值的所有可能组合ABCD求解方程我猜我们可以比暴力做得更好天真的暴力会是这样的 n 3200724 lim sqrt n 1 for a 0 a lt lim a for b
在 3d 网格中转发（绘制）线

我需要类似 Bresenham 算法的东西但是对于 3d 网格空间来说不完全是这样我需要 3d 单元网格边缘尺寸 1 0 从 S 点开始前进到 K 点接触该线接触的所有单元格即使只有边缘点被触摸我需要触摸所有 8 个单元
一种良好且简单的随机性测量方法

获取一长整数序列例如 100 000 个并返回序列随机性的测量值的最佳算法是什么该函数应返回单个结果如果序列并非完全随机则返回 0 如果完全随机则返回 1 如果序列有点随机它可以给出介于两者之间的东西例如0 95 可能是一个
如何在 JavaScript 中构建树模式匹配算法？

好吧这是一个有点复杂的问题但是 tl dr 基本上是如何使用模式树解析实际树如何检查特定的树实例是否与特定的模式树匹配首先我们有我们的结构模式树模式树通常可以包含以下类型的节点 sequence节点匹配一系列项目零个或
关于Marching Cubes算法的澄清

关于Marching Cubes 我对其算法和实现有一些疑问我已经阅读了 Marching Cubes 的 Paul Bourke 优秀文章以及网站上可用的源代码但是我在理解以及如何以自己的方式实现算法方面仍然遇到了一些问题问题如下
检查有效的 IMEI

有人知道如何检查有效的 IMEI 吗我找到了一个可以检查此页面的功能 http www dotnetfunda com articles article597 imeivalidator in vbnet aspx http www do
什么是“朴素”算法，什么是“封闭式”解决方案？

我有一些关于描述算法时使用的术语语义的问题首先朴素算法是什么意思这与给定问题的其他解决方案有何不同解决方案还可以采取哪些其他形式其次我听到很多人提到封闭式解决方案我也不知道这意味着什么但在尝试解决递归关系时经常会出现
如何求两个地点的经纬度距离？

我有一组位置的纬度和经度怎么找distance从集合中的一个位置到另一个位置有公式吗半正矢公式假定地球是球形的然而地球的形状更为复杂扁球体模型会给出更好的结果如果需要这样的精度你应该更好地使用文森特逆公式 See http
LRU算法，实现这个算法需要多少位？

我有一个关于 LRU 算法的小问题如果您有一个包含四个块的高速缓存那么需要多少位来实现该算法假设您指的是 4 路组关联缓存完美 LRU 本质上是按照使用顺序为每一行分配一个精确的索引您也可以将其视为年龄因此 4 个元素中的每一
jqgrid长文本换行

在jqgrid中我们从数据库获取长文本但在JQgrid中显示时需要换行有什么方法可以换行长文本没有任何空格我们只有 110px 的空间用于收款人姓名字段因为我们有多个列需要显示我们的代码就像 name firstPayeeNa
c# GDI边缘空白检测算法

我正在寻找解决方案检测边缘空白c 位图来自 c 托管 GDI 库图像将是透明的 or white 大多数 400x 图片的尺寸为 8000x8000px 边缘周围有大约 2000px 的空白找出边缘的最有效方法是什么 x y 高度和宽
优化计算中使用的 # 个线程的算法

我正在执行一个操作我们将其称为CalculateSomeData CalculateSomeData 在连续的代中运行编号为 1 x 整个运行中的代数由CalculateSomeData 的输入参数固定并且是先验已知的完成一次生
测试 python Counter 是否包含在另一个 Counter 中

如何测试是否是pythonCounter https docs python org 2 library collections html collections Counter is 包含在另一个中使用以下定义柜台a包含在计数器中b当且

随机推荐

将菜单按钮添加到 VS2010 TFS 查询结果或工作项栏中

我正在尝试将按钮添加到 Visual Studio TFS2010 工作项查询结果菜单栏以及为各个工作项显示的菜单栏见下图这实际上是可定制的且可行的吗如果可以如何实现我会看一下这篇文章 TFS 2010 将菜单项添加到构建资源管理
从浏览器检测Windows 10

我需要在客户端运行 Windows 10 S 特别是 S 仅 Win 10 还不够时将浏览器重定向到特定页面用户代理似乎没有指定这一点我已经找到了在客户端上通过 C 和 WMI 获取此数据的解决方案但我需要在网页上运行 Javasc
MvvmLight EventToCommand 和 WPFToolkit DataGrid 双击

试图弄清楚如何使用 EventToCommand 为行设置数据网格双击处理程序该命令位于每行的视图模型中只是that很大程度上来自我的经验因为我还没有使用过交互 Thanks 我本来会使用 mvvmlight 标签但我还没有足够高的
如何使用 Kotlin DSL 创建 Fat JAR？

我正在使用 Gradle 5 5 我有一个基于 Groovy 的构建脚本我正在尝试将其迁移到 Kotlin DSL 这jar任务包含将所有依赖项复制到 JAR 文件的典型行 from configurations compile coll
打开键盘时隐藏页脚 ionic4

参考了这个链接在键盘打开 Ionic3 上隐藏页脚 https stackoverflow com questions 48386422 hide footer on keyboard open ionic3 但问题也是一样的问题与上图
如何使用 OSGi 和 EE6 模块化企业应用程序？

我知道已经有一些与该主题相关的问题但我还找不到真正的解决方案目前我正在使用 EE6 JPA CDI JSF 开发应用程序我想采用一种更加模块化的方法而不是将所有内容打包到 WAR 或 EAR 中并将整个内容部署在应用程序服务器上我
WooCommerce 在产品标题中显示产品类别

我有一个运行 WooCommerce 版本 2 3 8 的 Wordpress 版本 4 2 2 电子商务网站在我的个人产品页面上我希望将产品的标题设置为还包括我在 WooCommerce 中创建的以及该产品所属的自定义类别我找到与单
项目贡献者的 github graphql 查询

我想使用 GitHub Graphql api 查询项目贡献者有人能给我任何提示吗刚刚尝试了一段时间我想我错过了一些小元素我想要得到某样东西https api github com repos facebook react cont
核心数据图像不会加载到 NSTableView 图像单元中

在我的代码中我将图像存储到我的核心数据模型中工作正常如果我将视图设置为具有 NSImageView 并将其数据绑定到 Controller Key selection 和 modelKeyPath myImagePath 则它可以工作
如何通过htaccess在URL中添加index.php

实际上我需要通过 htaccess 文件在我的应用程序 URL 中添加 index php 我的网址是这样的 http localhost 8080 myapp xyz abs html 我需要将其更改为 http localhost 80
在 PHP 中检索相对 DOM 节点

我想检索文档中下一个元素标签的数据例如我想找回 blockquote Content 1 blockquote 仅适用于每个不同的跨度 span span blockquote Content 1 blockquote blockquo
如何生成一次性密码（OTP / HOTP）？

我们决定通过为客户发布 iPhone Android 和 Blackberry 应用程序的方式开始进行多重身份验证 Think 的一次性密码系统我知道如何生成一个独特的string通过使用基于帐户密钥加上设备序列号或其他唯一标识符的
FirstOrDefault 之后对象是否仍连接到列表？

这是我的代码 Event thisEvent from i in list where i eventID eventID select i FirstOrDefault if thisEvent null thisEvent eventR
命名空间“System.Data”中不存在类型或命名空间名称“OracleClient”

当尝试运行我的代码时我收到以下错误 CS0234 命名空间 System Data 中不存在类型或命名空间名称 OracleClient 是否缺少程序集引用我已经引用了System Data dll and System Data Or
无需安装即可替代 xuggler 进行视频编码？ [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我正在创建一个截屏 Java Web Start 应用程序使用 xuggler 编码视频需要在客户端
如何去除凸度缺陷？

我正在尝试从轮廓检测并精细定位图像中的某些对象我得到的轮廓通常包含一些噪音可能来自背景我不知道这些对象应该看起来类似于矩形或正方形如下所示我通过形状匹配得到了非常好的结果 cv matchShapes 来检测其中包含或不包含噪声
使用自制程序和 Xcode 8.1.1 安装 Mongodb 失败

跑步时brew install mongodb 我得到以下输出 Updating Homebrew mongodb A full installation of Xcode app 8 3 2 is required to compile
单击按钮时以特殊顺序保存数据

我创建了一个应用程序用户可以在其中添加一些注释到特定的car 在我的例子中用户必须能够添加评论并对汽车进行评分 const App gt const state setState useState visible false const
sveltekit 中的 SPA / SSR

我有一个页面 categories 在里面load函数来自 categories page server js我通过加载类别data来自数据库作为 JSON 对象我将它们显示在 categories page svelte作为一个列表当
关联词的邻近度

假设我有一段大约一段时间的对话文本记录 1小时我想知道哪些词彼此相邻我将使用什么类型的统计技术来确定哪些单词聚集在一起以及它们彼此之间的接近程度如何我怀疑某种聚类分析或主成分分析要确定单词的邻近度您必须构建一个图表每个单词都是一

关联词的邻近度

关联词的邻近度 的相关文章

随机推荐

热门标签

关联词的邻近度的相关文章