假设我有一段大约一段时间的对话文本记录。 1小时。我想知道哪些词彼此相邻。我将使用什么类型的统计技术来确定哪些单词聚集在一起以及它们彼此之间的接近程度如何?
我怀疑某种聚类分析或主成分分析。
要确定单词的邻近度,您必须构建一个图表:
- 每个单词都是一个顶点(或“节点”),并且
- 左右词是边
所以“我喜欢狗”有 2 个边和 3 个顶点。
现在,下一步将根据此模型决定“关闭”的定义是什么。
这就是统计数据的用武之地。
确定相关词的“组”
MCL 聚类 - 这将为您提供许多聚类,这些聚类在算法上被看到在一起的可能性很高。
K MEANS 聚类 - 这将为您提供“k”组单词。
-
阈值——这是最可靠、最直观的方法。绘制您理解的一小部分数据(例如,您读过的新闻剪辑或文章中的段落)的所有关系,并运行您的方法来生成图表,并使用 graphviz 或 cytoscape 等工具可视化该图表。一旦你看到了相关性,你就可以计算出清楚地聚集在一起的不同单词之间通常有多少条边。例如,您可能会发现,聚集在一起的两个单词每 5 个实例就会有一条边。使用它作为截止点并编写您自己的图形分析脚本,该脚本输出的单词对在顶点图中每 5 个单词实例至少有 1 个边。
- 通过ROC曲线评估3。您可以将截止值滴定得越来越高,直到“簇”非常少。如果您随后针对具有已知预期结果的段落运行算法(由已经知道哪些单词应报告为相关的人创建),您可以使用比较相关单词的接收者操作特征来评估算法的精度输出达到预先计算的黄金标准。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)