在Python中确定句子中2个单词之间的邻近度

2024-05-24

我需要确定 Python 句子中两个单词之间的接近度。例如，在下面的句子中：

the foo and the bar is foo bar

我想确定单词之间的距离foo and bar（确定之间出现的单词数foo and bar).

请注意，该词多次出现foo and bar在上面的句子中产生不同的距离组合。

此外，单词的顺序并不重要。确定这些单词之间的距离的最佳方法是什么？

这是我正在使用的代码：

sentence = "the foo and the bar is foo bar"

first_word_to_look = 'foo'
second_word_to_look = 'bar'

first_word = 0
second_word = 0
dist = 0

if first_word_to_look in sentence and second_word_to_look in sentence:

    first_word = len(sentence.split(first_word_to_look)[0].split())
    second_word = len(sentence.split(second_word_to_look)[0].split())

    if first_word < second_word:
        dist = second_word-first_word
    else:
        dist = first_word-second_word

print dist  # distance

上面代码的问题在于它只考虑这两个单词的第一次出现。如果同一个句子中有更多比第一个更接近的出现，则不会考虑它。

确定接近度的最佳方法是什么？ python中有没有可以更好地完成这项工作的库？

您可以将句子拆分为单词列表并使用index的方法list:

sentence = "the foo and the bar is foo bar"
words = sentence.split()

def get_distance(w1, w2):
     if w1 in words and w2 in words:
          return abs(words.index(w2) - words.index(w1))

更新以计算所有单词出现次数：

import itertools

def get_distance(w1, w2):
    if w1 in words and w2 in words:
        w1_indexes = [index for index, value in enumerate(words) if value == w1]    
        w2_indexes = [index for index, value in enumerate(words) if value == w2]    
        distances = [abs(item[0] - item[1]) for item in itertools.product(w1_indexes, w2_indexes)]
        return {'min': min(distances), 'avg': sum(distances)/float(len(distances))}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Algorithm

NLTK

在Python中确定句子中2个单词之间的邻近度的相关文章

如何生成给定范围内的回文数列表？

假设范围是 1 X 120 这是我尝试过的 gt gt gt def isPalindrome s check if a number is a Palindrome s str s return s s 1 gt gt gt def ge
如何在android上的python kivy中关闭应用程序后使服务继续工作

我希望我的服务在关闭应用程序后继续工作但我做不到我听说我应该使用startForeground 但如何在Python中做到这一点呢应用程序代码 from kivy app import App from kivy uix floatl
这个函数（for循环）空间复杂度是O(1)还是O(n)？

public void check 10 for string i list Integer a hashtable get i if a gt 10 hashtable remove i 这是 O 1 还是 O n 我猜测 O n 但不是
Python 多处理示例不起作用

我正在尝试学习如何使用multiprocessing但我无法让它发挥作用这是代码文档 http docs python org 2 library multiprocessing html from multiprocessing imp
如何等到 Excel 计算公式后再继续 win32com

我有一个 win32com Python 脚本它将多个 Excel 文件合并到电子表格中并将其另存为 PDF 现在的工作原理是输出几乎都是 NAME 因为文件是在计算 Excel 文件内容之前输出的这可能需要一分钟如何强制工作簿计算值
SQL Alchemy 中的 NULL 安全不等式比较？

目前我知道如何表达 NULL 安全的唯一方法 SQL Alchemy 中的比较其中与 NULL 条目的比较计算结果为 True 而不是 NULL 是 or field None field value 有没有办法在 SQL Alchem
安装后 Anaconda 提示损坏

我刚刚安装张量流GPU创建单独的后环境按照以下指示here https github com antoniosehk keras tensorflow windows installation 但是安装后当我关闭提示窗口并打开新航站楼弹出
总和不小于 key 的数组的最小子集

给定一个数组假设为非负整数我们需要找到最小长度子集使得元素之和不小于 K K 是作为输入提供的另一个整数是否有可能找到时间复杂度为 O n n 的大 oh 的解决方案我目前的想法是这样的我们可以在 O n log n 中对数组进
keras加载模型错误尝试将包含17层的权重文件加载到0层的模型中

我目前正在使用 keras 开发 vgg16 模型我用我的一些图层微调 vgg 模型拟合我的模型训练后我保存我的模型model save name h5 可以毫无问题地保存但是当我尝试使用以下命令重新加载模型时load mod
从列表中的数据框列中搜索部分字符串匹配 - Pandas - Python

我有一个清单 things A1 B2 C3 我有一个 pandas 数据框其中有一列包含用分号分隔的值某些行将包含与上面列表中的一项的匹配它不会是完美的匹配因为它在其中包含字符串的其他部分该列例如该列中的一行可能有哇这里
NameError：名称“urllib”未定义”

CODE import networkx as net from urllib request import urlopen def read lj friends g name fetch the friend list from Liv
feedparser 在脚本运行期间失败，但无法在交互式 python 控制台中重现

当我运行 eclipse 或在 iPython 中运行脚本时它失败了 ascii codec can t decode byte 0xe2 in position 32 ordinal not in range 128 我不知道为什么但
Pandas Dataframe 中 bool 值的条件前向填充

问题如何转发 fill boolTruepandas 数据框中的值如果是当天的第一个条目 True 到一天结束时请参阅以下示例和所需的输出 Data import pandas as pd import numpy as np df
Geopandas 设置几何图形：MultiPolygon“等于 len 键和值”的 ValueError

我有 2 个带有几何列的地理数据框我将一些几何图形从 1 个复制到另一个这对于多边形效果很好但对于任何有效多多边形都会返回 ValueError 请指教如何解决这个问题我不知道是否如何为什么应该更改 MultiPolygon
循环中断打破tqdm

下面的简单代码使用tqdm https github com tqdm tqdm在循环迭代时显示进度条 import tqdm for f in tqdm tqdm range 100000000 if f gt 100000000 4 b
通过数据框与函数进行交互

如果我有这样的日期框架氮 EG 00 04 NEG 04 08 NEG 08 12 NEG 12 16 NEG 16 20 NEG 20 24 datum von 2017 10 12 21 69 15 36 0 87 1 42 0 76
Python 3 中“map”类型的对象没有 len()

我在使用 Python 3 时遇到问题我得到了 Python 2 7 代码目前我正在尝试更新它我收到错误类型错误 map 类型的对象没有 len 在这部分 str len seed candidates 在我像这样初始化它之前 se
对输入求 Keras 模型的导数返回全零

所以我有一个 Keras 模型我想将模型的梯度应用于其输入这就是我所做的 import tensorflow as tf from keras models import Sequential from keras layers imp
在 Python 类中动态定义实例字段

我是 Python 新手主要从事 Java 编程我目前正在思考Python中的类是如何实例化的我明白那个 init 就像Java中的构造函数然而有时 python 类没有 init 方法在这种情况下我假设有一个默认构造函数就像
Spark.read 在 Databricks 中给出 KrbException

我正在尝试从 databricks 笔记本连接到 SQL 数据库以下是我的代码 jdbcDF spark read format com microsoft sqlserver jdbc spark option url jdbc sql

随机推荐

如何在C中同时运行两个子进程？

所以我开始学习并发编程但由于某种原因我什至无法掌握基础知识我有一个名为 fork c 的文件其中包含一个 main 方法在此方法中我将 main 分叉两次分别进入子进程 1 和 2 在孩子 1 中我打印了字符 A 50 次在
当 Generic.List.Add 是函数中的最后一个语句并且开启尾调用优化时，性能会受到影响

我遇到了一个奇怪的性能损失我将其归结为以下代码
Jquery .scrollTop() 不工作

标题解释了我的问题这是我的代码 my div ul scrollTop my div ul 0 scrollHeight my div 使用 AJAX 填充因此在我的 ajax 请求中我有一个执行上述代码的成功回调 ajax url
当用户输入/删除时，使文本字段中的提示消失/重新出现[关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 有谁知道我怎样才能在我的搜索栏中做出
下载网址在 Google Drive API PHP 中不起作用

我在使用 Google Drive API 时遇到问题我能够使用 API 获取文件但无法通过此链接下载我想必须进行一些身份验证但我已使用刷新令牌进行身份验证请参阅下面的代码 this gt load gt library goo
Paint.setTextSize(float) 使用哪种测量单位？

我想使用在视图上绘制具有特定高度以像素为单位的文本Canvas 你可以简单地使用Paint setTextSize float 与像素数或者这是使用dp or sp 它使用像素但您可以使用以下代码将其转换为 dp double get
ContentDialog 未与 UWP 中心对齐

据我所知 ContentDialog的默认行为应该是使其在 PC 上居中并在移动设备上与顶部对齐但就我而言即使在 PC 上我也将其与顶部对齐但我不明白发生了什么我正在使用代码隐藏来创建它这是我正在使用的代码片段 Creates t
WebGL 如何设置深度缓冲区中的值？

在 OpenGL 中深度缓冲区值是根据场景的近剪裁平面和远剪裁平面计算的参考从深度缓冲区获取真实的 z 值 https stackoverflow com questions 6652253 getting the true z va
Akka 和 spring 配置

我正在尝试将 akka 与 spring 结合起来但没有成功基本上我的应用程序似乎不习惯读取 akka 模式具有架构的 service context xml 的一部分
将 dataGridView 中选定的行作为对象检索

我有一堂这样的课 public partial class AdressBokPerson public long Session get set public string F rnamn get set public string Ef
wsdl 没有服务元素

我必须使用 WCF Web 服务并获得 WSDL 外部的因此无法控制 WSDL 在 WSDL 定义中我没有找到包含服务端口和地址元素的服务元素 WSDL 中不存在这种情况正常吗这对于 WCF WSDL 来说很常见吗我正在尝试使用轴
Monotouch全局异常处理

我在野外发现了一只令人讨厌的虫子但我无法确定它的具体情况有没有办法拥有全局 Try Catch 块或者有办法处理 Monotouch 中未处理的任何异常我可以包起来吗UIApplication Main args 在 try cat
GWT - 让 CellTable 单元格使用 HTML？

我有一个 CellTable 我想将 HTML 代码放入单元格中以下代码不起作用空格已从输出中删除 TextColumn
组合框下拉位置

我有一个最大化的表单其中包含 500px 的组合框控件停靠在右上角 Width 尝试打开组合框后列表的一半超出了屏幕如何强制列表显示在表单中棘手的问题我找不到解决这个问题的好办法只是一个解决方法添加一个新类并粘贴如下所示的代
正则表达式匹配 JWT

我没有正则表达式的经验我请求你的帮助我需要一个正则表达式来捕获以下字符串中的 JWT contextJwt eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9 eyJzdWIiOiJIZWxsbyB5b3UiLCJ
在 MySQL 连接字符串中指定密码

我使用 MySQL 作为 DB 和 Yeoman 生成器创建了 ExpressJS MVC 应用程序并在config js我想更改 MySQL 连接字符串但我不知道在字符串中指定密码我的字符串是mysql root localhost
无法加载程序集问题

我收到以下错误无法加载程序集错误详细信息 System BadImageFormatException 无法加载文件或程序集文件或其依赖项之一该程序集是由比当前加载的运行时更新的运行时构建的无法加载该程序集是使用 Net Fr
Angular2，测试和解析数据：如何测试 ngOnInit？

我正在通过Angular2 测试指南 https angular io docs ts latest guide testing html并希望编写一个测试ngOnInit 功能那个来自编程指南的路由部分 https angular io
opencv中如何去除二值图像噪声？

将图像转换为二值图像黑白后如果有任何噪音怎么办我消除了那些不需要的噪音您可以看到下图的黑色区域内有一些白噪声我该如何去除噪声使用opencv http img857 imageshack us img857 999 blackn
在Python中确定句子中2个单词之间的邻近度

我需要确定 Python 句子中两个单词之间的接近度例如在下面的句子中 the foo and the bar is foo bar 我想确定单词之间的距离foo and bar 确定之间出现的单词数foo and bar 请注意该词

在Python中确定句子中2个单词之间的邻近度

在Python中确定句子中2个单词之间的邻近度 的相关文章

随机推荐

热门标签

在Python中确定句子中2个单词之间的邻近度的相关文章