自然语言处理(NLP)之使用TF-IDF模型计算文本相似度

2023-05-16

自然语言处理(NLP)之使用TF-IDF模型计算文本相似度

所用数据集：ChnSentiCorp_htl_all.csv
语料库即存放稀疏向量的列表。
要注意的是，搜索文本text与被检索的文档共用一个特征词词典。

NLP计算文本相似度的方法，可以参考博文：https://blog.csdn.net/weixin_34101784/article/details/94639717

代码主要使用gensim库完成了分词、TF-IDF模型训练、文本相似度计算。
过程如下：

分词、建立特征词典、建立语料库、用TF-IDF模型处理语料库、计算搜索文本与被检索文本的相似度。
示例代码：

import csv
import jieba
from gensim import corpora, models, similarities

count = 0
wordListTop10 = []
with open('ChnSentiCorp_htl_all.csv', 'r', encoding='utf-8') as f:
    lines = csv.reader(f)  # lines的类型是<class '_csv.reader'>   指向csv文件的第一行

    next(lines)  # 指向csv文件的第二行  这个函数的参数是迭代器（iterator）和一个default
    # next(iterator, default)
    # default是迭代器已经到了最末端，再调用next()函数的输出值。不填这个参数的话，到了最末端还用next()的话会报错。

    for line in lines:
        # 只选取前10句话
        if count == 10:
            break

        segList = list(jieba.cut(line[1]))  # 分词      jieba.cut(line[1])对每一行列表的第二个元素进行分词，类型是generator
        wordListTop10.append(segList)  # 把前10句话的所有分词放进一个列表中，该列表为一个列表嵌套10个列表
        count += 1
#         print('/'.join(segList))       # '/'.join(segList)将segList即每句话的分词列表 转换成字符串，用’/‘将每个元素连接起来


"""
制作词袋模型（bag_of_word  (bow)）
"""
# 制作字典
dictionary = corpora.Dictionary(wordListTop10)
# 可以通过token2id得到特征数字
# print(dictionary.token2id)

"""
制作数字向量类型的语料库（doc2bow）
"""
# ----> 将字符串转换成数字向量类型的词袋模型(稀疏向量)
# 源文件不做处理是一个字符串类型的语料库
corpus = [dictionary.doc2bow(doc) for doc in wordListTop10]


def semblance(text, corpus):
    # 对测试文本分词
    dic_text_list = list(jieba.cut(text))

    # 制作测试文本的词袋
    doc_text_vec = dictionary.doc2bow(dic_text_list)

    # 获取语料库每个文档中每个词的tfidf值，即用tfidf模型训练语料库
    tfidf = models.TfidfModel(corpus)

    # 对稀疏向量建立索引
    index = similarities.SparseMatrixSimilarity(tfidf[corpus], num_features=len(dictionary.keys()))
    sim = index[tfidf[doc_text_vec]]  # 相当于sim = index.get_similarities(tfidf[doc_text_vec])
    print(sim)
    print(len(sim))
    # 按照相似度来排序
    sim_sorted = sorted(enumerate(sim, 1), key=lambda x: -x[1])  # enumerate(x, 1) 代表从1开始设立索引
    # 相当于sorted(enumerate(sim), key=lambda x: x[1], reverse=True
    print(sim_sorted)


#     for e,s in enumerate(sim,1):
#         print('text 与 doc%d 相似度为：%.6f' % (e, s))

if __name__ == '__main__':
    text = '这个商务大床房，感觉还不错'
semblance(text, corpus)

运行结果：

[0.         0.46778572 0.11295232 0.01399767 0.         0.05849655
 0.01257649 0.01730035 0.03707163 0.09614414]
10
[(2, 0.46778572), (3, 0.11295232), (10, 0.09614414), (6, 0.058496553), (9, 0.037071627), (8, 0.017300347), (4, 0.013997675), (7, 0.012576494), (1, 0.0), (5, 0.0)]

可以看到，text与数据集中第二条语句相似度最高。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

NLP

IDF

自然语言处理

模型计算文本相似度

自然语言处理(NLP)之使用TF-IDF模型计算文本相似度的相关文章

词干函数错误：词干需要一个位置参数

这里的stem函数显示错误指出stem需要循环中的一个位置参数如所讨论的 from nltk stem import PorterStemmer as ps text my name is pythonly and looking fo
语音识别中如何处理同音词？

对于那些不熟悉什么是同音字 https en wikipedia org wiki Homophone是的我提供以下示例我们的是嗨和高到太二在使用时语音API https developer apple com docume
如何确保用户只提交英文文本

我正在构建一个涉及自然语言处理的项目由于nlp模块目前只处理英文文本所以我必须确保用户提交的内容不长只有几个单词是英文的是否有既定的方法来实现这一目标首选 Python 或 Javascript 方式如果内容足够长我会推荐一
Node2vec 的工作原理

我一直在读关于node2vec https cs stanford edu jure pubs node2vec kdd16 pdf嵌入算法我有点困惑它是如何工作的作为参考 node2vec 由 p 和 q 参数化并通过模拟来自节点的
SpaCy 模型“en_core_web_sm”的词汇量大小

我尝试在 SpaCy 小模型中查看词汇量 model name en core web sm nlpp spacy load model name len list nlpp vocab strings 只给了我 1185 个单词我也在同
BERT 输出不确定

BERT 输出是不确定的当我输入相同的输入时我希望输出值是确定性的但我的 bert 模型的值正在变化听起来很尴尬同一个值返回两次一次也就是说一旦出现另一个值就会出现相同的值并重复如何使输出具有确定性让我展示我的代码片段
使用正则表达式标记化进行 NLP 词干提取和词形还原

定义一个函数名为performStemAndLemma 它需要一个参数第一个参数 textcontent 是一个字符串编辑器中给出了函数定义代码存根执行以下指定任务 1 对给出的所有单词进行分词textcontent 该单词应包含字
openNLP 与 Solr 集成时出现异常

我正在尝试将 openNLP 与 Solr 6 1 0 集成我配置了架构和 solrconfig 文件详细信息请参见 wiki 链接 https wiki apache org solr OpenNLP https wiki apach
使用 NLP 进行地址分割

我目前正在开发一个项目该项目应识别地址的每个部分例如来自 str Jack London 121 Corvallis ARAD ap 1603 973130 输出应如下所示 street name Jack London no 121
使用“自然”语言编写代码更好吗？

我最近看到一种编程语言叫做超新星 http supernova sourceforge net 他们在网页上说超新星编程语言是现代脚本语言和第一个提出了概念用直接虚构进行编程描述使用纯人类语言的清晰子集你可以编写如下代码 i
给定文档，选择相关片段

当我在这里提出问题时自动搜索返回的问题的工具提示给出了问题的前一点但其中相当一部分没有给出任何比理解问题更有用的文本标题有谁知道如何制作一个过滤器来删除问题中无用的部分我的第一个想法是修剪仅包含某个列表中的单词的任何前导句子例如
Keras：嵌入/向量的附加层？

我有 3 个词嵌入嵌入 1 w11 w12 w13 w14 嵌入 2 w21 w22 w23 w24 嵌入 3 w31 w32 w33 w34 有没有办法通过添加所有三个向量来获得第四个嵌入并使用所有向量的可训练权重例如嵌入 4 w
Java 中的自然语言处理 (NLP) [重复]

这个问题在这里已经有答案了可能的重复 Java 有没有好的自然语言处理库 https stackoverflow com questions 870460 java is there a good natural language pro
在 Python 中识别大型字符串列表中的项目之间的文本相似性的最有效方法是什么？

下面的代码实现了我想要实现的结果有一个称为引理的字符串列表其中包含特定类别单词的可接受形式另一个列表称为形式包含在不同时期和特定语言的不同方言的大量文本中发现的单词的许多拼写变体对于 forms 中的每个单词我想获取 le
如何使用Bert进行长文本分类？

我们知道 BERT 有 token 的最大长度限制 512 因此如果一篇文章的长度远大于 512 例如文本中有 10000 个 token 如何使用 BERT 您基本上有三个选择您可以剪掉较长的文本并仅使用前 512 个令牌最初的 BE
使用印度名字训练 Spacy NER

我正在尝试自定义 Spacy 的 NER 来识别印度名字遵循本指南https spacy io usage training https spacy io usage training这是我正在使用的数据集https gist githu
BERT 获取句子嵌入

我正在复制代码这一页 https colab research google com drive 1yFphU6PW9Uo6lmDly ud9a6c4RCYlwdX 我已将 BERT 模型下载到本地系统并获取句子嵌入我有大约 500 00
如何在 bertopic 建模中获取每个主题的所有文档

我有一个数据集并尝试使用 berTopic 建模将其转换为主题但问题是我无法获取主题的所有文档 berTopic 每个主题仅返回 3 个文档 topic model BERTopic verbose True embedding mod
有人可以简单解释一下自然语言处理的要素吗？

我是自然语言处理的新手对所使用的术语感到困惑什么是代币化 POS 标签实体识别标记化只是将文本分割成可以有意义的部分或为这些部分赋予含义以及含义当我确定某物是名词动词或形容词时它的名字是什么如果我想分为日期姓名货币呢
如何使用 NLP 确定句子中的中心词？

例如如果我得到一个句子一名英国士兵在阿富汗战斗中丧生这句话的中心词是杀给定 Python 中的 nltk 包我怎样才能找到它我不是在谈论词干我指的是中心词您正在寻找中心词句子解析它可以在 Python 的 nltk 包中

随机推荐

NRF24L01+实现一对一数据双向传输

NRF24L01 43 实现一对一数据双向传输目录说明带负载数据ACK的双向通信配置NRF24L01 43 的收发程序收发双方数据的处理测试代码和结果目录说明最近在diy四轴飞行器的时候 xff0c 需要实现四轴和遥控器之间的双向通
RT-Thread开启串口.中断和DMA接收（手把手教学）

1 串口介绍串口是指数据一位一位地顺序传送 xff0c 其特点是通讯线路简单 xff0c 只要一对传输线就可以实现双向通信 xff08 可以直接利用电话线作为传输线 xff09 xff0c 从而大大降低了成本 xff0c 特别适用于远距离
stm32使用MPU6050读取温度值验证I2C

通过MPU6050测温来进行I2C的验证学习关于MPU6050寄存器相关可以参考https blog csdn net he yuan article details 76559569 I2C时序很多 xff0c 我是直接以原子I2C的程
String的长度限制

String的长度是有限制的 String存储 String其实是使用的一个char类型的数组来存储字符串中的字符的看看字符串返回长度的方法返回值类型是int类型其长度最大限制为2 31 1 xff0c 那么说明了数组的长度是0 2
通过isapi协议抓拍图片

PC端通过isapi协议抓拍摄像头图片说明 xff1a 1 isapi协议类似于http协议 2 通过isapi协议抓拍图片要经过这几个步骤 2 1 先创建socket xff0c 再连接服务器 xff08 也就是摄像机 xff09 co
yolo|使输出的结果txt含目标的四个坐标信息及类别置信度

最近参加的智能船舶挑战赛对结果的格式要求 xff1a 包含目标边界框从左上角开始的顺时针标注点坐标 xff0c 目标类别以及目标类别分数 xff0c 并用空格分开如下图所示 xff1a 故对yolov5的detect py进行修改 xff
平台开发——安装海康摄像头（2402系列球机）并实现对其RTSP的推流

本次购入了一台海康2402系列球机 xff08 DS 2DC2402IW D3 W xff09 xff0c 对设备进行了激活设置及简要操作 xff0c 在服务器上对其进行了推流购买摄像头本次购买了海康威视DS 2DC2402IW D3
TIPS：Ubuntu 系统python版本切换

1 查看 xff08 1 xff09 查看系统中存在的python版本 xff1a ls usr bin python xff08 2 xff09 查看系统默认版本 xff1a python version 2 修改 xff08 1 xff
报错：CommandNotFoundError: Your shell has not been properly configured to use ‘conda activate‘.

新安装anaconda xff0c 输入 conda activate 报错终端输入 xff1a source activate source deactivate conda activate
Windows下C++调用Http接口

1 WininetHttp h span class token macro property span class token directive keyword pragma span once span span class toke
ubuntu系统 PyImport_ImportModule 返回 NULL

原因 xff1a 1 python文件出错 2 python文件路径出错在PyImport ImportModule命令前添加语句 PyRun SimpleString 34 import sys 34 PyRun SimpleStrin
ModuleNotFoundError:No module named

经典报错 xff1a ModuleNotFoundError No module named XXX 但通过conda list 可以发现相关第三方包在程序中添加路径 import sys sys path append 39 三方包路径
Iterator迭代器

1 迭代器的概述迭代器是一种通用的遍历集合取出集合中元素的方式迭代器由来集合有很多种每种集合的数据结构是不同的数组链表哈希表集合取出元素的方式也不同我们不可能为每种集合都定义一种取出元素的方式浪费所以我们就可以使用
strcat函数将两个字符串拼接在一起

span class token macro property span class token directive keyword include span span class token string 34 pch h 34 span
4、C语言结构体使用---链表

结构体 1 掌握结构体的概念和用法 2 掌握结构体数组和结构体指针 3 掌握包含结构体的结构体 4 掌握结构体搭建链表方法 5 掌握结构体及链表在产品应用场景结构体的概念比如说学生的信息 xff0c 包含了学生名称学号性别年龄等信
爬虫之爬取百度贴吧

爬虫之爬取百度贴吧直接示例代码 xff1a import requests from lxml import html etree 61 html etree from lxml import etree class Tieba obje
正则表达式匹配开头和结尾（^、$、[^指定字符]）

1 匹配开头和结尾代码功能匹配字符串开头匹配字符串结尾示例1 xff1a 需求 xff1a 匹配以数字开头的数据 import re 匹配以数字开头的数据 match obj 61 re match 34 d 34 34 1hell
re.sub()用法详解

源代码参数及其意义 xff1a def sub pattern repl string count 61 0 flags 61 0 34 34 34 Return the string obtained by replacing the
BERT模型的详细介绍

1 BERT 的基本原理是什么 xff1f BERT 来自 Google 的论文Pre training of Deep Bidirectional Transformers for Language Understanding xff0c
自然语言处理(NLP)之使用TF-IDF模型计算文本相似度

自然语言处理 NLP 之使用TF IDF模型计算文本相似度所用数据集 xff1a ChnSentiCorp htl all csv 语料库即存放稀疏向量的列表要注意的是 xff0c 搜索文本text与被检索的文档共用一个特征词词典 NL

自然语言处理(NLP)之使用TF-IDF模型计算文本相似度

自然语言处理(NLP)之使用TF-IDF模型计算文本相似度

自然语言处理(NLP)之使用TF-IDF模型计算文本相似度 的相关文章

随机推荐

热门标签

自然语言处理(NLP)之使用TF-IDF模型计算文本相似度的相关文章