使用 sklearn 计算两个不同列的单独 tfidf 分数

2023-12-24

我正在尝试计算一组查询和每个查询的一组结果之间的相似性。我想使用 tfidf 分数和余弦相似度来做到这一点。我遇到的问题是我无法弄清楚如何使用两列（在 pandas 数据框中）生成 tfidf 矩阵。我已经连接了两列，它工作得很好，但使用起来很尴尬，因为它需要跟踪哪个查询属于哪个结果。我将如何同时计算两列的 tfidf 矩阵？我正在使用 pandas 和 sklearn。

这是相关代码：

tf = TfidfVectorizer(analyzer='word', min_df = 0)
tfidf_matrix = tf.fit_transform(df_all['search_term'] + df_all['product_title']) # This line is the issue
feature_names = tf.get_feature_names()

我试图将 df_all['search_term'] 和 df_all['product_title'] 作为参数传递到 tf.fit_transform 中。这显然不起作用，因为它只是将字符串连接在一起，这不允许我将 search_term 与 Product_title 进行比较。另外，是否有更好的方法来解决这个问题？

通过将所有单词组合在一起，您已经有了一个良好的开端；通常，像这样的简单管道就足以产生良好的结果。您可以使用构建更复杂的特征处理管道pipeline and preprocessing。以下是它对您的数据的作用：

import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.preprocessing import FunctionTransformer
from sklearn.pipeline import FeatureUnion, Pipeline

df_all = pd.DataFrame({'search_term':['hat','cat'], 
                       'product_title':['hat stand','cat in hat']})

transformer = FeatureUnion([
                ('search_term_tfidf', 
                  Pipeline([('extract_field',
                              FunctionTransformer(lambda x: x['search_term'], 
                                                  validate=False)),
                            ('tfidf', 
                              TfidfVectorizer())])),
                ('product_title_tfidf', 
                  Pipeline([('extract_field', 
                              FunctionTransformer(lambda x: x['product_title'], 
                                                  validate=False)),
                            ('tfidf', 
                              TfidfVectorizer())]))]) 

transformer.fit(df_all)

search_vocab = transformer.transformer_list[0][1].steps[1][1].get_feature_names() 
product_vocab = transformer.transformer_list[1][1].steps[1][1].get_feature_names()
vocab = search_vocab + product_vocab

print(vocab)
print(transformer.transform(df_all).toarray())

['cat', 'hat', 'cat', 'hat', 'in', 'stand']

[[ 0.          1.          0.          0.57973867  0.          0.81480247]
 [ 1.          0.          0.6316672   0.44943642  0.6316672   0.        ]]

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 sklearn 计算两个不同列的单独 tfidf 分数的相关文章

如何生成给定范围内的回文数列表？

假设范围是 1 X 120 这是我尝试过的 gt gt gt def isPalindrome s check if a number is a Palindrome s str s return s s 1 gt gt gt def ge
Flask 和 uWSGI - 无法加载应用程序 0 (mountpoint='')（找不到可调用或导入错误）

当我尝试使用 uWSGI 启动 Flask 时出现以下错误我是这样开始的 gt cd gt root localhost uwsgi socket 127 0 0 1 6000 file path to folder run py ca
更改自动插入 tkinter 小部件的文本颜色

我有一个文本框小部件其中插入了三条消息一条是开始消息一条是结束消息一条是在单位被摧毁时发出警报的消息我希望开始和结束消息是黑色的但被毁坏的消息参见我在代码中评论的位置插入小部件时颜色为红色我不太确定如何去做这件事我看
pandas 替换多个值

以下是示例数据框 gt gt gt df pd DataFrame a 1 1 1 2 2 b 11 22 33 44 55 gt gt gt df a b 0 1 11 1 1 22 2 1 33 3 2 44 4 3 55 现在我想根据
如何在Windows上模拟socket.socketpair

标准Python函数套接字套接字对 https docs python org 3 library socket html socket socketpair不幸的是它在 Windows 上不可用从 Python 3 4 1 开始我
如何使用 Scrapy 从网站获取所有纯文本？

我希望在 HTML 呈现后可以从网站上看到所有文本我正在使用 Scrapy 框架使用 Python 工作和xpath body text 我能够获取它但是带有 HTML 标签而且我只想要文本有什么解决办法吗最简单的选择是ext
安装后 Anaconda 提示损坏

我刚刚安装张量流GPU创建单独的后环境按照以下指示here https github com antoniosehk keras tensorflow windows installation 但是安装后当我关闭提示窗口并打开新航站楼弹出
IRichBolt 在storm-1.0.0 和 pyleus-0.3.0 上运行拓扑时出错

我正在运行风暴拓扑 pyleus verbose local xyz topology jar using storm 1 0 0 pyleus 0 3 0 centos 6 6并得到错误线程 main java lang NoClass
feedparser 在脚本运行期间失败，但无法在交互式 python 控制台中重现

当我运行 eclipse 或在 iPython 中运行脚本时它失败了 ascii codec can t decode byte 0xe2 in position 32 ordinal not in range 128 我不知道为什么但
python 集合可以包含的值的数量是否有限制？

我正在尝试使用 python 设置作为 mysql 表中 ids 的过滤器 python集存储了所有要过滤的id 现在大约有30000个这个数字会随着时间的推移慢慢增长我担心python集的最大容量它可以包含的元素数量有限制吗您最大
Python：字符串不会转换为浮点数[重复]

这个问题在这里已经有答案了我几个小时前写了这个程序 while True print What would you like me to double line raw input gt if line done break else f
Python：尝试检查有效的电话号码

我正在尝试编写一个接受以下格式的电话号码的程序XXX XXX XXXX并将条目中的任何字母翻译为其相应的数字现在我有了这个如果启动不正确它将允许您重新输入正确的数字然后它会翻译输入的原始数字我该如何解决 def main phon
Python - 按月对日期进行分组

这是一个简单的问题起初我认为很简单而忽略了它一个小时过去了我不太确定所以我有一个Python列表datetime对象我想用图表来表示它们 x 值是年份和月份 y 值是此列表中本月发生的日期对象的数量也许一个例子可以更好地证明这
如何在 Django 中使用并发进程记录到单个文件而不使用独占锁

给定一个在多个服务器上同时执行的 Django 应用程序该应用程序如何记录到单个共享日志文件在网络共享中而不保持该文件以独占模式永久打开当您想要利用日志流时这种情况适用于 Windows Azure 网站上托管的 Django 应
Python：计算字典的重复值

我有一本字典如下 dictA unit1 test1 alpha unit1 test2 beta unit2 test1 alpha unit2 test2 gamma unit3 test1 delta unit3 test2 gamm
检查所有值是否作为字典中的键存在

我有一个值列表和一本字典我想确保列表中的每个值都作为字典中的键存在目前我正在使用两组来确定字典中是否存在任何值 unmapped set foo set bar keys 有没有更Pythonic的方法来测试这个感觉有点像黑客您的方
使用基于正则表达式的部分匹配来选择 Pandas 数据帧的子数据帧

我有一个 Pandas 数据框它有两列一列进程参数列包含字符串另一列值列包含相应的浮点值我需要过滤出部分匹配列过程参数中的一组键的子数据帧并提取与这些键匹配的数据帧的两列 df pd DataFrame Proce
Spark.read 在 Databricks 中给出 KrbException

我正在尝试从 databricks 笔记本连接到 SQL 数据库以下是我的代码 jdbcDF spark read format com microsoft sqlserver jdbc spark option url jdbc sql
Pandas 与 Numpy 数据帧

看这几行代码 df2 df copy df2 1 df 1 df 1 values 1 df2 ix 0 0 我们的教练说我们需要使用 values属性来访问底层的 numpy 数组否则我们的代码将无法工作我知道 pandas Data
PyAudio ErrNo 输入溢出 -9981

我遇到了与用户相同的错误 Python 使用 Pyaudio 以 16000Hz 录制音频时出错 https stackoverflow com questions 12994981 python error audio recording

随机推荐

如何在 C# 中保持单个 SQL Server 连接实例对多个请求打开？

我有一个 Web API 其中包含 C 中的数据库插入逻辑 ado net 当多个用户例如 100 个用户调用 Web API 时每次都会针对多个请求打开和关闭 SQL Server 连接它会降低性能如何为多个请求保持单个 SQL
如何将 exe 输出分配给 gitlab ci 脚本中的变量？

运行 gitlab ci 时我需要检查指定的 svn 目录是否存在我正在使用脚本 variables DIR CHECK default stages setup test otherDebugJob csharp only chang
向一个表插入多行还是向多个表分别插入行？

我有两个数据库表 SQL CE ATeacher表和一个AClass桌子这两个表具有一对多关系其中一名教师有多个班级即Class有外键教师 ID 教师数行数是通过 C 代码在运行时插入或生成的因此班级数也是如此 INSERT
getAvailableBlocksLong() * getBlockSizeLong() VS getAvailableBytes()

编辑我在测试中确实犯了一个愚蠢的错误我在不知情的情况下在这里问了一个问题答案是两者是一样的但我把我的帖子留给其他人有什么区别getAvailableBlocksLong getBlockSizeLong and getAvail
使用 System.Threading.Timer 和 Monitor 进行线程安全执行

Using a System Threading Timer导致线程从ThreadPool 这意味着如果计时器的执行间隔到期而线程仍在按先前请求的顺序处理则相同的回调将被委托在另一个线程上执行在大多数情况下这显然会导致问题除非回调
\x 在替换中不起作用

我正在尝试解码 unicode 字符所以我只是尝试了十六进制转义序列 x 在正则表达式替换中e use LWP Simple my k get url my kv map js call k now kv data is https so
Oracle物化视图问题

例如我有一个表其中包含有关不同事件的信息 CREATE TABLE events id int not null primary key event date date 我意识到 90 的查询仅访问今天的事件较旧的行将被存储以供历史记
不命名类型

不知道为什么编译器给出 nodes 没有命名类型错误 struct node struct node int data struct node left struct node right struct node nodes 1024 n
如何修复符号查找错误：集群环境中未定义的符号错误

我正在编写一些 python 代码使用 GDAL 从 ECW 文件中提取一些图像数据 http www gdal org http www gdal org 及其 python 绑定 GDAL 是从源代码构建的以获得 ECW 支持该程序
使用自定义声明的 Angular 和 Firebase 路线防护

我正在 firestore auth 中动态创建用户并添加了多种类型的声明即管理员讲师助理到目前为止我可以使用新创建的用户登录并将声明属性设置为 true 即admin true instructor true根据我提供的登录凭
在 Java 中将字符串转换为十六进制

我正在尝试将像 testing123 这样的字符串转换为java中的十六进制形式我目前正在使用BlueJ 而将其转换回来除了向后转换之外是一样的吗这是将其转换为十六进制的简短方法 public String toHex String
如何在Python请求中使用相同的键发布多个值？

requests post url data interests football interests basketball 我尝试过这个但它不起作用我该如何发帖football and basketball in the intere
SQLSTATE[HY000]：一般错误：1835 LARAVEL 上的通信数据包格式错误

突然得到 SQLSTATE HY000 一般错误 1835 格式错误的通信数据包 SQL select fromtb users where username 121211 限制 1 在 Laravel 上我已经检查过了 MySQL 错误
$.focus() 在 Chrome 中不起作用

在 chrome 的开发者工具控制台中我选择input type text 元素然后尝试专注于它例如 input foo focus 它不起作用没有抛出错误但元素没有聚焦我花了半个小时试图找出这个问题所以我发布这个是为了帮助其他
Neo4j：仅当不存在时如何调用“CREATE INDEX”

The CREATE INDEX
为什么运行“go get golang.org/x/tools/cmd/godoc”时没有创建二进制文件？

godoc and gotour可以从各自的源目录构建和运行go build 原因是什么gotour二进制文件创建时go get事实并非如此godoc 命令行输出 user pc gvm pkgsets go1 5 1 global gt
如何使用 PowerShell 脚本将用户数据添加/更新到位于另一台服务器上的 LDAP Active Directory？

我想添加更新位于另一台服务器上的 Active Directory 数据我有服务器详细信息但我不知道该怎么做但是如果我从同一服务器运行 PowerShell 脚本我知道如何添加更新数据这是我的代码如果我通过位于同一服务器的
通过使用 com.googlecode.mp4parser 添加曲目并有内存限制来从文件创建电影？

我有多个文件中的录音我正在使用以下命令创建一个连续音频文件com googlecode mp4parser isoparser 1 0 2图书馆下面是我的代码 String mediaKey isAudio soun vide List
Git 和 libgit2 之间的区别

我不确定我是否理解两者之间的区别git and libgit2正确因为存储库git不同于libgit2 我的意思是它们不一样我想知道这两个库有什么区别吗 git 不是一个库它是一个命令行工具和 Git 的参考实现 libgit2 是
使用 sklearn 计算两个不同列的单独 tfidf 分数

我正在尝试计算一组查询和每个查询的一组结果之间的相似性我想使用 tfidf 分数和余弦相似度来做到这一点我遇到的问题是我无法弄清楚如何使用两列在 pandas 数据框中生成 tfidf 矩阵我已经连接了两列它工作得很好但使用起

使用 sklearn 计算两个不同列的单独 tfidf 分数

使用 sklearn 计算两个不同列的单独 tfidf 分数 的相关文章

随机推荐

热门标签

使用 sklearn 计算两个不同列的单独 tfidf 分数的相关文章