计算 Pandas 中字符串列中的单词数

2023-12-10

我有一个 pandas 数据框，其中包含给定时间段的查询和计数，我希望将此数据框转换为唯一单词的计数。例如，如果数据框包含以下内容：

query          count
foo bar        10
super          8 
foo            4
super foo bar  2

我希望收到以下数据框。例如单词“foo”在表中出现了 16 次。

word    count
foo     16
bar     12
super   10

我正在使用下面的函数，但这似乎不是执行此操作的最佳方法，并且它忽略了每行的总计数。

def _words(df):
  return Counter(re.findall(r'\w+', ' '.join(df['query'])))

任何帮助将不胜感激。

提前致谢！

Option 1

df['query'].str.get_dummies(sep=' ').T.dot(df['count'])

bar      12
foo      16
super    10
dtype: int64

Option 2

df['query'].str.get_dummies(sep=' ').mul(df['count'], axis=0).sum()

bar      12
foo      16
super    10
dtype: int64

Option 3
numpy.bincount + pd.factorize
还强调使用cytoolz.mapcat。它返回一个迭代器，在其中映射函数并连接结果。这很酷！

import pandas as pd, numpy as np, cytoolz

q = df['query'].values
c = df['count'].values

f, u = pd.factorize(list(cytoolz.mapcat(str.split, q.tolist())))
l = np.core.defchararray.count(q.astype(str), ' ') + 1

pd.Series(np.bincount(f, c.repeat(l)).astype(int), u)

foo      16
bar      12
super    10
dtype: int64

Option 4
荒谬的使用东西...只需使用选项 1。

pd.DataFrame(dict(
    query=' '.join(df['query']).split(),
    count=df['count'].repeat(df['query'].str.count(' ') + 1)
)).groupby('query')['count'].sum()

query
bar      12
foo      16
super    10
Name: count, dtype: int64

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

groupby

pandasgroupby

计算 Pandas 中字符串列中的单词数的相关文章

docker 容器中的“（pygame parachute）分段错误”

尝试在 docker 容器中使用 pygame 时出现以下错误我想从容器中获取显示 Fatal Python error pygame parachute Segmentation Fault 重现 Docker已安装 docker ru
从内存地址创建python对象（使用gi.repository）

有时我需要调用仅存在于 C 中的 gtk gobject 函数但返回一个具有 python 包装器的对象之前我使用过基于 ctypes 的解决方案效果很好现在我从 PyGtk import gtk 切换到 GObject intro
使用管理员权限打开cmd（Windows 10）

我有自己的 python 脚本来管理我的计算机上的 IP 地址它主要在命令行 Windows 10 中执行netsh命令您必须具有管理员权限这是我自己的计算机我是管理员运行脚本时我已经使用管理员类型的用户 Adrian 登录我无
pyCUDA无法打印结果

最近我使用 pip 为我的 python3 4 3 安装 pyCUDA 但我在测试示例代码时发现 https documen tician de pycuda tutorial html getting started https doc
Python 不考虑 distutils.cfg

我已经尝试了给出的所有内容并且所有教程都指向相同的方向即使用 mingw 作为 python 而不是 Visual C 中的编译器我确实有 Visual C 和 mingw 当我想使用 pip 安装时问题开始出现它总是给Unabl
使用 Python 和 lmfit 拟合复杂模型？

我想适合椭偏仪 http en wikipedia org wiki Ellipsometry使用 LMFit 将数据转换为复杂模型两个测量参数 psi and delta 是复杂函数中的变量rho 我可以尝试将问题分离为实部和虚部共享参
Python 内置对象的 __enter__() 和 __exit__() 在哪里定义？

我读到每次使用 with 时都会调用该对象的 enter 和 exit 方法我知道对于用户定义的对象您可以自己定义这些方法但我不明白这对于打开等内置对象函数甚至测试用例是如何工作的这段代码按预期工作我假设它使用 exit 关
Python Selenium 打印另存为 PDF 等待文件名输入

我正在尝试通过打印对话框将网站另存为 PDF 我的代码允许我另存为pdf 但要求我输入文件名我不知道如何将文件名传递到弹出框附上我的代码 import time from selenium import webdriver import
如何用函数记录一个文件？

我有一个带有函数 lib py 但没有类的python 文件每个函数都有以下样式 def fnc1 a b c This fonction does something param a lalala type a str param b
使用 Tkinter 打开网页

因此我的应用程序需要能够打开其中的单个网页并且它必须来自互联网并且未保存特别是我想使用 Tkinter GUI 工具包因为它是我最熟悉的工具包最重要的是我希望能够在窗口中生成事件例如单击鼠标但无需实际使用鼠标有什么好的方法
为什么需要设置WORKON_HOME环境变量？

我已经有一段时间没有使用 python 虚拟环境了但我也安装了虚拟环境包装器我的问题是在文档页面中它说要这样做 export WORKON HOME Envs mkdir p WORKON HOME source usr local
我可以用关闭的文件对象做什么？

当您打开文件时它存储在一个打开的文件对象中该对象使您可以访问该文件的各种方法例如读取或写入 gt gt gt f open file0 gt gt gt f
了解 Python 2.7 中的缩进错误

在编写 python 代码时我往往会遇到很多缩进错误有时当我删除并重写该行时错误就会消失有人可以为菜鸟提供 python 中 IndentationErrors 的高级解释吗以下是我在玩 CheckIO 时收到的最近 inden
multiprocessing.Queue 中的 ctx 参数

我正在尝试使用 multiprocessing Queue 模块中的队列实施 https docs python org 3 4 library multiprocessing html exchang objects Between p
如何从邻接表高效创建稀疏邻接矩阵？

我正在与last fm http labrosa ee columbia edu millionsong lastfm数据集来自百万歌曲数据集 http labrosa ee columbia edu millionsong 数据以一组 j
如何创建增量加载网页

我正在编写一个处理大量数据的页面它会永远持续到我的结果页面加载几乎无限因为返回的数据太大了因此我需要实现一个增量加载页面例如 url 中的页面 http docs python org http docs python org
如何检测一个二维数组是否在另一个二维数组内？

因此在堆栈溢出成员的帮助下我得到了以下代码 data needle s which is a png image base64 code goes here decoded data decode base64 f cStringIO
如何在引发异常时将变量传递给异常并在异常时检索它？

现在我只有一个空白的异常类我想知道如何在引发变量时给它一个变量然后在 try except 中处理它时检索该变量 class ExampleException Exception pass 为其构造函数提供一个参数将其存储为属性然后
ProcessPoolExecutor 传递多个参数

ESPN播放器免费 class ESPNPlayerFree def init self player id match id match id team 团队名单1 277906 cA2i150s81HI3qbq1fzi za1Oq5CG
超过两个点的Python相对导入

是否可以使用路径中包含两个以上点的模块引用就像这个例子一样 Project structure sound init py codecs init py echo init py nix init py way1 py way2 py w

随机推荐

R 4.0.0及更高版本下使用向量动态更新公式

我想使用 R 4 0 0 或更高版本下的向量动态更新公式因此一切都与此链接下的相同 R 动态更新公式但 x 现在是一个向量并且 R 版本 gt 4 0 简而言之我有一个公式例如y 1 并且希望通过字符标量 myvar1 或字符向
我可以在 iOS 上使用 google Drive sdk 以及来自 google Sign-in sdk 的身份验证信息吗？

我们已经有一个使用 Google Sign In sdk 的登录模块 Google 登录给出了GID认证登录成功后的对象现在我想使用 googledrive sdk 访问用户的 googledrive 它需要 GTMOAuth2Authe
我应该在 href="" 中使用 & 还是在 HTML4 和 HTML5 中 & 就足够了？

我应该使用 amp in href or HTML4 和 HTML5 就够了吗大多数浏览器都没有问题但是应该如何完成呢 a href param1 1 param2 2 Call a Or a href quest param1 1 a
从 Tkinter Tcl 回调 python 函数在 Windows 中崩溃

这不完全是我的应用程序但非常相似我创建了这个测试代码来显示问题基本上我试图从 python 线程调用 tcl proc 当结果准备好时 Tcl proc 将回调到 python 函数该结果将作为事件发布到 wx 框架当我作为纯 p
Android发布密钥库问题：“密钥库被篡改，或密码不正确”

几个月前我使用以下命令生成了 Android 版本密钥库 keytool genkey v keystore my release key keystore alias myalias keyalg RSA keysize 2048 va
从最新到最旧读取事件日志

我编写了一个简短的程序使用启动和关闭时发布的事件日志消息来确定远程 PC 的正常运行时间目前的逻辑是 foreach eventlogentry if entryTime gt OldestTime if entry Startup a
Spring MVC不加载css、js文件到静态html页面

我禁用了该角色内部视图解析器为了访问一些静态页面 html not jsp页面我做了所需的更改确实我做了并且我可以访问我的html页面但是当我看到浏览器的控制台时它看起来好像没有带来我的本地css and js files 这是我的
在 Ruby 中访问 JSON 对象 [关闭]

Closed 这个问题需要调试细节目前不接受答案我有一个 json 文件看起来像这样 Results Lookup null Result Paths Domain VALUE1 LTD Url Text1 Modules Name
如何编辑文件夹/文件的修改日期？

我正在使用 webdav 和 HttpWebRequest MKCOL 方法在 SP 中创建文件夹我使用 WebClient 上传文件对于上传的文件和创建的文件夹如何设置其修改日期我正在寻找类似的东西Directory SetLas
Swift 5：转义闭包捕获“inout”参数

我已经有了从服务器收到的响应数据这个响应数据有一些面包师数据现在我想计算用户和面包店的距离然后将其存储在同一个模态类中我为它创建了一个函数由于这个函数需要在 4 5 视图控制器中使用我的计划是创建为 UIViewControll
如何在 Python 中使用 ctypes 卸载 DLL？

我正在使用 ctypes 在 Python 中加载 DLL 这很好用现在我们希望能够在运行时重新加载该 DLL 直接的方法似乎是 1 卸载DLL 2 加载DLL 不幸的是我不确定卸载 DLL 的正确方法是什么 ctypes FreeLib
创建自定义 Powershell 对象的多个实例

我正在 Powershell 脚本中创建一个新对象或者实际上是一个对象类型我想创建该对象的多个实例我该怎么做呢下面的代码是我正在处理的代码看起来数组中的所有实例都引用相同的对象包含相同的值 Define output objec
DART：有人可以向我解释一下这句话吗？

我正在学习 Dart 和 Flutter 但我正在努力解决一些基本的编程问题例如 getter 的使用 GoogleSignInAccount get user gt user 与 get 方法等效的是什么什么是变量末尾的意思是什么
在 Sublime Text 2 中使用默认的 ruby 版本

我的默认当前 ruby 版本是 1 9 3 它实际上是我运行时出现的唯一版本rvm list所以我不明白我怎么能把那部分搞乱我确实关注了this我在这里找到的教程但它似乎破坏了一切对于我看到的修复程序的所有变体甚至在评论中我不断收
通过 AWS Data Pipelines 运行 python 脚本

我使用 AWS Data Pipelines 运行夜间 SQL 查询以填充表以获取摘要统计信息用户界面有点时髦但最终我安装并运行了现在我想用 python 脚本做类似的事情我有一个每天早上在笔记本电脑上运行的文件 forecast
是否可以在不使用 lambda 的情况下将标准函数模板之一作为参数传递？

例如 std get
PDO-MySQL：在准备好的语句绑定上布尔值被转换为 1 或空字符串

我正在尝试将一些布尔值插入到 JSON 类型列中 taskSql INSERT INTO Tasks data taskListId VALUES JSON OBJECT title title done done taskListId t
UICollectionView 单元格与图像，单击更改背景

我有一个UICollectionView with Custom CollectionView Cells 每个Cell上都有一个Image 它和整个Cell一样大现在我想在用户触摸单元格时突出显示该单元格首先我尝试了以下方法deleg
Apps 脚本与 Chrome 扩展：编写 Google 文档的替代拼写检查器

Say 我想开发一个替代谷歌文档的拼写检查模块这意味着我必须从后端获取更正并对拼写错误的文本的背景进行着色并在用户将鼠标悬停在其上方时弹出一个小气泡在其中显示更正请注意拼写检查不是我项目的实际目标但它确实以更简化的方式解决了我
计算 Pandas 中字符串列中的单词数

我有一个 pandas 数据框其中包含给定时间段的查询和计数我希望将此数据框转换为唯一单词的计数例如如果数据框包含以下内容 query count foo bar 10 super 8 foo 4 super foo bar 2 我

计算 Pandas 中字符串列中的单词数

计算 Pandas 中字符串列中的单词数 的相关文章

随机推荐

热门标签

计算 Pandas 中字符串列中的单词数的相关文章