Python 中使用正则表达式进行字数统计

2023-12-02

使用正则表达式计算文档中英文单词的正确方法是什么？

我尝试过：

words=re.findall('\w+', open('text.txt').read().lower())
len(words)

但我似乎遗漏了几个单词（与 gedit 中的字数相比）。我做得对吗？

多谢！

使用 \w+ 将无法正确计算包含撇号或连字符的单词，例如“can't”将被计为 2 个单词。它还会计算数字（数字串）； “12,345”和“6.7”各算作 2 个单词（“12”和“345”、“6”和“7”）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

regex

count

cpuword

Python 中使用正则表达式进行字数统计的相关文章

Gunicorn 工作人员无论如何都会超时

我正在尝试通过gunicorn运行一个简单的烧瓶应用程序但是无论我做什么我的工作人员都会超时无论是否有针对应用程序的活动工作人员在我设置任何内容后总是会超时timeout值到是什么导致它们超时当我发出请求时请求成功通过但工作
如何在 Matplotlib 饼图周围绘制箭头以将每个标签指向圆圈中各自的部分？

我一直在用 Matplotlib 绘制一些图表我有一个饼图想要在图表周围绘制箭头使每个标签都指向图表我有一个例子这是我当前的代码 import matplotlib pyplot as plt plt rcParams font
在 Python 中将列表元素作为单独的项目返回

Stackoverflow 的朋友们大家好我有一个计算列表的函数我想单独返回列表的每个元素如下所示接收此返回的函数旨在处理未定义数量的参数 def foo my list 1 2 3 4 return 1 2 3 4 列表中的元素数
NLTK 2.0分类器批量分类器方法

当我运行此代码时它会抛出一个错误我认为这是由于 NLTK 3 0 中不存在batch classify 方法我很好奇如何解决旧版本中的某些内容在新版本中消失的此类问题 def accuracy classifier gold resu
VSCode Settings.json 丢失

我正在遵循教程并尝试将 vscode 指向我为 Scrapy 设置的虚拟工作区但是当我在 VSCode 中打开设置时工作区设置选项卡不在用户设置选项卡旁边我还尝试通过以下方式手动转到文件 APPDATA Code User s
正则表达式匹配bash变量

我正在尝试修改 bash 脚本当前脚本包含 print div class 1 div Where 1可能看起来像 Apprentice Historian Level 1 Historian Level 4 Master Histori
如何从Python中的函数返回多个值？ [复制]

这个问题在这里已经有答案了如何从Python中的函数返回多个变量您可以用逗号分隔要返回的值 def get name you code return first name last name 逗号表示它是一个元组因此您可以用括号将值括
Pycharm 在 os.path 连接上出现“未解析的引用”

将pycharm升级到2018 1 并将python升级到3 6 5后 pycharm报告未解析的引用 join 最新版本的 pycharm 不会显示以下行的任何警告 from os path import join expanduser
MongoEngine 查询具有以列表中指定的前缀开头的属性的对象的列表

我需要在 Mongo 数据库中查询具有以列表中任何前缀开头的特定属性的元素现在我有一段这样的代码 query mymodel terms term in query terms 并且这会匹配在列表 term 上有一个项目的对象该列表中的
Python 内置的 super() 是否违反了 DRY？

显然这是有原因的但我没有足够的经验来认识到这一点这是Python中给出的例子docs http docs python org 2 library functions html super class C B def method se
如何使用 Selenium 和 ChromeDriver 解决 TypeError: 'module' object is not callable 错误 [重复]

这个问题在这里已经有答案了代码试验 from selenium import webdriver from selenium webdriver chrome options import Options as Chromeoptions
使用 python/numpy 重塑数组

我想重塑以下数组 gt gt gt test array 11 12 13 14 21 22 23 24 31 32 33 34 41 42 43 44 为了得到 gt gt gt test2 array 11 12 21 22 13 14
导入错误：没有名为flask.ext.login的模块

我的flask login 模块有问题我已经成功安装了flask login模块另外从命令提示符我可以轻松运行此脚本不会出现错误 Python 2 7 r27 82525 Jul 4 2010 07 43 08 MSC v 1500
Django 视图中的“请求”是什么

在 Django 第一个应用程序的 Django 教程中我们有 from django http import HttpResponse def index request return HttpResponse Hello world
如何将 ascii 值列表转换为 python 中的字符串？

我在 Python 程序中有一个列表其中包含一系列数字这些数字本身就是 ASCII 值如何将其转换为可以在屏幕上回显的常规字符串您可能正在寻找 chr gt gt gt L 104 101 108 108 111 44 32 1
找到一个数字所属的一组范围

我有一个 200k 行的数字范围列表例如开始位置停止位置该列表包括除了非重叠的重叠之外的所有类型的重叠列表看起来像这样 3 5 10 30 15 25 5 15 25 35 我需要找到给定数字所属的范围并对 100k 个数字重复该
php，统计字符并删除超过140个字符的内容

我需要一个 PHP 函数来计算短语的字符数如果短语长度超过 140 个字符则此函数应删除所有其他字符并在短语末尾添加三个点例如我们有 message I am what I am and you are what you are et
如何在 Flask 中的视图函数/会话之间传递复杂对象

我正在编写一个 Web 应用程序当且仅当用户登录时该应用程序从第三方服务器接收大量数据这些数据被解析为自定义对象并存储在list 现在用户在应用程序中使用这些数据调用不同的视图例如发送不同的请求我不确定什么是最好的模式在视
JSON：TypeError：Decimal（'34.3'）不是JSON可序列化的[重复]

这个问题在这里已经有答案了我正在运行一个 SQL 查询它返回一个小数列表当我尝试将其转换为 JSON 时出现类型错误查询 res db execute SELECT CAST SUM r SalesVolume 1000 0 AS
如何在Python脚本中从youtube-dl中提取文件大小？

我是 python 编程新手我想在下载之前提取视频音频大小任何 YouTube 视频 gt gt gt from youtube dl import YoutubeDL gt gt gt url https www youtube c

随机推荐

Enterprise Library 3.1 日志格式化程序模板 - 包括 URL 请求

我们有一个使用 Ektron v8 0 构建的自定义 Web 应用程序该应用程序使用 EL 3 1 并且日志记录配置中的格式模板配置如下
如何提高 MongoDB 批量性能？

我有这个对象其中包含一些元数据和大量项目我曾经将其存储在 mongo 中并通过以下方式查询它 unwind荷兰国际集团的数组然而在极端情况下阵列变得如此之大以至于我遇到了 16MB BSON 限制所以我需要将数组的每个元素存
在 cython 中使用函数指针作为模板参数包装 C++ 代码

我试图将以下用 C 编写的声明包装在 cython 中 template
创建新类与使用导出 const 之间的差异

Setup BabelJS es2015 反应第一阶段 Webpack 反应还原 CommonJS 和 ES6 的新功能我知道对象实例和方法的静态容器之间的区别但我不确定它们在分离到模块时的行为如何所以我想知道返回实例之间有什么区
为什么 Java main() 方法接受 String args 数组？

既然它可能是 Java 语言中使用最广泛的方法之一为什么它必须接受字符串数组并且没有它就无法工作例如我总是可以忍受 public static void main over public static void main String
使用客户端证书进行智能卡身份验证

我有一个第三方 Web 应用程序现在我的经理想要将智能卡身份验证添加到某些页面而不是整个应用程序并返回证书信息我的想法是向这些页面添加按钮并在onclick事件中我将进行客户端证书身份验证其中将出现一个证书选择窗口后跟 PI
Vuetify：使 v-navigation-drawer 占据左上角的所有空间，而不是 v-app-bar

我有一个 VuetifyJS v3 页面其中包含v app bar and v navigation drawer两者都在场并且都与app道具集这v app bar占据从左上角延伸的所有水平空间这v navigation drawe
捕捉表格图像

我有一个带有控件的表单我需要捕获该表单以进行图像处理请帮我谢谢 Control cntrl previously declared and populated Bitmap bmp new Bitmap cntrl Width cnt
在 C++ 项目中使用 clang 作为库

我正在尝试使用 clang 作为库但我不确定如何链接 Makefile 中的文件尝试以下位置的 ASTVisitor 代码 https clang llvm org docs RAVFrontendAction html 这是我的Mak
Vimeo 上传 API - 尝试删除票证时出现“无效状态”错误

我按照官方 Vimeo Upload 文档一步步操作可断点续传的 HTTP PUT 上传但在最后一步删除了上传链接我总是收到 HTTP 500 无效状态响应什么使所有过程无效我已经尝试了一切但没有成功相关问题 Vimeo A
SSIS C# 脚本不兼容

我最近接管了基于 SSIS ETL 的流程由于一些许可问题我不得不从 Data Tools 2013 升级到 2015 大部分项目都在升级中幸存下来并且运行良好然而在两个包中我有一个非常简单的 C 方法脚本转换来解析一些导致一
何时使用接口而不是抽象类，反之亦然？

这可能是一个通用的 OOP 问题我想根据接口和抽象类的用法对它们进行一般比较什么时候需要使用接口什么时候需要使用抽象类我写了一篇关于此事的文章抽象类和接口总结当我们谈论抽象类时我们正在定义对象类型的特征指定物体是什么当我
AngularJS：循环 POST 请求并将每个索引传递到相关响应中

我正在尝试使用 AngularJS 执行多个 http POST 请求并且我需要创建一个成功完成请求的对象如下所示 var params 1 2 3 url i done for i in params url dir params i
为 StackPane 对象创建具有绝对坐标的路径过渡

OrangeBlock是一个橙色块里面有文字它被实现为StackPane其中包含矩形顶部的文本这种方法在StackPane 的文档我已经放置了一个OrangeBlock在坐标 100 80 处现在我正在尝试使其顺利移动到某个目标坐
如何从远程 url 下载 mp3 文件？

我将我的网站重定向到一个只有 mp3 文件正在流式传输的 URL 并且我希望将该文件下载到本地计算机我怎样才能做到这一点我已经搜索过 google 和 stacksoverflow 但这些解决方案对我不起作用我找不到针对我的具体问题的
甲骨文声明

表记录如下 D HOME DOC FILE 2001 12 TT 12S2Q99 EE EE1 pdf D HOME DOC FILE 2002 02 TT 12S2Q94 EE EE1 xml D HOME DOC FILE 2005 0
更改滚动图像

我的网站上有一个固定图像该图像应该是动画的这意味着动画的单个帧应该被迭代因此我们的想法是拥有一个图像数组每次用户滚动时都会迭代该数组并且显示的图像会发生变化从而创建动画我不太习惯使用 JS 因此我真的不知道从哪里开始我唯
如何在Delphi 7中获取GIT？

我试图使用以下代码 Delphi 获取全局接口表 uses Comobj ActiveX var cGIT IGlobalInterfaceTable NIL const CLSID StdGlobalInterfaceTable TGUI
正则表达式匹配字符串最后一次出现后的所有内容

正在努力寻找一种方法来做到这一点因此感谢任何帮助在单行上有简单的文本并希望匹配最终之后的所有文本 tag 我在 Open Office 中使用正则表达式所以我需要返回直接匹配而不是 JavaScript 数组字符串看起来像这样 p
Python 中使用正则表达式进行字数统计

使用正则表达式计算文档中英文单词的正确方法是什么我尝试过 words re findall w open text txt read lower len words 但我似乎遗漏了几个单词与 gedit 中的字数相比我做得对吗多谢

Python 中使用正则表达式进行字数统计

Python 中使用正则表达式进行字数统计 的相关文章

随机推荐

热门标签

Python 中使用正则表达式进行字数统计的相关文章