从python句子中删除非英语单词

2024-04-02

我编写了一个代码，用于向 Google 发送查询并返回结果。我从这些结果中提取片段（摘要）以进行进一步处理。然而，有时这些片段中会出现我不想要的非英语单词。例如：

/\u02b0w\u025bn w\u025bn unstressed \u02b0w\u0259n w\u0259n/

我只想要这句话中的“无重音”这个词。我怎样才能做到这一点？谢谢

PyEnchant 对您来说可能是一个简单的选择。我不知道它的速度，但你可以这样做：

>>> import enchant
>>> d = enchant.Dict("en_US")
>>> d.check("Hello")
True
>>> d.check("Helo")
False
>>>

找到教程了here http://www.rfk.id.au/software/pyenchant/tutorial.html#basics，它还有返回建议的选项，您可以再次查询其他查询或其他内容。另外你可以检查你的结果是否是latin-1（is_utf8（）exists，不知道is_latin-1（）是否也存在，也许使用类似的东西Enca http://freshmeat.net/projects/enca/它根据语言知识检测文本文件的编码。）

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Unicode

nonenglish

从python句子中删除非英语单词的相关文章

Python Pandas 滚动聚合一列列表

我有一个简单的数据框 df 和一列列表lists 我想根据以下内容生成一个附加列lists The df好像 import pandas as pd lists 1 1 2 1 2 3 3 2 9 7 9 4 2 7 3 5 create
熊猫按 n 最大总和分组

我正在尝试使用groupby nlargest and sum在 Pandas 中一起运行但在运行时遇到困难 State County Population Alabama a 100 Alabama b 50 Alabama c 40
如何让“conda”安装程序查找“PyPi”包

我试图使用conda http conda pydata org docs using pkgs html managing packages包管理器来安装我的 Python 包最近我遇到了 Anaconda org 存储库中不存在我需
从所有数据帧列中删除子字符串

我有一个单词列表大约 1000 个单词我称之为负面单词 CAST ARTICLES SANITARY JAN CLAUSES SPECIAL ENDORSEMENT 我很快就会用这个单词列表制作一个数据框我还有一个数据框看起来像 F
DynamodB：如何更新排序键？

该表有两个键 filename 分区键和eventTime 排序键我要更新eventTime对于某些filename Tried put item and update item 发送相同的filename与新的eventTime但这些
如何在 Pandas Python 中按 id 对行进行排名

我有一个像这样的数据框 id points1 points2 1 44 53 1 76 34 1 63 66 2 23 34 2 44 56 我想要这样的输出 id points1 points2 points1 rank points2
使用 Boto3 超时的 AWS Lambda 函数

我已经解决了我自己的问题但无论如何我都会发布它希望能节省其他人几个小时我在 AWS 上有一个无服务器项目使用 Python 将记录插入到 kinesis 队列中但是当我使用 boto3 client kinesis 或 put
Python Requests 库重定向新 url

我一直在浏览 Python 请求文档但看不到我想要实现的任何功能在我的脚本中我设置allow redirects True 我想知道该页面是否已重定向到其他内容新的 URL 是什么例如如果起始 URL 为 www google c
将整数系列转换为交替（双元）二进制系列

我不知道如何最好地表达这个问题因为在这里谷歌搜索和搜索总是让我找到更复杂的东西我很确定这是基本的东西但对于我的生活来说我找不到一个好的方法来做到这一点下列给定一个整数序列比如说 for x in range 0 36 我想将这些
Python 内置对象的 __enter__() 和 __exit__() 在哪里定义？

我读到每次使用 with 时都会调用该对象的 enter 和 exit 方法我知道对于用户定义的对象您可以自己定义这些方法但我不明白这对于打开等内置对象函数甚至测试用例是如何工作的这段代码按预期工作我假设它使用 exit 关
使用 scikit 时 scipy.sparse 矩阵的缩放问题

在使用 scikit learn 解决机器学习问题时我需要在使用 SVM 进行训练之前对 scipy sparse 矩阵进行缩放但在文档 http scikit learn org stable modules preprocessin
在 Python 中从 Excel 复制 YEARFRAC() 函数

因此我使用 python 来自动执行一些必须在 Excel 中执行的重复任务我需要做的计算之一需要使用yearfrac 这在Python中被复制了吗 I found this https lists oasis open org arc
无法通过 Android 应用程序访问我的笔记本电脑的本地主机

因此我在发布此内容之前做了一项研究我发现的解决方案不起作用更准确地说连接到我的笔记本电脑的 IPv4192 168 XXX XXX 没用连接到10 0 2 2 加上端口不起作用我需要测试使用 Django Rest 框架构建的
Pandas 字典键到列[重复]

这个问题在这里已经有答案了我有一个像这样的数据框 index column1 e1 u c680 5 u c681 1 u c682 2 u c57 e2 u c680 6 u c681 2 u c682 1 u c57 e3 u c68
将图与热图（可能是对数）配对？

How to create a pair plot in Python like the following but with heat maps instead of points or instead of a hex bin plot
如何将 URL 添加到 Telegram Bot 的 InlineKeyboardButton

我想制作一个按钮可以从 Telegram 聊天中在浏览器中打开 URL 外部超链接目前我只开发了可点击的操作按钮 update message reply text Subscribe to us on Facebook and Te
将 Django 中的所有视图限制为经过身份验证的用户

我是 Django 新手我正在开发一个项目该项目有一个登录页面作为其索引和一个注册页面其余页面都必须仅限于登录用户如果未经身份验证的用户尝试访问这些页面则必须将他她重定向到登录页面我看到 login required装饰器会将
AWS 将 MQTT 消息存储到 DynamoDB

我构建了一个定期发送 MQTT 消息的 python 脚本这是发送到后端的 JSON 字符串 Id 1234 Ut 1488395951 Temp 22 86 Rh 48 24 在后端我想将 MQTT 消息存储到 DynamoDB 表中
py2exe ImportError：没有名为的模块

我已经实现了一个名为 myUtils 的包它由文件夹 myUtils 文件组成 init py 和许多名称为 myUtils 的 py 文件该包包含在 myOtherProject py 中当我从 Eclipse 运行它们时可以找到
Tkinter 将鼠标点击绑定到框架

我一定错过了一些明显的东西我的 Tkinter 程序中有两个框架每个框架在网格布局中都有一堆标签我想将鼠标点击绑定到其中一个而不是另一个我目前使用 root bind

随机推荐

已知为 iOS5 和 Storyboard 更新 MGSplitViewController 的努力？

我正在开发一个 iPad 应用程序需要隐藏显示分割视图的主控制器相关 SO 答案注释 Matt Gemmell 的MGSplitViewController https github com mattgemmell MGSplitVi
即时视频结果

我正在查询亚马逊的产品广告 API 以获取即时视频流媒体结果一切工作正常除了缺少一些信息描述不包含在结果中例如在亚马逊上website电影食品公司 http www amazon com Food Inc dp B002VR
如何用 Perl 编写 HTTP 服务器？

Perl 标准库 CPAN 或其他地方是否有 Web 服务器或 HTTP 服务器模块我想我正在寻找Python 3的等价物http server模块谢谢此外HTTP 守护进程 http search cpan org perldoc
React Native 在多个并发 Android 模拟器上运行

我想同时在至少 2 个 Android 模拟器上测试我的应用程序我可以启动 2 个模拟器但似乎找不到如何启动react native run android我的应用程序在 2 个带有 ADB 的模拟器上运行如果可能的话我也希望能够运行
确定两个列表是否包含相同的数字项而不进行排序

我有两个列表我需要确定它们是否包含相同的值而不进行排序即值的顺序无关我知道排序会起作用但这是性能关键部分的一部分项目值落在 2 63 范围内我们总是比较相同大小的列表但列表大小范围为 1 8 示例列表 A 0 0 4 23 1
对在 django 中将 CSV 文件制作为 ZIP 文件感到困惑

我有一个视图它从我的网站获取数据然后将其放入 zip 压缩的 csv 文件中这是我的工作代码没有 zip def backup to csv request response HttpResponse mimetype text c
Python os.path.dirname 更改目录时返回意外路径

目前我不明白为什么 pythonsos path dirname像它那样行事假设我有以下脚本 Not part of the script just for the current sample file C Python Test t
在 Web api 中使用 itextsharp 将 html 转换为 pdf 时出现异常

项目清单我正进入状态 the uri prefix is not recognized itextsharp 例外遵循我的 web api 控制器的方法它接收 html 数据并将其转换为 pdf System Web Http Ac
在C++中解析argc和argv

我想学习更多 C 通常我会创建一个 for 循环来解析 argv 最后得到一堆 C 风格的字符串我想在 C 中做类似的事情但最好不要从 proc whatever 中读取起初我尝试将 C 风格字符串转换为 C 风格字符串但没有结果
Tomcat 7 支持 Java 8 吗？

In Tomcat官方页面 http tomcat apache org whichversion html它说 Tomcat 7 支持 Java 8 如果我下载这个并使用 Java 8 运行它就可以工作但是在 Openshift 上是
如何使 gif 在黑莓 java 上完成后消失？

我知道如何加载 gif 并让它运行但是如何让它消失呢 IE 它位于另一个位图背景之上看起来像与背景交互我希望它在完成一次后消失您可以将 gif 设置为不重复并使最终帧 100 透明
TextView的设置阻止其他TextView的跑马灯滚动

这是在其他地方问过的但该解决方案对我不起作用因此在更多背景下再次提出它问题是活动包含滚动音乐标题文本视图该视图被更新的经过时间计数器文本视图中断我的活动布局中有这两个 TextView 小部件尽管它们被其他布局容器包含
尝试创建 100MB 缓冲区时出现分段错误

我正在尝试将一个大的二进制文件写入 C 程序的缓冲区中在尝试创建与文件读取大小相同的缓冲区后 GDB 总是会出现段错误它要么在 fclose pf 倒带或 f open 上失败这让我相信当我尝试创建缓冲区时出现了问题我的代码段如下
rmagick安装[关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案我在安装 Rmagick 时遇到一些问题有两种安装方法 1 使用Ruby Gem 2 bld来源我在这两方面都面临问题但我希望能够获得 gem
有什么方法可以检查是否强制执行严格模式？

无论如何是否要检查是否强制执行严格模式 use strict 并且我们希望为严格模式执行不同的代码为非严格模式执行其他代码寻找类似的功能isStrictMode boolean 事实是this在全局上下文中调用的函数内部不会指向全局对
HAProxy 随机空响应

我安装了 HAPROXY 以实现两台服务器之间的平衡不幸的是 HAPROXY 返回随机 ERR EMPTY RESPONSE 我也安装了统计信息但统计信息没有出现频繁地因为有时会显示统计数据我和一些朋友仔细检查了我的配置没有发现问题
从提升的子进程获取错误和标准输出

我创建了一个进程处理程序它启动两种类型的进程使用管理员用户名和密码提升的权限另一种无需输入任何用户名和密码即可正常运行我正在努力弄清楚如何从提升的进程中获取输出启动进程的应用程序不需要管理员凭据即可运行管理员凭据输入到单独的加密
Angular2 i18n 用于占位符文本

有没有办法使用 Angular 2 的 i18n 翻译输入文本字段的占位符文本
从派生类访问基类公共成员

是否可以从程序中其他位置的派生类实例访问基类公共成员 class base public int x base int xx x xx class derived base public derived int xx base xx cla
从python句子中删除非英语单词

我编写了一个代码用于向 Google 发送查询并返回结果我从这些结果中提取片段摘要以进行进一步处理然而有时这些片段中会出现我不想要的非英语单词例如 u02b0w u025bn w u025bn unstressed u02b0

从python句子中删除非英语单词

从python句子中删除非英语单词 的相关文章

随机推荐

热门标签

从python句子中删除非英语单词的相关文章