从python句子中删除非英语单词

2024-04-02

我编写了一个代码,用于向 Google 发送查询并返回结果。我从这些结果中提取片段(摘要)以进行进一步处理。然而,有时这些片段中会出现我不想要的非英语单词。例如:

/\u02b0w\u025bn w\u025bn unstressed \u02b0w\u0259n w\u0259n/ 

我只想要这句话中的“无重音”这个词。 我怎样才能做到这一点? 谢谢


PyEnchant 对您来说可能是一个简单的选择。我不知道它的速度,但你可以这样做:

>>> import enchant
>>> d = enchant.Dict("en_US")
>>> d.check("Hello")
True
>>> d.check("Helo")
False
>>>

找到教程了here http://www.rfk.id.au/software/pyenchant/tutorial.html#basics,它还有返回建议的选项,您可以再次查询其他查询或其他内容。另外你可以检查你的结果是否是latin-1(is_utf8()exists,不知道is_latin-1()是否也存在,也许使用类似的东西Enca http://freshmeat.net/projects/enca/它根据语言知识检测文本文件的编码。)

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

从python句子中删除非英语单词 的相关文章

  • Python Pandas 滚动聚合一列列表

    我有一个简单的数据框 df 和一列列表lists 我想根据以下内容生成一个附加列lists The df好像 import pandas as pd lists 1 1 2 1 2 3 3 2 9 7 9 4 2 7 3 5 create
  • 熊猫按 n 最大总和分组

    我正在尝试使用groupby nlargest and sum在 Pandas 中一起运行 但在运行时遇到困难 State County Population Alabama a 100 Alabama b 50 Alabama c 40
  • 如何让“conda”安装程序查找“PyPi”包

    我试图使用conda http conda pydata org docs using pkgs html managing packages包管理器来安装我的 Python 包 最近 我遇到了 Anaconda org 存储库中不存在我需
  • 从所有数据帧列中删除子字符串

    我有一个单词列表 大约 1000 个单词 我称之为负面单词 CAST ARTICLES SANITARY JAN CLAUSES SPECIAL ENDORSEMENT 我很快就会用这个单词列表制作一个数据框 我还有一个数据框 看起来像 F
  • DynamodB:如何更新排序键?

    该表有两个键 filename 分区键 和eventTime 排序键 我要更新eventTime对于某些filename Tried put item and update item 发送相同的filename与新的eventTime但这些
  • 如何在 Pandas Python 中按 id 对行进行排名

    我有一个像这样的数据框 id points1 points2 1 44 53 1 76 34 1 63 66 2 23 34 2 44 56 我想要这样的输出 id points1 points2 points1 rank points2
  • 使用 Boto3 超时的 AWS Lambda 函数

    我已经解决了我自己的问题 但无论如何我都会发布它 希望能节省其他人几个小时 我在 AWS 上有一个无服务器项目 使用 Python 将记录插入到 kinesis 队列中 但是 当我使用 boto3 client kinesis 或 put
  • Python Requests 库重定向新 url

    我一直在浏览 Python 请求文档 但看不到我想要实现的任何功能 在我的脚本中我设置allow redirects True 我想知道该页面是否已重定向到其他内容 新的 URL 是什么 例如 如果起始 URL 为 www google c
  • 将整数系列转换为交替(双元)二进制系列

    我不知道如何最好地表达这个问题 因为在这里谷歌搜索和搜索总是让我找到更复杂的东西 我很确定这是基本的东西 但对于我的生活来说 我找不到一个好的方法来做到这一点下列 给定一个整数序列 比如说 for x in range 0 36 我想将这些
  • Python 内置对象的 __enter__() 和 __exit__() 在哪里定义?

    我读到每次使用 with 时都会调用该对象的 enter 和 exit 方法 我知道对于用户定义的对象 您可以自己定义这些方法 但我不明白这对于 打开 等内置对象 函数甚至测试用例是如何工作的 这段代码按预期工作 我假设它使用 exit 关
  • 使用 scikit 时 scipy.sparse 矩阵的缩放问题

    在使用 scikit learn 解决机器学习问题时 我需要在使用 SVM 进行训练之前对 scipy sparse 矩阵进行缩放 但在文档 http scikit learn org stable modules preprocessin
  • 在 Python 中从 Excel 复制 YEARFRAC() 函数

    因此 我使用 python 来自动执行一些必须在 Excel 中执行的重复任务 我需要做的计算之一需要使用yearfrac 这在Python中被复制了吗 I found this https lists oasis open org arc
  • 无法通过 Android 应用程序访问我的笔记本电脑的本地主机

    因此 我在发布此内容之前做了一项研究 我发现的解决方案不起作用 更准确地说 连接到我的笔记本电脑的 IPv4192 168 XXX XXX 没用 连接到10 0 2 2 加上端口 不起作用 我需要测试使用 Django Rest 框架构建的
  • Pandas 字典键到列[重复]

    这个问题在这里已经有答案了 我有一个像这样的数据框 index column1 e1 u c680 5 u c681 1 u c682 2 u c57 e2 u c680 6 u c681 2 u c682 1 u c57 e3 u c68
  • 将图与热图(可能是对数)配对?

    How to create a pair plot in Python like the following but with heat maps instead of points or instead of a hex bin plot
  • 如何将 URL 添加到 Telegram Bot 的 InlineKeyboardButton

    我想制作一个按钮 可以从 Telegram 聊天中在浏览器中打开 URL 外部超链接 目前 我只开发了可点击的操作按钮 update message reply text Subscribe to us on Facebook and Te
  • 将 Django 中的所有视图限制为经过身份验证的用户

    我是 Django 新手 我正在开发一个项目 该项目有一个登录页面作为其索引和一个注册页面 其余页面都必须仅限于登录用户 如果未经身份验证的用户尝试访问这些页面 则必须将他 她重定向到登录页面 我看到 login required装饰器会将
  • AWS 将 MQTT 消息存储到 DynamoDB

    我构建了一个定期发送 MQTT 消息的 python 脚本 这是发送到后端的 JSON 字符串 Id 1234 Ut 1488395951 Temp 22 86 Rh 48 24 在后端 我想将 MQTT 消息存储到 DynamoDB 表中
  • py2exe ImportError:没有名为 的模块

    我已经实现了一个名为 myUtils 的包 它由文件夹 myUtils 文件 组成 init py 和许多名称为 myUtils 的 py 文件 该包包含在 myOtherProject py 中 当我从 Eclipse 运行它们时可以找到
  • Tkinter 将鼠标点击绑定到框架

    我一定错过了一些明显的东西 我的 Tkinter 程序中有两个框架 每个框架在网格布局中都有一堆标签 我想将鼠标点击绑定到其中一个而不是另一个 我目前使用 root bind

随机推荐

  • 已知为 iOS5 和 Storyboard 更新 MGSplitViewController 的努力?

    我正在开发一个 iPad 应用程序 需要隐藏 显示分割视图的主控制器 相关 SO 答案注释 Matt Gemmell 的MGSplitViewController https github com mattgemmell MGSplitVi
  • 即时视频结果

    我正在查询亚马逊的产品广告 API 以获取即时视频 流媒体 结果 一切工作正常 除了缺少一些信息 描述不包含在结果中 例如 在亚马逊上website电影 食品公司 http www amazon com Food Inc dp B002VR
  • 如何用 Perl 编写 HTTP 服务器?

    Perl 标准库 CPAN 或其他地方是否有 Web 服务器或 HTTP 服务器模块 我想我正在寻找Python 3的等价物http server模块 谢谢 此外HTTP 守护进程 http search cpan org perldoc
  • React Native 在多个并发 Android 模拟器上运行

    我想同时在至少 2 个 Android 模拟器上测试我的应用程序 我可以启动 2 个模拟器 但似乎找不到如何启动react native run android我的应用程序在 2 个带有 ADB 的模拟器上运行 如果可能的话我也希望能够运行
  • 确定两个列表是否包含相同的数字项而不进行排序

    我有两个列表 我需要确定它们是否包含相同的值而不进行排序 即值的顺序无关 我知道排序会起作用 但这是性能关键部分的一部分 项目值落在 2 63 范围内 我们总是比较相同大小的列表 但列表大小范围为 1 8 示例列表 A 0 0 4 23 1
  • 对在 django 中将 CSV 文件制作为 ZIP 文件感到困惑

    我有一个视图 它从我的网站获取数据 然后将其放入 zip 压缩的 csv 文件中 这是我的工作代码 没有 zip def backup to csv request response HttpResponse mimetype text c
  • Python os.path.dirname 更改目录时返回意外路径

    目前我不明白 为什么 pythonsos path dirname像它那样行事 假设我有以下脚本 Not part of the script just for the current sample file C Python Test t
  • 在 Web api 中使用 itextsharp 将 html 转换为 pdf 时出现异常

    项目清单 我正进入 状态 the uri prefix is not recognized itextsharp 例外 遵循我的 web api 控制器的方法 它接收 html 数据并将其转换为 pdf System Web Http Ac
  • 在C++中解析argc和argv

    我想学习更多 C 通常我会创建一个 for 循环来解析 argv 最后得到一堆 C 风格的字符串 我想在 C 中做类似的事情 但最好不要从 proc whatever 中读取 起初 我尝试将 C 风格字符串转换为 C 风格字符串 但没有结果
  • Tomcat 7 支持 Java 8 吗?

    In Tomcat官方页面 http tomcat apache org whichversion html它说 Tomcat 7 支持 Java 8 如果我下载这个并使用 Java 8 运行它就可以工作 但是 在 Openshift 上是
  • 如何使 gif 在黑莓 java 上完成后消失?

    我知道如何加载 gif 并让它运行 但是如何让它消失呢 IE 它位于另一个位图背景之上 看起来像与背景交互 我希望它在完成一次后消失 您可以将 gif 设置为不重复并使最终帧 100 透明
  • TextView的设置阻止其他TextView的跑马灯滚动

    这是在其他地方问过的 但该解决方案对我不起作用 因此 在更多背景下再次提出它 问题是活动包含滚动音乐标题文本视图 该视图被更新的经过时间计数器文本视图中断 我的活动布局中有这两个 TextView 小部件 尽管它们被其他布局容器包含
  • 尝试创建 100MB 缓冲区时出现分段错误

    我正在尝试将一个大的二进制文件写入 C 程序的缓冲区中 在尝试创建与文件读取大小相同的缓冲区后 GDB 总是会出现段错误 它要么在 fclose pf 倒带或 f open 上失败 这让我相信当我尝试创建缓冲区时出现了问题 我的代码段如下
  • rmagick安装[关闭]

    Closed 这个问题是无关 help closed questions 目前不接受答案 我在安装 Rmagick 时遇到一些问题 有两种安装方法 1 使用Ruby Gem 2 bld来源 我在这两方面都面临问题 但我希望能够获得 gem
  • 有什么方法可以检查是否强制执行严格模式?

    无论如何 是否要检查是否强制执行严格模式 use strict 并且我们希望为严格模式执行不同的代码 为非严格模式执行其他代码 寻找类似的功能isStrictMode boolean 事实是this在全局上下文中调用的函数内部不会指向全局对
  • HAProxy 随机空响应

    我安装了 HAPROXY 以实现两台服务器之间的平衡 不幸的是 HAPROXY 返回随机 ERR EMPTY RESPONSE 我也安装了统计信息 但统计信息没有出现频繁地因为有时会显示统计数据 我和一些朋友仔细检查了我的配置 没有发现问题
  • 从提升的子进程获取错误和标准输出

    我创建了一个进程处理程序 它启动两种类型的进程 使用管理员用户名和密码提升的权限 另一种无需输入任何用户名和密码即可正常运行 我正在努力弄清楚如何从提升的进程中获取输出 启动进程的应用程序不需要管理员凭据即可运行 管理员凭据输入到单独的加密
  • Angular2 i18n 用于占位符文本

    有没有办法使用 Angular 2 的 i18n 翻译输入文本字段的占位符文本
  • 从派生类访问基类公共成员

    是否可以从程序中其他位置的派生类实例访问基类公共成员 class base public int x base int xx x xx class derived base public derived int xx base xx cla
  • 从python句子中删除非英语单词

    我编写了一个代码 用于向 Google 发送查询并返回结果 我从这些结果中提取片段 摘要 以进行进一步处理 然而 有时这些片段中会出现我不想要的非英语单词 例如 u02b0w u025bn w u025bn unstressed u02b0