Python 删除额外的特殊 unicode 字符

2024-05-27

我正在 python 中处理一些文本，它内部已经采用 unicode 格式，但我想删除一些特殊字符并用更标准的版本替换它们。

我目前有一条看起来像这样的线路，但它变得越来越复杂，我发现它最终会带来更多麻烦。

tmp = infile.lower().replace(u"\u2018", "'").replace(u"\u2019", "'").replace(u"\u2013", "").replace(u"\u2026", "")

例如 u\2018 和 \u2019 是left http://www.fileformat.info/info/unicode/char/2018/index.htm and right http://www.fileformat.info/info/unicode/char/2019/index.htm单引号。这些在某种程度上是可以接受的，但对于这种类型的文本处理，我认为不需要它们。

像this http://www.fileformat.info/info/unicode/char/2013/index.htmu\2013 EN DASH 和this http://www.fileformat.info/info/unicode/char/2026/index.htm绝对不需要水平省略号。

有没有办法删除这些引号并使用简单的标准引号，不会破坏“使用 nltk”的文本处理，并删除诸如 EN DASH、水平省略号之类的内容，而不会发出这样一个怪物调用，就像我看到开始抬起头一样上面的示例代码？

如果您的文本是英文并且您想以人类可读的方式清理它，请使用第三方模块unidecode https://pypi.python.org/pypi/Unidecode。它将大量字符替换为最接近的 ASCII 字符。只需申请unidecode.unidecode()到任何字符串进行替换：

from unidecode import unidecode
clean = unidecode(u'Some text: \u2018\u2019\u2013\u03a9')

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Python 删除额外的特殊 unicode 字符的相关文章

没有名为 crypto.cipher 的模块

我现在正在尝试加密一段时间我最近得到了这个基于 python 的密码器名为PythonCrypter https github com jbertman PythonCrypter 我对 Python 相当陌生当我尝试通过终端打开 C
Django 代理模型的继承和多态性

我正在开发一个我没有启动的 Django 项目我面临着一个问题遗产我有一个大模型在示例中简化称为MyModel这应该代表不同种类的物品的所有实例对象MyModel应该具有相同的字段但方法的行为根据项目类型的不同而有很大差异到目
Python 的键盘中断不会中止 Rust 函数 (PyO3)

我有一个使用 PyO3 用 Rust 编写的 Python 库它涉及一些昂贵的计算单个函数调用最多需要 10 分钟从 Python 调用时如何中止执行 Ctrl C 好像只有执行结束后才会处理所以本质上没什么用最小可重现示例 Ca
将 Matplotlib 误差线放置在不位于条形中心的位置

我正在 Matplotlib 中生成带有错误栏的堆积条形图不幸的是某些层相对较小且数据多样因此多个层的错误条可能重叠从而使它们难以或无法读取 Example 有没有办法设置每个误差条的位置即沿 x 轴移动它以便重叠的线显示在彼此
使用 matplotlib 绘制时间序列数据并仅在年初显示年份

rcParams date autoformatter month b n Y 我正在使用 matpltolib 来绘制时间序列如果我按上述方式设置 rcParams 则生成的图会在每个刻度处标记月份名称和年份我怎样才能将其设置为仅在每
如何使用 Ansible playbook 中的 service_facts 模块检查服务是否存在且未安装在服务器中？

我用过service facts检查服务是否正在运行并启用在某些服务器中未安装特定的软件包现在我如何知道这个特定的软件包没有安装在该特定的服务器上service facts module 在 Ansible 剧本中它显示以下错误
SQLALchemy .query：类“Car”的未解析属性引用“query”

我有一个这里已经提到的问题https youtrack jetbrains com issue PY 44557 https youtrack jetbrains com issue PY 44557 但我还没有找到解决方案我使用 Pyt
从 Flask 访问 Heroku 变量

我已经使用以下命令在 Heroku 配置中设置了数据库变量 heroku config add server xxx xxx xxx xxx heroku config add user userName heroku config add
BeautifulSoup 中的嵌套标签 - Python

我在网站和 stackoverflow 上查看了许多示例但找不到解决我的问题的通用解决方案我正在处理一个非常混乱的网站我想抓取一些数据标记看起来像这样 table tbody tr tr tr td td td table tr t
Python 的“zip”内置函数的 Ruby 等价物是什么？

Ruby 是否有与 Python 内置函数等效的东西zip功能如果不是做同样事情的简洁方法是什么一些背景信息当我试图找到一种干净的方法来进行涉及两个数组的检查时出现了这个问题如果我有zip 我可以写这样的东西 zip a b a
在Python中获取文件描述符的位置

比如说我有一个原始数字文件描述符我需要根据它获取文件中的当前位置 import os psutil some code that works with file lp lib open path to file p psutil Pro
Pygame：有没有简单的方法可以找到按下的任何字母数字的字母/数字？

我目前正在开发的游戏需要让人们以自己的名义在高分板上计时我对如何处理按键有点熟悉但我只处理过寻找特定的按键有没有一种简单的方法可以按下任意键的字母而不必执行以下操作 for event in pygame event get if
Jupyter Notebook 内核一直很忙

我已经安装了 anaconda 并且 python 在 Spyder IPython 等中工作正常但是我无法运行 python 笔记本内核被创建它也连接但它始终显示黑圈忙碌符号防火墙或防病毒软件没有问题我尝试过禁用两者我也无法
如何在Python中对类别进行加权随机抽样

给定一个元组列表其中每个元组都包含一个概率和一个项目我想根据其概率对项目进行采样例如给出列表 3 a 4 b 3 c 我想在 40 的时间内对 b 进行采样在 python 中执行此操作的规范方法是什么我查看了 random 模
解释 Python 中的数字范围

在 Pylons Web 应用程序中我需要获取一个字符串例如关于如何做到这一点有什么建议吗我是 Python 新手我还没有找到任何可以帮助解决此类问题的东西该列表将是 1 2 3 45 46 48 49 50 51 77 使用
发送用户注册密码，django-allauth

我在 django 应用程序上使用 django alluth 进行身份验证注册我需要创建一个自定义注册表单其中只有一个字段电子邮件密码将在服务器上生成这是我创建的表格 from django import forms from
导入错误：没有名为 site 的模块 - mac

我已经有这个问题几个月了每次我想获取一个新的 python 包并使用它时我都会在终端中收到此错误 ImportError No module named site 我不知道为什么会出现这个错误实际上我无法使用任何新软件包因为每次我
Python Selenium：如何在文本文件中打印网站上的值？

我正在尝试编写一个脚本该脚本将从 tulsaspca org 网站获取以下 6 个值并将其打印在 txt 文件中最终输出应该是 905 4896 7105 23194 1004 42000 放置的动物的 HTML span class
如何使用 Pycharm 安装 tkinter？ [复制]

这个问题在这里已经有答案了 I used sudo apt get install python3 6 tk而且效果很好如果我在终端中打开 python Tkinter 就可以工作但我无法将其安装在我的 Pycharm 项目上 pip
Statsmodels.formula.api OLS不显示截距的统计值

我正在运行以下源代码 import statsmodels formula api as sm Add one column of ones for the intercept term X np append arr np ones 50

随机推荐

Chrome 打包应用程序 - 在后台/事件页面中使用 AngularJS

当我们创建 Chrome 应用程序时我们将脚本放在背景属性中清单 json file 这将用作应用程序的背景事件页面我想要的是我想使用 AngularJS后台脚本但我不知道怎么办还有这可能吗我刚看到一些答案 https sta
无法解构“undefined”或“null”的属性“user”

使用 redux 检索用户信息时出错我想从数据库获取用户信息姓名密码和头像地址然后对其进行编辑我正在使用nodejs express react redux 和jwt Actions user js import axios fr
C# 3 新功能帖子（与 .Net 3.5 功能无关）[关闭]

这个问题不太可能对任何未来的访客有帮助它只与一个较小的地理区域一个特定的时间点或一个非常狭窄的情况相关通常不适用于全世界的互联网受众为了帮助使这个问题更广泛地适用访问帮助中心 help reopen questions Net F
从另一个类添加 Swing 组件

我正在学习java 我正在尝试从另一个类向我的框架添加一个菜单栏练习将代码划分为多个类以更好地组织程序这是我的代码示例 public class MainApp public static void main String args C
如何将 Linq 扩展到 SQL？

去年斯科特格思里stated http weblogs asp net scottgu archive 2007 07 31 linq to sql debug visualizer aspx 如果你想绝对控制执行的 SQL 你实际上可
Mongodb：如果比较运算符有效，为什么将字符串日期转换为 ISOdate？

我有以下类型的文档 id ObjectId 538d64a11ca6e50941fda4d9 id 538d518e20b8fd642e0000e8 posts some stuff date 2014 06 02 对字符串日期不是 Mo
Android 防火墙与 VpnService

我正在尝试使用 BS 项目的 VpnService 为 Android 实现一个简单的防火墙我选择 VpnService 因为它将在非 root 设备上运行它将记录连接并让您过滤连接基于IP 有一个应用程序可以做到这一点因此这是可能
如何在文件夹中的 xml 文件中 grep 一个单词

我知道我可以使用 grep 在这样的文件夹中的所有文件中查找单词 grep rn core 但我当前的目录有很多子目录我只想搜索当前目录及其所有子目录中存在的所有 xml 文件我怎样才能做到这一点我试过这个 grep rn core
Wasm DOM 访问和引用类型

我一直非常密切地关注 WebAssembly 的路线图特别是调用 JS 互操作的性能影响作为本次活动的一部分参考类型提案 https github com WebAssembly reference types blob master
在 scala 中保留推导的更高类型

我有一个高阶类型并致力于用它构建一些 DSL 我正在寻找一种方法来定义可以接受类型而无需显式指定此类型的函数自我描述示例 class Wrap T val data T class DSL def doSomething T x Wra
Phonegap Geolocation：应用程序关闭时跟踪位置

我已经按照教程进行了移动 tutsplus http mobile tutsplus com tutorials mobile web apps build an exercise tracking app persistence grap
python数据结构（类似设置）在添加重复项时抛出异常

我正在寻找一种在添加重复元素时会引发异常的数据结构我发现的最接近的是collections Counter gt gt gt from collections import Counter as counter gt gt gt c co
在 iPhone 的日期选择器中插入空白值

我有一个日期选择器使用操作表显示我想在日期选择器中插入一个空白值并将其设置为默认值它应该仅根据用户选择而改变这可能吗如果是的话怎么办感谢所有宝贵的建议 UIDatePicker 仅支持某些模式并且不允许这种自定义将空白或自定
UITextField：键盘出现时移动视图

我目前正在开发一个具有单个视图的 iPhone 应用程序该应用程序有多个 UITextFields 用于输入当键盘显示时它会覆盖底部的文本字段所以我添加了相应的textFieldDidBeginEditing 方法将视图向上移动
SQL Server xp_cmdshell

有没有其他方法可以通过以下方式获取文件名列表T SQL以外 INSERT INTO backups filename EXEC master sys xp cmdshell DIR b c some folder with sql back
从可变长度字符串中解析值的最佳方法是什么？

假设我有一个由可变长度的逗号分隔的整数字符串分割字符串并用值更新变量如果存在的最佳方法是什么目前我有以下内容 a b c 10 10 1 default values mylist int x for x in input spl
Visual C++ free 和 malloc 的线程安全性？

有谁知道 free 和 malloc 在 Visual C 2010 上是否是线程安全的我遇到了奇怪的问题内存被损坏我几乎认为这是唯一的可能性有谁知道安全装置是否可以打开和关闭以及如何打开和关闭前提是您链接的是线程安全库 http
C# Application Insight 失败：TrackEvent 未发送到 Azure Application Insight

我对 Azure Application Insight 完全陌生并尝试通过我的本地计算机发送 TrackEvent 但Azure Application Insight似乎没有收到任何信息这是我的要求规格我安装了 applicat
在 Linux 上，在 Eclipse CDT 中使用 gdb 调试 C++ 应用程序，如何向 stdin 输入内容？

在 Linux 上我尝试在 Eclipse CDT 中使用 gdb 调试 C 应用程序例如应用程序applic exe接受一些命令行参数arg1 and arg2它期望一些数据stdin 比如说取自文件input txt 通常要在控
Python 删除额外的特殊 unicode 字符

我正在 python 中处理一些文本它内部已经采用 unicode 格式但我想删除一些特殊字符并用更标准的版本替换它们我目前有一条看起来像这样的线路但它变得越来越复杂我发现它最终会带来更多麻烦 tmp infile lower r

Python 删除额外的特殊 unicode 字符

Python 删除额外的特殊 unicode 字符 的相关文章

随机推荐

热门标签

Python 删除额外的特殊 unicode 字符的相关文章