如何使用 pandas/sklearn 删除停止短语/停止 ngram（多单词字符串）？

2023-12-12

我想防止某些短语渗入我的模型。例如，我想阻止“红玫瑰”进入我的分析。我了解如何添加单独的停用词，如将单词添加到 scikit-learn 的 CountVectorizer 的停止列表中通过这样做：

from sklearn.feature_extraction import text
additional_stop_words=['red','roses']

然而，这也会导致其他 ngram，如“红郁金香”或“蓝玫瑰”未被检测到。

我正在构建一个 TfidfVectorizer 作为我的模型的一部分，我意识到我需要的处理可能必须在此阶段之后输入，但我不确定如何执行此操作。

我的最终目标是对一段文本进行主题建模。这是一段代码（几乎直接借用https://de.dariah.eu/tatom/topic_model_python.html#index-0）我正在研究的：

from sklearn import decomposition

from sklearn.feature_extraction import text
additional_stop_words = ['red', 'roses']

sw = text.ENGLISH_STOP_WORDS.union(additional_stop_words)
mod_vectorizer = text.TfidfVectorizer(
    ngram_range=(2,3),
    stop_words=sw,
    norm='l2',
    min_df=5
)

dtm = mod_vectorizer.fit_transform(df[col]).toarray()
vocab = np.array(mod_vectorizer.get_feature_names())
num_topics = 5
num_top_words = 5
m_clf = decomposition.LatentDirichletAllocation(
    n_topics=num_topics,
    random_state=1
)

doctopic = m_clf.fit_transform(dtm)
topic_words = []

for topic in m_clf.components_:
    word_idx = np.argsort(topic)[::-1][0:num_top_words]
    topic_words.append([vocab[i] for i in word_idx])

doctopic = doctopic / np.sum(doctopic, axis=1, keepdims=True)
for t in range(len(topic_words)):
    print("Topic {}: {}".format(t, ','.join(topic_words[t][:5])))

EDIT

示例数据帧（我尝试插入尽可能多的边缘情况），df：

   Content
0  I like red roses as much as I like blue tulips.
1  It would be quite unusual to see red tulips, but not RED ROSES
2  It is almost impossible to find blue roses
3  I like most red flowers, but roses are my favorite.
4  Could you buy me some red roses?
5  John loves the color red. Roses are Mary's favorite flowers.

TfidfVectorizer允许自定义预处理器。您可以使用它来进行任何需要的调整。

例如，要从示例语料库中删除所有出现的连续“red”+“roses”标记（不区分大小写），请使用：

import re
from sklearn.feature_extraction import text

cases = ["I like red roses as much as I like blue tulips.",
         "It would be quite unusual to see red tulips, but not RED ROSES",
         "It is almost impossible to find blue roses",
         "I like most red flowers, but roses are my favorite.",
         "Could you buy me some red roses?",
         "John loves the color red. Roses are Mary's favorite flowers."]

# remove_stop_phrases() is our custom preprocessing function.
def remove_stop_phrases(doc):
    # note: this regex considers "... red. Roses..." as fair game for removal.
    #       if that's not what you want, just use ["red roses"] instead.
    stop_phrases= ["red(\s?\\.?\s?)roses"]
    for phrase in stop_phrases:
        doc = re.sub(phrase, "", doc, flags=re.IGNORECASE)
    return doc

sw = text.ENGLISH_STOP_WORDS
mod_vectorizer = text.TfidfVectorizer(
    ngram_range=(2,3),
    stop_words=sw,
    norm='l2',
    min_df=1,
    preprocessor=remove_stop_phrases  # define our custom preprocessor
)

dtm = mod_vectorizer.fit_transform(cases).toarray()
vocab = np.array(mod_vectorizer.get_feature_names())

Now vocab拥有所有red roses参考资料已删除。

print(sorted(vocab))

['Could buy',
 'It impossible',
 'It impossible blue',
 'It quite',
 'It quite unusual',
 'John loves',
 'John loves color',
 'Mary favorite',
 'Mary favorite flowers',
 'blue roses',
 'blue tulips',
 'color Mary',
 'color Mary favorite',
 'favorite flowers',
 'flowers roses',
 'flowers roses favorite',
 'impossible blue',
 'impossible blue roses',
 'like blue',
 'like blue tulips',
 'like like',
 'like like blue',
 'like red',
 'like red flowers',
 'loves color',
 'loves color Mary',
 'quite unusual',
 'quite unusual red',
 'red flowers',
 'red flowers roses',
 'red tulips',
 'roses favorite',
 'unusual red',
 'unusual red tulips']

UPDATE（每个评论线程）：

要将所需的停止短语与自定义停止词一起传递给包装函数，请使用：

desired_stop_phrases = ["red(\s?\\.?\s?)roses"]
desired_stop_words = ['Could', 'buy']

def wrapper(stop_words, stop_phrases):

    def remove_stop_phrases(doc):
        for phrase in stop_phrases:
            doc = re.sub(phrase, "", doc, flags=re.IGNORECASE)
        return doc

    sw = text.ENGLISH_STOP_WORDS.union(stop_words)
    mod_vectorizer = text.TfidfVectorizer(
        ngram_range=(2,3),
        stop_words=sw,
        norm='l2',
        min_df=1,
        preprocessor=remove_stop_phrases
    )

    dtm = mod_vectorizer.fit_transform(cases).toarray()
    vocab = np.array(mod_vectorizer.get_feature_names())

    return vocab

wrapper(desired_stop_words, desired_stop_phrases)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

scikitlearn

NLP

如何使用 pandas/sklearn 删除停止短语/停止 ngram（多单词字符串）？的相关文章

无法使用 beautifulsoup 模块 python 从 HTML 检索温度值

我正在使用 BeautifulSoup4 来解析此 HTML 查看源代码 https weather com en IN weather today l 17 39 78 49 https weather com en IN weather
如何在 Django Admin 的“更改”页面中显示内嵌上传的图像？

我正在尝试在中显示内联上传的图像变更列表页面在 Django 管理中这是我的代码如下 models py from django db import models class Product models Model name mod
pandas python 根据一个或多个其他列的子集更新 A 列的子集

Edit我修改了下面的部分描述以澄清功能和组的含义修复拼写错误并包含我尝试过的其他代码我的熊猫df有 450 万行和 23 列下表显示了几行df2这是从生成的df 它显示了两组 eeskin and hduquant 和三
AttributeError：模块“tensorflow.python.framework.ops”没有属性“RegisterShape”

我正在使用 TensorFlow 2 1 0 dev20191125 不幸的是我无法编译一个带有错误的简单示例 AttributeError 模块 tensorflow python framework ops 没有属性 Registe
我无法使用 Python 和 Facebook Marketing API 获取所有 Facebook 营销活动的统计信息

我正在尝试检索以下指标 date campaign name impressions clicks spend 在我的 Facebook 帐户中的所有活动中但显然我编写的脚本仅返回某些活动的统计数据而不是全部它仅返回大多数营销活动的营
使用 for 循环 Python 为数组赋值

我正在尝试将字符串的值分配给不同的数组索引但我收到一个名为列表分配超出范围的错误 uuidVal distVal uuidArray distArray for i in range len returnedList for beac
插入多行并返回主键时 Sqlalchemy 的奇怪行为

插入多行并返回主键时我注意到一些奇怪的事情如果我在 isert 查询中添加使用参数值我会得到预期的行为但是当将值传递给游标时不会返回任何内容这可能是一个错误还是我误解了什么我的sqlachemy版本是0 9 4 下面如何重现错
代码 zip( *sorted( zip(units, error) ) ) 的作用是什么？

对于我的申请units and errors始终是数值列表我尝试用谷歌搜索每个部分的作用并找出了 zip 的第一部分它似乎 ziped list zip units errors 只需将单位和误差配对即可生成一个列表如下所示 uni
生产环境的 Flask-Login 与 Flask-Security

我正在构建一个功能供用户注册登录验证和授权自己特别是使用 Python Flask 作为后端我找到了一些解决方案例如flask login and flask security 据我了解 flask login实际上并没有进行任
Python控制台默认十六进制显示

我在 Python 控制台中做了很多工作其中大部分都涉及地址我更喜欢以十六进制形式查看地址 So if a 0xBADF00D 当我简单地输入Python gt a进入控制台查看其值我更喜欢 python 回复0xBADF00D代替1
使用 Twisted Python 的 UDP 客户端和服务器

我想创建一个服务器和客户端使用 Twisted 从网络发送和接收 UDP 数据包我已经用 Python 中的套接字编写了此代码但想利用 Twisted 的回调和线程功能然而我需要 Twisted 设计方面的帮助我想接收多种类型的
Tensorflow 到 ONNX 的转换

我目前正在尝试转换我使用本教程创建的已保存且正在工作的 pb 文件 https github com thtrieu darkflow https github com thtrieu darkflow 到 onnx 文件中我目前正在
使用主宰器将实时数据发送给客户端

我尝试使用 Flask 的主宰框架以便按照 Flask 代码片段将实时信息发送到客户端浏览器http flask pocoo org snippets 80 http flask pocoo org snippets 80 当我尝试为我的
将 Python 控制台集成到 GUI C++ 应用程序中

I m going to add a python console widget into a C GUI below some other controls 许多类将暴露给 python 代码包括一些对 GUI 的访问也许我会考虑 P
计算二维笛卡尔坐标中不规则形状的边界

我正在寻找一种计算不规则形状边界的解决方案 Lats take a look at Square example 如果我有Minimum x and y and Maximum x and y like MaxX 5 MinX 1 MaxY
pip-tools 的干净设置不会编译非常基本的 pyproject.toml

使用全新的pip tools设置总是会导致Backend subprocess exited error pyproject toml project dependencies openpyxl gt 3 0 9 lt 4 在仅包含上述 p
使用多行选项和编码选项读取 CSV

在 azure Databricks 中当我使用以下命令读取 CSV 文件时multiline true and encoding SJIS 似乎编码选项被忽略了如果我使用multiline选项 Spark 使用默认值encoding那
为什么 Python exec 中的模块级变量无法访问？

我正在尝试使用Pythonexec in a project https github com arjungmenon pypage执行嵌入的Python代码我遇到的问题是在模块级 in an exec声明是难以接近的来自同一模块中定义的
从 xgb.train() 获取概率

我是 Python 和机器学习的新手我在网上搜索了我的问题并尝试了人们建议的解决方案但仍然没有得到它如果有人能帮助我我将非常感激我正在开发我的第一个 XGboost 模型我已经使用 xgb XGBClassifier 调整了参
Pandas、大数据、HDF 表以及调用函数时的内存使用情况

简短的问题当 Pandas 在 HDFStore 上工作时例如 mean 或 apply 它是否将内存中的完整数据作为 DataFrame 加载还是将逐条记录作为 Serie 进行处理详细描述我必须处理大型数据文件并且我可以指定

随机推荐

如何通过 BindingNavigator 将 DataGridView 的记录插入、更新和删除到数据库

I have a Student table and a bunch of other tables in my database called University and I used Entity Framework to conne
如何向字符串中“not”、“no”和“never”后面的否定词添加标签

如何添加标签NEG 到后面的所有单词not no and never直到字符串中的下一个标点符号用于情感分析我认为可以使用正则表达式但我不确定如何使用 Input It was never going to work he thoug
使用像filter_var_array()这样的PHP过滤函数有没有办法检查输入字符串的长度是否小于某个值

我一直在玩弄 PHP 过滤器库我喜欢它但我无法执行简单的过滤功能我本质上是想使输入数组中那些长度超过特定值的字符串值无效有没有办法做到这一点就像 data array input string array gt array aaa
NSPercientContainer 仅在 10.0 或更高版本中可用：错误

这是因为我的部署目标小于10 如何解决部署目标低于 10 0 的问题解决方案之一是使用https github com inspace io INSPercientContainer 并添加 typealias NSPersistentC
如何在没有 HttpContext.Current 的情况下通过 SessionID 获取会话数据

我正在寻找一种方法读取和写入会话数据 but 没有HttpContext 当前的为什么我会这么做因为我希望在页面关闭并卸载后对用户会话进行一些操作例如用户加载并查看页面然后我创建一个线程来执行一些操作并让用户离开在这个线程中我喜
SqlCommand.Dispose 是否关闭连接？

我可以有效地使用这种方法吗 using SqlCommand cmd new SqlCommand GetSomething new SqlConnection Config ConnectionString cmd Connection
在 Oracle 整个架构的所有字段中搜索给定字符串

我们如何在 Oracle 整个模式的所有字段中搜索给定字符串 Oracle中有执行上述操作的sql脚本吗如果是怎么办我们可以通过其他脚本来完成吗 ALL TAB COLUMNS 是一个系统表具有所有表列数据类型等 USER TAB
已删除的 Firestore 文档仍在检索中

我通过 Cloud Functions 中的触发器批量删除删除了一些文档控制台显示它们已被删除但是我的应用程序仍然检索文档这肯定是 firestore 的一个错误而且是一个非常严重的错误我发现另一个用户也有同样的问题here 我
为什么1+++2=3？

Python 如何计算表达式1 2 有多少曾经我放在中间它正在打印3作为答案请任何人都可以解释这种行为 And for 1 2正在打印3并为1 2正在打印 1 你的表达方式是一样的 1 2 任何数字表达式前面都可以带有使其变为负数
如何使文本动态调整其大小以适应容器

上图是没有使用FittedBox小部件此处文本溢出上图是使用FittedBox小部件这里所有文本包含在一行中 Container width double infinity height 100 color Colors red ch
jQuery Mobile 页面更改后无法访问元素

我在这里创建了一个简单的示例来说明我的问题 https github com kanesee jqm page state 基本上我有 page1 html 其中有一个 id content 的 div 我将其颜色更改为红色我有一个 p
Azure 客户端 ID、租户和 Key Vault URI 是否被视为机密？

我正在加快使用 Azure 的速度并尝试遵循最佳实践来保护我的 WPF 和 Xamarin Forms 应用程序我使用 Azure AD 进行身份验证使用 Key Vault 保存我的机密我的客户端 ID 和租户设置怎么样这些是与
Sweave/R/LaTeX 的初学者问题（图表、参考书目）——我的第一份文档

我刚刚开始Sweave与R 我在这里使用R输出一些数据我也试图包括一个情节代码不会摇摆我有一个Sweave来自网络的示例可以很好地编译RStudio with LaTeX documentclass a4paper article b
如何使用 swfobject 通知 HTML 容器 SWF 已完成

我正在将 flash 对象 swf 文件嵌入到 HTML 页面中该对象是用 as3 编写的并使用 Flash Builder 构建它的目的是显示一些动画然后完成能够通知容器动画已完成对我来说非常重要但我找不到任何有效的方法我
如何将一对多从控制器传递到mvc4中的视图

好的这将是在你们帮助我进行更改之后我假设我在某处遇到语法错误 View model OilNGasWeb ModelData Clients ViewBag Title Index h2 County s for h2 p Html A
在设备上的线性内存中循环二维数组时将 float* 转换为 char*

CUDA 4 0 编程指南第 21 页上有一个示例如下所示来说明循环设备内存中二维浮点数组的元素 2D 的尺寸为宽高 Host code int width 64 height 64 float devPtr size t pitc
Google Drive CSS/JS 返回 404 错误

我在 Google Drive 上托管了我的 CSS JS 但它突然停止工作在 Chrome Safari Mac iPhone 上测试过检查后用Chrome 我看到 Google Drive 的链接返回 404 还有其他人有过吗 Go
如何在加权networkx图中找到总和最高的路径？

我有一个有向网络加权图如何找到权重和最大的路径您可以使用all simple paths并检查最大值假设您有一个采用路径并给出权重总和的函数 heaviest path max path for path in nx all simp
Java 约定中的 Getters 和 Setters [重复]

这个问题在这里已经有答案了我的 Java 有点生疏过去几年一直在做 C 我也希望这不会是一个非常主观的问题不管怎样说我有课Person 是的我知道有点陈词滥调没有任何行为 C 版本 public class Person publ
如何使用 pandas/sklearn 删除停止短语/停止 ngram（多单词字符串）？

我想防止某些短语渗入我的模型例如我想阻止红玫瑰进入我的分析我了解如何添加单独的停用词如将单词添加到 scikit learn 的 CountVectorizer 的停止列表中通过这样做 from sklearn feature

如何使用 pandas/sklearn 删除停止短语/停止 ngram（多单词字符串）？

如何使用 pandas/sklearn 删除停止短语/停止 ngram（多单词字符串）？ 的相关文章

随机推荐

热门标签

如何使用 pandas/sklearn 删除停止短语/停止 ngram（多单词字符串）？的相关文章