Sklearn CountVectorizer：将表情符号保留为单词

2024-03-22

我正在使用 SklearnCountVectorizer在字符串上但是CountVectorizer丢弃文本中的所有表情符号。

例如，???? Welcome应该给我们：["\xf0\x9f\x91\x8b", "welcome"]

但是，运行时：

vect = CountVectorizer()
test.fit_transform(['???? Welcome'])

我只得到：["welcome"]

这与token_pattern它不将编码的表情符号算作一个单词，但是有一个自定义的token_pattern处理表情符号？

是的你是对的！token_pattern必须改变。我们可以将其设置为，而不仅仅是字母数字字符除空格之外的任何字符.

尝试这个！

from sklearn.feature_extraction.text import TfidfVectorizer
s= ['???? Welcome', '???? Welcome']

v = TfidfVectorizer(token_pattern=r'[^\s]+')
v.fit(s)
v.get_feature_names()

# ['welcome', '????']

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

scikitlearn

NLP

countvectorizer

Sklearn CountVectorizer：将表情符号保留为单词的相关文章

使用Python开发Web应用程序

我一直在用 python 做一些工作但这都是针对独立应用程序的我很想知道 python 的任何分支是否支持 Web 开发有人还会建议一个好的教程或网站吗我可以从中学习一些使用 python 进行 Web 开发的基础知识既然大家都说
如何在android上的python kivy中关闭应用程序后使服务继续工作

我希望我的服务在关闭应用程序后继续工作但我做不到我听说我应该使用startForeground 但如何在Python中做到这一点呢应用程序代码 from kivy app import App from kivy uix floatl
如何在 Sublime Text 2 的 OSX 终端中显示构建结果

我刚刚从 TextMate 切换到 Sublime Text 2 我非常喜欢它让我困扰的一件事是默认的构建结果显示在 ST2 的底部我的程序产生一些很长的结果显示它的理想方式如在 TM2 中是并排查看它们如何在 Mac 操作系统
如何等到 Excel 计算公式后再继续 win32com

我有一个 win32com Python 脚本它将多个 Excel 文件合并到电子表格中并将其另存为 PDF 现在的工作原理是输出几乎都是 NAME 因为文件是在计算 Excel 文件内容之前输出的这可能需要一分钟如何强制工作簿计算值
Spark的distinct()函数是否仅对每个分区中的不同元组进行洗牌

据我了解 distinct 哈希分区 RDD 来识别唯一键但它是否针对仅移动每个分区的不同元组进行了优化想象一个具有以下分区的 RDD 1 2 2 1 4 2 2 1 3 3 5 4 5 5 5 在此 RDD 上的不同键上所有重复键
Python tcl 未正确安装

我刚刚为 python 安装了graphics py 但是当我尝试运行以下代码时 from graphics import def main win GraphWin My Circle 100 100 c Circle Point 50
安装后 Anaconda 提示损坏

我刚刚安装张量流GPU创建单独的后环境按照以下指示here https github com antoniosehk keras tensorflow windows installation 但是安装后当我关闭提示窗口并打开新航站楼弹出
如何使用装饰器禁用某些功能的中间件？

我想模仿的行为csrf exempt see here https docs djangoproject com en 1 11 ref csrf django views decorators csrf csrf exempt and h
从列表中的数据框列中搜索部分字符串匹配 - Pandas - Python

我有一个清单 things A1 B2 C3 我有一个 pandas 数据框其中有一列包含用分号分隔的值某些行将包含与上面列表中的一项的匹配它不会是完美的匹配因为它在其中包含字符串的其他部分该列例如该列中的一行可能有哇这里
在 NumPy 中获取 ndarray 的索引和值

我有一个 ndarrayA任意维数N 我想创建一个数组B元组数组或列表其中第一个N每个元组中的元素是索引最后一个元素是该索引的值A 例如 A array 1 2 3 4 5 6 Then B 0 0 1 0 1 2 0 2 3 1 0
HTTPS 代理不适用于 Python 的 requests 模块

我对 Python 还很陌生我一直在使用他们的 requests 模块作为 PHP 的 cURL 库的替代品我的代码如下 import requests import json import os import urllib impor
如何将 numpy.matrix 提高到非整数幂？

The 运算符为numpy matrix不支持非整数幂 gt gt gt m matrix 1 0 0 5 0 5 gt gt gt m 2 5 TypeError exponent must be an integer 我想要的是 oct
循环中断打破tqdm

下面的简单代码使用tqdm https github com tqdm tqdm在循环迭代时显示进度条 import tqdm for f in tqdm tqdm range 100000000 if f gt 100000000 4 b
Numpy 优化

我有一个根据条件分配值的函数我的数据集大小通常在 30 50k 范围内我不确定这是否是使用 numpy 的正确方法但是当数字超过 5k 时它会变得非常慢有没有更好的方法让它更快 import numpy as np N 5000
如何改变Python中特定打印字母的颜色？

我正在尝试做一个简短的测验并且想将错误答案显示为红色欢迎来到我的测验您想开始吗是的祝你好运法国的首都是哪里法国随机答案不正确的答案我正在尝试将其显示为红色我的代码是 print Welcome to my Quiz be
从 pygame 获取 numpy 数组

我想通过 python 访问我的网络摄像头不幸的是由于网络摄像头的原因 openCV 无法工作 Pygame camera 使用以下代码就像魅力一样 from pygame import camera display camera in
对输入求 Keras 模型的导数返回全零

所以我有一个 Keras 模型我想将模型的梯度应用于其输入这就是我所做的 import tensorflow as tf from keras models import Sequential from keras layers imp
循环标记时出现“ValueError：无法识别的标记样式 -d”

我正在尝试编码pyplot允许不同标记样式的绘图这些图是循环生成的标记是从列表中选取的为了演示目的我还提供了一个颜色列表版本是Python 2 7 9 IPython 3 0 0 matplotlib 1 4 3 这是一个简单的代
Python - 字典和列表相交

给定以下数据结构找出这两种数据结构共有的交集键的最有效方法是什么 dict1 2A 3A 4B list1 2A 4B Expected output 2A 4B 如果这也能产生更快的输出我可以将列表不是 dict1 组织到任何其他数
改变字典的哈希函数

按照此question https stackoverflow com questions 37100390 towards understanding dictionaries 我们知道两个不同的字典 dict 1 and dict 2例

随机推荐

如何使用 Dapper ORM 获取子对象的值？

我正在使用以下内容检索个人资料详细信息 var profiles connection Query
GitHub自动合并后出现致命错误

我在 GitHub 上有一个存储库位于here https github com dapphp securimage 我为某人创建了一个工作分支他们分叉了存储库对工作分支进行了一些更改并提交了拉取请求我尝试了这些更改一切都很好而
在javascript中调用php函数而不等待响应

我知道如何使用 ajax 我有一个 Codeigniter 项目所以我只需调用 url 这一切都很好但 ajax 等待响应我只想像您在浏览器中输入的那样调用该网址我不想等待响应因为控制器会进行重定向然后加载视图我还需要能够通过
Pandas 将 Series/DataFrame 限制为一列的值范围

我想要一个函数 df out df in val min val max 它通过选择一列中的值在定义范围内的行来从另一个系列数据帧中生成排序的系列数据帧例如如果 df in 看起来像这样 Name Age John 13 Jack
Laravel 8 迁移“一般错误：1215 无法添加外键约束”

我正在尝试在 Laravel 8 上创建迁移这是我的表 class CreateProductVariationOrderTable extends Migration Run the migrations return void pub
动态更改打印数据

我正在寻找一种方法来操纵发送到打印机目前是喷墨打印机可能是 HP 2460 的数据我想在打印机每次尝试打印时动态更改数据 IE 在点 1 处打印的页面将正常保留但纸张可能会改变其位置因此我正在寻找一种旋转输入图像以抵消纸张旋转的
如何在 Android 中创建带有虚线/点线分隔线的 ListView？

我设法通过创建一个名为的文件来弄清楚如何创建自定义形状带有虚线 dash xml里面的应用程序 res drawable folder
Jenkins 工件插件不归档空目录

我使用 Jenkins 工件插件来向下流使用我的问题是尽管我付出了一切努力但空文件夹并未被存档显然 svn 文件也没有存档首先你是对的空目录不能被归档因为目录作为 Jenkins 中的工件并没有真正的意义如果您要将工件复制
OAuth2（授权代码授予类型）的重定向 URI 中是否应该存在动态查询参数

诸如此类的来源Okta 赞助网站 https www oauth com oauth2 servers redirect uris redirect uri registration 参见按请求定制部分提到授权请求的redirect
将文件添加到文件夹时运行 Google 脚本

我希望每次将文件添加到特定文件夹时运行谷歌脚本这可以做到吗目前我有一个触发器使脚本每分钟运行一次但这并不总是足够快 function mainFunction const folderID folderID provide here
使用 pymssql 连接到 SQL Server 实例

我正在尝试使用 pymssql 版本 2 0 0b1 dev 20111019 使用 Python 2 7 1 从 Windows 机器连接到 SQL Server 实例我已经从控制台尝试了最基本的方法 import pymssql c
将 GLEW 与 CMake 链接

如何使用 CMake 将 GLEW 链接到项目我们已经尝试使用 CMake 将 GLEW 链接到我们的项目至少 3 个小时但没有成功因此接受任何帮助我正在使用 CMake 3 1 0 附带的 FindGLEW cmake CMake
WPF 中动画宽度与实际宽度？

在 WPF 中如何将元素的宽度从 0 动画到其实际宽度我试过这个
RegEx Tokenizer：将文本拆分为单词、数字、标点符号和空格（不要删除任何内容）

I almost找到了这个问题的答案这个线程 https stackoverflow com questions 5214177 regex tokenizer to split a text into words digits and p
为什么继承类的实例无法访问不同包中基类的受保护成员

我有 3 个 A B C 类 package com training protectedclass A public class A protected int value package com training protectedcl
iText7 将 HTML 转换为 PDF“System.NullReferenceException”。

旧标题 iTextSharp 将 HTML 转换为 PDF 该文档没有页面我正在使用 iTextSharp 和 xmlworker 将 html 从视图转换为 ASP NET Core 2 1 中的 PDF 我尝试了在网上找到的许多代码片
无法格式化操作栏标题

这可能是一个非常简单的问题但目前我无法对其进行排序我的行动设置如下 get action bar ActionBar actionBar getSupportActionBar set up the action bar layout
在 C++ 中触发事件并在 C# 中处理它们

我有一台带有一些数字 I O 引脚的工业计算机制造商提供了一些C 库和示例来处理引脚状态变化我需要将此事件集成到 C 应用程序中据我所知执行此操作的最简单方法是为制造商库创建一个托管 C CLI 包装器当从 DIO 引脚发出中断
python pickle 给出“AttributeError: 'str' 对象没有属性 'write'”

当我尝试腌制某些东西时我会得到一个AttributeError str object has no attribute write 一个例子 import pickle pickle dump a dict True a file pic
Sklearn CountVectorizer：将表情符号保留为单词

我正在使用 SklearnCountVectorizer在字符串上但是CountVectorizer丢弃文本中的所有表情符号例如 Welcome应该给我们 xf0 x9f x91 x8b welcome 但是运行时 vect Count

Sklearn CountVectorizer：将表情符号保留为单词

Sklearn CountVectorizer：将表情符号保留为单词 的相关文章

随机推荐

热门标签

Sklearn CountVectorizer：将表情符号保留为单词的相关文章