单词和表情符号计数器

2024-04-28

我有一个包含“clear_message”列的数据框,并且创建了一个用于计算每行中所有单词的列。

history['word_count'] = history.clear_message.apply(lambda x: Counter(x.split(' ')))

例如,如果行消息是:Hello my name is Hello那么他所在行的计数器将是Counter({'Hello': 2, 'is': 1, 'my': 1, 'name': 1})

问题

我的文本中有表情符号,我还想要一个表情符号计数器。

例如:

test = '????????????????????here sasdsa'
test_counter = Counter(test.split(' '))

输出是:

Counter({'sasdsa': 1, '????????????????????here': 1})

但我想要:

Counter({'sasdsa': 1, '????': 5, 'here':1})

显然问题是我正在使用split(' ').

我的想法是:

在表情符号前后添加一个空格。喜欢:

test = '???? ???? ???? ???? ???? here sasdsa'

然后使用 split,这样就可以了。

  1. 不确定这种方法是最好的。
  2. 不知道该怎么做。 (我确实知道如果i是一个表情符号,那么if i in emoji.UNICODE_EMOJI将返回 true (emoji包裹))。

我认为你在每个表情符号后面添加一个空格的想法是一个好方法。如果表情符号和下一个字符之间已经有空格,您还需要去除空格,但这很简单。就像是:

def emoji_splitter(text):
    new_string = ""
    for char in text:
        if char in emoji.UNICODE_EMOJI:
            new_string += " {} ".format(char)
        else:
            new_string += char
    return [v for v in map(lambda x: x.strip(), new_string.split(" ")) if v != ""]

也许您可以通过使用滑动窗口来检查表情符号后面的空格并仅在必要时添加空格来改进这一点,但这会假设只有一个空格,因为此解决方案应考虑表情符号之间的 0 到 n 个空格。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

单词和表情符号计数器 的相关文章

随机推荐

  • make: *** 没有规则可以创建“all”所需的目标“gcc”。停止

    我正在通过一个eg pgm 来创建一个make 文件 http mrbook org tutorials make http mrbook org tutorials make 我的文件夹eg make creation包含以下文件 des
  • 为什么 lambda 可以将函数调用转换为 Actions?

    在此代码片段中 List
  • TinyIoC、Xamarin.iOS、链接器设置

    我正在尝试让 TinyIoC 在 Xamarin iOS 上运行 但运气不太好 我的项目链接器设置设置为 仅链接 SDK 程序集 我实际上正在做这么简单的事情 public interface IPerson int age get pub
  • 带输入的 R闪亮仪表板可折叠菜单项

    我正在尝试实施一个fileInput using library shinydashboard 为用户提供上传文件的选项 就像完成的那样 here https shiny rstudio com articles upload html具有
  • 检索多行最后插入的 id

    当将数据插入具有自动递增 PK 的表时 我需要获取该密钥以在另一个语句中使用 正如许多问题所示 这可以在 PHP 中使用mysql insert id 但是 我一直将插入内容分组在一起 因此一次插入不止一行 我这样做是因为我猜测可能会存在一
  • MATLAB:解包函数

    我正在与 Mathworks 的某人讨论 unwrap http www mathworks com access helpdesk help techdoc ref unwrap html函数中对于 以外的跳跃容差有一个 bug 并且希望
  • 如何取消 Vim 中的粘贴操作?

    每当我不小心在 Putty 中右键单击 打开 Vim 时 我的剪贴板上就有相当多的文本 并且 Vim 启动了粘贴操作 该操作已经持续了大约十分钟 我不想丢失未保存的工作 有没有办法指示 Vim 停止粘贴文本 If you re in nor
  • LDAP中超时的实现

    我一直在处理我们正在使用的应用程序LDAP获取用户详细信息 有时获取用户详细信息需要更多时间 我想实施time out获取详细信息的方法 以便我们可以避免在最坏的情况下在服务器中挂起事务 这里我们使用的是LdapUtil我们在其中配置的类L
  • 应用程序在 iPhone 上运行时崩溃,违规为例外

    Thread 1 Crashed 0 libsystem kernel dylib 0x1e81a458 abort with payload 24 1 libsystem kernel dylib 0x1e817dd9 system se
  • 在 PHP 中用星号 (*) 提示或部分隐藏电子邮件地址

    我有这个邮件地址 email protected cdn cgi l email protection 如何将其转换为该邮件地址a email protected cdn cgi l email protection 我尝试使用strpos
  • Spring数据异常处理

    我正在使用 Spring Data JPA 开发一个项目 我需要处理 JpaRepository 方法调用中的一些异常 在下面的代码中 我需要拦截主键违规错误 但无法直接捕获异常 就我而言 当发生此类异常时 存储库层 JpaReposito
  • com.android.builder.packaging.DuplicateFileException:在 APK META-INF/maven/com.fasterxml.jackson.core/jackson-databind/pom.xml 中复

    我正在创建一个使用 Rest API 来获取数据的应用程序 对于该操作 我使用 Retrofit2 okhttp3 和 jackson 将 json 解析为对象 我的应用程序还使用 Firebase Cloud Messaging 当我编译
  • 规划 git 迁移的存储库布局

    我目前有一个大型 30K 提交 SVN 存储库 正在将其转换为 git 我们的代码库当前拥有一组通用 核心 代码 以及两个独立的基础 Java 和 NET 这使我们能够共享通用代码 并且当我们将构建推送给仅支持两种语言之一的客户时 我们可以
  • 通过站点到站点 VPN 将 Azure 网站连接到本地数据库

    我的目标是运行一个天蓝色的网站 该网站可以访问我们本地公司数据库中的数据 我按照网络上的教程设置了一个 Azure 虚拟网络 并通过站点到站点 VPN 将其连接到我们本地公司网络 在天蓝色门户中 我可以看到连接实际上正在工作 并且数据已被接
  • 如何限制打字稿中的枚举字符串值

    我有具有可能的行动价值的类型 type PersistentAction park retry skip stop 然后我想用动作定义枚举 enum persistentActions PARK park RETRY retry SKIP
  • 在我自己的文件夹结构中的 Sequelize 中的迁移

    我是新来的Sequelize我当前的项目要求我将它与迁移一起使用 我熟悉迁移的内容和方式 我来自Django背景 每个子应用程序在同一文件夹中都有模态 视图 api url 和迁移 我喜欢这个结构 并希望在我的 Nodejs 应用程序中保持
  • 将 Azure Blob 与 Azure 网站连接

    我正在尝试将 Azure 网站连接到 Azure blob 我打算在容器中托管一些文件 然后从我的网站获取它们 我从本教程开始 http azure microsoft com en us documentation articles we
  • 自定义列表视图的选择器“更改 ListView 背景 - 奇怪的行为”

    我正在用这个教程 http www androidpeople com android custom listview tutorial example part 2 我想为此列表视图添加选择器 我尝试了一些代码 但它不起作用 我该怎么做
  • Python相对导入导致语法错误:无效语法

    我正在尝试安装这个很棒的 python 模块Python Chrono http oss codepoet no python chrono wiki Home我的 python 环境 但至少在 python 2 4 3 和 2 6 6 中
  • 单词和表情符号计数器

    我有一个包含 clear message 列的数据框 并且创建了一个用于计算每行中所有单词的列 history word count history clear message apply lambda x Counter x split