制作词云(纯代码)

2023-11-19

词云技术是一种将单词数据可视化的技术,通常将单词按照出现频率在一个图形中显示,单词在图形中的大小表示其出现的频率。
词云技术最初是为了数据挖掘和文本分析而开发的,但现在它已经成为了一种常见的数据可视化方式,常用于展示文章、调查问卷、舆情分析等文本数据,可以让用户快速了解文本的热点和关键词。
词云的生成一般包括以下步骤:

收集文本数据并进行处理,去除一些无用信息,例如停用词等;
对于每个单词计算其出现频率,可以使用Python的nltk和jieba等自然语言处理工具来实现;
根据单词的频率和一些其他的配置参数,使用词云库(例如wordcloud)来生成词云图像;
可以使用matplotlib库来展示词云,也可以将其保存为文件。

值得注意的是,词云并不是一种严格意义上的数据分析方法,它只能展示数据的一部分。在某些情况下,词云可能会产生误导性的信息,需要结合其他的数据分析方法来进行分析和判断。

def getText(filepath):
    f=open(filepath,"r",encoding='utf-8')
    text=f.read()
    f.close()
    return text

import jieba
def wordFreq(filepath,text,topn):
    f=open(filepath,"r",encoding='utf-8')
    text=f.read()
    words=jieba.lcut(text.strip())
    counts={}
    for word in words:
        if len(word)==1:
            continue
        else:
            counts[word]=counts.get(word,0)+1
    items=list(counts.items())
    items.sort(key=lambda x:x[1],reverse=True)
    f=open(filepath[:-4]+'_词频.txt',"w")
    for i in range(topn):
        word,count=items[i]
        f.write("{}\t{}\n".format(word,count))
    f.close()
    
getText(r"E:\大创\江苏省数字化公共服务能力提升路径研究\n2.txt")
f=open(r"E:\大创\江苏省数字化公共服务能力提升路径研究\n2.txt","r",encoding='utf-8')
text=f.read()
wordFreq(r"E:\大创\江苏省数字化公共服务能力提升路径研究\n2.txt",text,70)


# In[14]:


import matplotlib.pyplot as plt
import wordcloud
from imageio import imread
bg_pic=imread(r'E:\大创\江苏省数字化公共服务能力提升路径研究\n.jpg')
f=open(r"E:\大创\江苏省数字化公共服务能力提升路径研究\n2_词频.txt")
text=f.read()
f.close()
wcloud=wordcloud.WordCloud(font_path=r'C:\Windows\Fonts\simhei.ttf',background_color="white",width=1000,
                        max_words=500,
                        mask=bg_pic,
                        height=860,margin=2).generate(text)

wcloud.to_file("n2cloud.jpg")

plt.imshow(wcloud)
plt.axis('off')
plt.show()

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

制作词云(纯代码) 的相关文章

  • 如何在python中读取多个文件中的文本

    我的文件夹中有许多文本文件 大约有 3000 个文件 每个文件中第 193 行是唯一包含重要信息的行 我如何使用 python 将所有这些文件读入 1 个文本文件 os 模块中有一个名为 list dir 的函数 该函数返回给定目录中所有文
  • InterfaceError:连接已关闭(使用 django + celery + Scrapy)

    当我在 Celery 任务中使用 Scrapy 解析函数 有时可能需要 10 分钟 时 我得到了这个信息 我用 姜戈 1 6 5 django celery 3 1 16 芹菜 3 1 16 psycopg2 2 5 5 我也使用了psyc
  • 使用 openCV 对图像中的子图像进行通用检测

    免责声明 我是计算机视觉菜鸟 我看过很多关于如何在较大图像中查找特定子图像的堆栈溢出帖子 我的用例有点不同 因为我不希望它是具体的 而且我不确定如何做到这一点 如果可能的话 但我感觉应该如此 我有大量图像数据集 有时 其中一些图像是数据集的
  • 如何在android上的python kivy中关闭应用程序后使服务继续工作

    我希望我的服务在关闭应用程序后继续工作 但我做不到 我听说我应该使用startForeground 但如何在Python中做到这一点呢 应用程序代码 from kivy app import App from kivy uix floatl
  • 如何打印没有类型的defaultdict变量?

    在下面的代码中 from collections import defaultdict confusion proba dict defaultdict float for i in xrange 10 confusion proba di
  • 更改自动插入 tkinter 小部件的文本颜色

    我有一个文本框小部件 其中插入了三条消息 一条是开始消息 一条是结束消息 一条是在 单位 被摧毁时发出警报的消息 我希望开始和结束消息是黑色的 但被毁坏的消息 参见我在代码中评论的位置 插入小部件时颜色为红色 我不太确定如何去做这件事 我看
  • 如何使用装饰器禁用某些功能的中间件?

    我想模仿的行为csrf exempt see here https docs djangoproject com en 1 11 ref csrf django views decorators csrf csrf exempt and h
  • 从列表中的数据框列中搜索部分字符串匹配 - Pandas - Python

    我有一个清单 things A1 B2 C3 我有一个 pandas 数据框 其中有一列包含用分号分隔的值 某些行将包含与上面列表中的一项的匹配 它不会是完美的匹配 因为它在其中包含字符串的其他部分 该列 例如 该列中的一行可能有 哇 这里
  • 在 NumPy 中获取 ndarray 的索引和值

    我有一个 ndarrayA任意维数N 我想创建一个数组B元组 数组或列表 其中第一个N每个元组中的元素是索引 最后一个元素是该索引的值A 例如 A array 1 2 3 4 5 6 Then B 0 0 1 0 1 2 0 2 3 1 0
  • IRichBolt 在storm-1.0.0 和 pyleus-0.3.0 上运行拓扑时出错

    我正在运行风暴拓扑 pyleus verbose local xyz topology jar using storm 1 0 0 pyleus 0 3 0 centos 6 6并得到错误 线程 main java lang NoClass
  • 在pyyaml中表示具有相同基类的不同类的实例

    我有一些单元测试集 希望将每个测试运行的结果存储为 YAML 文件以供进一步分析 YAML 格式的转储数据在几个方面满足我的需求 但测试属于不同的套装 结果有不同的父类 这是我所拥有的示例 gt gt gt rz shorthand for
  • Abaqus 将曲面转化为集合

    我一直试图在模型中找到两个表面的中心 参见照片 但未能成功 它们是元素表面 面 查询中没有选项可以查找元素表面的中心 只能查找元素集的中心 找到节点集的中心也很好 但是我的节点集没有出现在工具 gt 查询 gt 质量属性选项中 而且我找不到
  • HTTPS 代理不适用于 Python 的 requests 模块

    我对 Python 还很陌生 我一直在使用他们的 requests 模块作为 PHP 的 cURL 库的替代品 我的代码如下 import requests import json import os import urllib impor
  • ExpectedFailure 被计为错误而不是通过

    我在用着expectedFailure因为有一个我想记录的错误 我现在无法修复 但想将来再回来解决 我的理解expectedFailure是它会将测试计为通过 但在摘要中表示预期失败的数量为 x 类似于它如何处理跳过的 tets 但是 当我
  • Python - 在窗口最小化或隐藏时使用 pywinauto 控制窗口

    我正在尝试做的事情 我正在尝试使用 pywinauto 在 python 中创建一个脚本 以在后台自动安装 notepad 隐藏或最小化 notepad 只是一个示例 因为我将编辑它以与其他软件一起使用 Problem 问题是我想在安装程序
  • 如何改变Python中特定打印字母的颜色?

    我正在尝试做一个简短的测验 并且想将错误答案显示为红色 欢迎来到我的测验 您想开始吗 是的 祝你好运 法国的首都是哪里 法国 随机答案不正确的答案 我正在尝试将其显示为红色 我的代码是 print Welcome to my Quiz be
  • 通过数据框与函数进行交互

    如果我有这样的日期框架 氮 EG 00 04 NEG 04 08 NEG 08 12 NEG 12 16 NEG 16 20 NEG 20 24 datum von 2017 10 12 21 69 15 36 0 87 1 42 0 76
  • 设置 torch.gather(...) 调用的结果

    我有一个形状为 n x m 的 2D pytorch 张量 我想使用索引列表来索引第二个维度 可以使用 torch gather 完成 然后然后还设置新值到索引的结果 Example data torch tensor 0 1 2 3 4
  • 从 Python 中的类元信息对 __init__ 函数进行类型提示

    我想做的是复制什么SQLAlchemy确实 以其DeclarativeMeta班级 有了这段代码 from sqlalchemy import Column Integer String from sqlalchemy ext declar
  • Python 分析:“‘select.poll’对象的‘poll’方法”是什么?

    我已经使用 python 分析了我的 python 代码cProfile模块并得到以下结果 ncalls tottime percall cumtime percall filename lineno function 13937860 9

随机推荐

  • 数学建模的六个步骤

    一 模型准备 了解问题的实际背景 明确其实际意义 掌握对象的各种信息 以数学思路来解释问题的精髓 数学思路贯彻问题的全过程 进而用数学语言来描述问题 要求符合数学理论 符合数学习惯 清晰准确 理解实际问题后 搜集资料 快速阅读和理解参考文献
  • 神经网络编程技巧(一):两个矩阵相乘报错,np.random.randn(5,)不是矩阵,np.random.randn(5,1)才能得到1*5的矩阵,np.dot()函数

    np dot函数主要用于向量的点积和矩阵的乘法 格式如下np dot a b 其中a b均为n维向量 具体例子参考下面的代码及其结果 在神经网络中经常使用这个函数 能够节约大量的时间 原来复杂的公式在编程时只需要这一行代码即可实现 在编写p
  • Qt实现Excel读写

    QtXlsx 是 第三方的Qt库 为Qt程序提供读写Excel的接口 不单单是Microsoft Excel 它可以用于任何Qt支持的平台 相比Qt官方的QAxObject QtXlsx提供的接口封装层次更高 使用更加简便 github主页
  • LeetCode 933. 最近的请求次数

    写一个 RecentCounter 类来计算特定时间范围内最近的请求 请你实现 RecentCounter 类 RecentCounter 初始化计数器 请求数为 0 int ping int t 在时间 t 添加一个新请求 其中 t 表示
  • 存储计划:自动kill掉死锁进程id

    CREATE PROCEDURE dbo sp who lock1116 AS exec sp who lock1116 begin declare spid int bl int intTransactionCountOnEntry in
  • 结构体封装(C语言)

    转自 http blog jobbole com 57822 我也不理会失不失落 只是对结构体封装技术感兴趣 目录 1 谁该阅读这篇文章 2 我为什么写这篇文章 3 对齐要求 4 填充 5 结构体对齐及填充 6 结构体重排序 7 难以处理的
  • suggest ajax,高仿google suggest ajax示例

    搜索提示框 var obj div 提示层对象 var obj input 输入框对象 var main delay 判断值变化延迟对象 var ajax delay ajax延迟搜索对象 var updown delay 方向键延迟对象
  • 13. 机器人正运动学---雅克比矩阵(1)

    目录 1 引言 2 雅克比矩阵 3 机器人雅克比矩阵 4 求解雅克比矩阵 4 1 几何法 1 引言 前面的一些文章我们一直对机器人进行静态分析 也就是给定一组关节角求机器人末端位姿 这篇文章我们来分析一下关节角的运动将怎样影响机器人末端的位
  • 全国大学生算法设计与编程挑战赛 (秋季赛)——正式赛

    染方块 color Description 现在有一个 n times nn n 的方格 每一个格子是红块 X 绿块 O 或者空白块 而你可以把空白块染成红色 在你对你想染色的空白块进行染色之后 方格会有这样的变化 如果一个绿色块上下左右都
  • Java调用kettle实现ETL功能:使用mysql8.0.x版本的驱动

    来个目录吧 背景 实现 效果 附录 参考文档 背景 最近项目上需要java调用kettle实现ETL逻辑 所以找度娘看了看kettle相关的知识 刚开始写了个demo项目 见参考文档 在demo上能正常调用ktr文件 所以就转移到了项目中
  • v-model绑定导致的element UI文本框输入第一次值后被绑定,导致空文本框无法再输入文字

    在工作岗位上 上边分配一个任务 创建一个页面 从0 1 全部自己搭建 也没有啥模版 就这么来 那就直接来吧 没办法 那就直接上手 开发过程中 我使用了v model对输入文本框的值进行双向绑定 这样可以直接使用用户输入文本框的值 同时 后端
  • arm64汇编b带条件跳转指令和bl跳转带返回ret指令

    文章目录 ret返回指令 B 跳转指令 BL 带返回的跳转指令 B指令可以接上后缀 用来和cmp比较后待条件的跳转 ret返回指令 cpu遇到ret之后 会把lr赋值给pc 这样cpu执行了pc里的地址的指令 就是执行调用这个函数的下一条指
  • fork之后子进程到底复制了父进程什么

    fork之后子进程到底复制了父进程什么 发表于2015 4 3 9 54 08 2161人阅读 分类 操作系统 include
  • 从大学E-R图分析ER图中单线、双线、带箭头线表达的意思

    我们将从下面这张图开始讲起 1 双线 带箭头线 观察上图满足双线 带箭头线的有 course和department course和course dept之间有一条双线 表示course在course dept中全部参与 即每个课程必须和一个
  • 握手2倍速率进,一倍速率出[verilog]

    module two to one parameter WORD LEN 33 input clk input arst input 2 WORD LEN 1 0 i din input i din valid output o din r
  • 【顺序表图书管理】

    一 实验目的 掌握顺序存储的线性表的创建 查找 插入 删除和输出操作 二 实验内容 实现一个存放图书信息的顺序表 三 实验要求 图书的基本信息有图书编号 例如 1 2 3 4等 书名和价格等 对图书的顺序表进行查找 插入 删除和输出操作 3
  • 一些关于dagger2的理解(一)

    转自 http blog csdn net shareye1992 article details 51398554 首先 真实的原理我不准 但是我还是提供我的理解 阅读这篇文章希望读者能满足一个假设 不管懂不懂 看过一些其他关于dagge
  • tshark命令小结

    基本语法 tshark a
  • centos7安装kubeadm

    安装配置docker v1 9 0版本推荐使用docker v1 12 v1 11 v1 13 17 03也可以使用 再高 版本的docker可能无法正常使用 测试发现17 09无法正常使用 不能使用资源限制 内存CPU 安装docker
  • 制作词云(纯代码)

    词云技术是一种将单词数据可视化的技术 通常将单词按照出现频率在一个图形中显示 单词在图形中的大小表示其出现的频率 词云技术最初是为了数据挖掘和文本分析而开发的 但现在它已经成为了一种常见的数据可视化方式 常用于展示文章 调查问卷 舆情分析等